కీ:
[ , ] యాంత్రిక విచ్ఛిన్న Google ఫ్లూ ట్రెండ్లులో ఒక సమస్య ఉంది. కాగితం చదవండి Lazer et al. (2014) , మరియు సమస్య వివరిస్తూ సమస్య పరిష్కరించడానికి ఒక ఆలోచన అందించటం గూగుల్ లో ఇంజనీర్ ఒక చిన్న, స్పష్టమైన ఇమెయిల్ వ్రాయండి.
[ ] Bollen, Mao, and Zeng (2011) ట్విట్టర్ నుండి డేటా స్టాక్ మార్కెట్ అంచనా ఉపయోగించవచ్చు ప్రకటిస్తోంది. ఈ విషయము ఒక హెడ్జ్ ఫండ్-డెర్వెంట్ కాపిటల్ ట్విట్టర్ నుండి సేకరించిన సమాచారం ఆధారంగా స్టాక్ మార్కెట్ లో పెట్టుబడి మార్కెట్స్ టు సృష్టికి దారితీసింది (Jordan 2010) . ఏం సాక్ష్యం మీరు ఫండ్ లో మీ డబ్బు పెట్టటం ముందు చూడండి అనుకుంటున్నారో?
[ ] కొన్ని ప్రజారోగ్య న్యాయవాదులు ధూమపానం విరమణ కోసం సమర్థవంతమైన చికిత్స వంటి ఇ-సిగరెట్లు hail ఉన్నప్పటికీ, ఇతరులు వంటి నికోటిన్ యొక్క అధిక స్థాయిలు సమర్ధమైన అపాయాలు గురించి హెచ్చరిస్తుంది. ఒక పరిశోధకుడు ఇ-సిగరెట్లు సంబంధిత Twitter పోస్ట్లు సేకరించి సెంటిమెంట్ విశ్లేషణ చెయ్యటం ద్వారా ఇ-సిగరెట్లు విషయంలో ప్రజా అభిప్రాయ అధ్యయనం నిర్ణయించుకుంటాడు ఆలోచించండి.
[ ] నవంబర్ 2009 లో, ట్విటర్ ప్రశ్నకు ట్వీట్ బాక్స్ లో నుండి "వాట్ మీరు చేస్తున్న?" అని మార్చి "ఏం?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) 41.7 మిలియన్ యూజర్ ప్రొఫైల్స్, 1.47 బిలియన్ సామాజిక సంబంధాలు, 4262 అంశాల తీరు, మరియు 106 మిలియన్ జూన్ 6 వ జూన్ 31 మధ్య ట్వీట్లు, 2009 విశ్లేషించారు ఈ విశ్లేషణ వారు ట్విట్టర్ కంటే సమాచారాన్ని పంచుకోవడం ఒక కొత్త మాధ్యమంగా ఎక్కువ పనిచేస్తుంది నిర్ధారించారు ఆధారంగా సామాజిక నెట్వర్క్.
[ ] "Retweets" తరచుగా ప్రభావం కొలవటానికి ఉపయోగిస్తారు మరియు ట్విట్టర్ మీద ప్రభావం విస్తరించి ఉన్నాయి. మొదట్లో, వినియోగదారులు కాపీ మరియు వారు మెచ్చుకున్నారు ట్వీట్ పేస్ట్, అతని / ఆమె హ్యాండిల్ అసలు రచయిత ట్యాగ్, మరియు మాన్యువల్గా దీన్ని ఒక మళ్ళీ ట్వీట్ అని సూచించడానికి "RT" అని టైప్ ట్వీట్ ముందు. తర్వాత 2009 లో ట్విటర్ "మళ్ళీ ట్వీట్" బటన్ జోడించారు. జూన్ 2016 లో, ట్విటర్ అది వారి సొంత ట్వీట్లు ట్వీట్ వినియోగదారులు (https://twitter.com/twitter/status/742749353689780224) కోసం తయారు. మీరు ఈ మార్పులను మీ పరిశోధన లో "retweets" ఉపయోగించండి ఎలా ప్రభావితం చేయాలి అనుకుంటున్నారా? ఎందుకు లేదా ఎందుకు కాదు?
[ , , ] Michel et al. (2011) పుస్తకాలు సాంఖ్యీకరించడానికి Google యొక్క ప్రయత్నం నుండి వెలువడిన ఒక కార్పస్ నిర్మించారు. 2009 లో ప్రచురించబడింది మరియు 5 మిలియన్ల డిజిటైజ్ పుస్తకాలుండేవి ఇది కార్పస్, మొదటి వెర్షన్ ఉపయోగించి, రచయితలు భాషాపరమైన మార్పులు మరియు సాంస్కృతిక పోకడలు దర్యాప్తు పదం వాడుక ఫ్రీక్వెన్సీ విశ్లేషించారు. త్వరలో గూగుల్ బుక్స్ కార్పస్ పరిశోధకులకు ఒక ప్రముఖ డేటా మూలం అయ్యింది, మరియు డేటాబేస్ 2 వ వెర్షన్ 2012 లో విడుదలయింది.
అయితే, Pechenick, Danforth, and Dodds (2015) పరిశోధకులు పూర్తిగా విస్తృత నిర్దారణలను ఉపయోగించే ముందు కార్పస్ శాంప్లింగ్ ప్రక్రియను వివరించే చేయాలి హెచ్చరించారు. ప్రధాన సమస్య కార్పస్ ప్రతి పుస్తకం కూడా ఒకటి, లైబ్రరీ లాంటి ఉంటుంది. ఫలితంగా, ఒక వ్యక్తి, ఫలవంతమైన రచయిత గమనించదగిన గూగుల్ బుక్స్ పదకోశంలోకి కొత్త పదబంధాలు ఇన్సర్ట్ చెయ్యలేరు ఉంది. అంతేకాక, శాస్త్రీయ పాఠాలు 1900 అంతటా కార్పస్ పెరుగుతున్న యదార్థమైన భాగం ఉన్నారు. అదనంగా, ఇంగ్లీష్ ఫిక్షన్ డేటాసమితులు Pechenick మొదలైనవారు యొక్క రెండు వెర్షన్లను పోల్చడం ద్వారా. తగినన్ని వడపోత మొదటి వెర్షన్ ఉత్పత్తి ఉపయోగించే దొరకలేదు సాక్ష్యం. కార్యకలాపానికి అవసరమైన డేటాను అన్ని ఇక్కడ అందుబాటులో ఉంది: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) జూన్ 2013 లో NSA / ప్రిజం నిఘా (అంటే, స్నోడెన్ వెల్లడైన) గురించి విస్తృతంగా ప్రచారం వికీపీడియా కథనాల గోప్యతా ఆందోళనలను రేకెత్తిస్తున్నాయి అంశాలపై ట్రాఫిక్ లో ఒక పదునైన మరియు ఆకస్మిక తగ్గుదల సంబంధం ఉంది అని విశ్లేషించారు. అలా అయితే, ప్రవర్తన ఈ మార్పు సామూహిక నిఘా ఫలితంగా ఒక Chilling ప్రభావం స్థిరంగా ఉంటుంది. సమీపించడంతో Penney (2016) కొన్నిసార్లు ఆగకుండా సమయ శ్రేణి డిజైన్ అని పిలుస్తారు మరియు పరిశీలన డేటా (విభాగం 2.4.3) నుండి ప్రయోగాలు దాదాపు గురించి అధ్యాయంలో విధానాలతో సంబంధం కలిగి ఉంది.
విషయం కీలక పదాలు ఎంచుకోవడానికి, పెన్నీ ట్రాకింగ్ మరియు సామాజిక మీడియా పర్యవేక్షణ హోంల్యాండ్ సెక్యూరిటీ సంయుక్త శాఖ ఉపయోగించింది జాబితాకు సూచిస్తారు. DHS జాబితాలో సమస్యలు, అంటే "హెల్త్ ధ్యాస," "ఇన్ఫ్రా స్ట్రక్చర్ సెక్యూరిటీ," మరియు "టెర్రరిజం. శ్రేణిని కొన్ని శోధన పదాలకు వర్గీకరిస్తుంది" అధ్యయనం సమూహమునకు, పెన్నీ ఉపయోగిస్తారు నలభై ఎనిమిది కీలక సంబంధించిన 'ఉగ్రవాదం "(టేబుల్ చూడండి 8 అపెండిక్స్). అప్పుడు అతను జనవరి 2012 ప్రారంభంలో ఆగస్టు 2014 చివరి నుండి ఒక ముప్పై-రెండు నెలల కాలంలో సంబంధిత నలభై ఎనిమిది వికీపీడియా వ్యాసాలు నెలవారీ ప్రాతిపదికన వికీపీడియా వ్యాసం వీక్షణ గణనలు సమగ్రం తన వాదన బలోపేతం చేయడానికి, ఆయన పలు పోలిక రూపొందించినవారు ఇతర అంశాలపై వ్యాసం వీక్షణలు ట్రాకింగ్ ద్వారా సమూహాలుగా.
ఇప్పుడు, మీరు నకలు మరియు విస్తరించడానికి వెళ్తున్నారు Penney (2016) . మీరు ఈ సూచించే కోసం అవసరం అన్ని ముడి డేటా వికీపీడియా (https://dumps.wikimedia.org/other/pagecounts-raw/) లభించును. లేదా మీరు R ప్యాకేజీ wikipediatrend నుండి పొందవచ్చు (Meissner and Team 2016) . మీరు వ్రాసే-అప్ చేసినప్పుడు మీ స్పందనలు, దయచేసి మీరు ఉపయోగించిన డేటా మూలం గమనించండి. (గమనిక: ఈ అదే కార్యకలాపాలు చాప్టర్ 6 లో కనిపిస్తుంది)
[ ] Efrati (2016) నివేదికలు, రహస్య సమాచారం ఆధారంగా, అయితే "అసలు ప్రసార పంచుకోవటం" డౌన్ సంవత్సరం పైగా 21% సంవత్సరం "మొత్తం పంచుకోవటం" ఫేస్బుక్లో సంవత్సరం పైగా సుమారు 5.5% సంవత్సరం తగ్గాయి అని. ఈ తగ్గుదల వయస్సు 30 సంవత్సరాల లోపు ఫేస్బుక్ వినియోగదారులు ముఖ్యంగా తీవ్రమైన ఉంది. నివేదిక ఇద్దరు కారణాల తగ్గుముఖం పట్టడానికి. వన్ "స్నేహితులు" ప్రజలు Facebook లో కలిగి సంఖ్య పెరుగుదలను. ఇతర కొన్ని భాగస్వామ్య కార్యాచరణలు సందేశ మరియు SnapChat వంటి పోటీదారులకు మారింది అని. నివేదిక కూడా అనేక వ్యూహాలు అసలు పోస్ట్లు మరింత ప్రముఖ చేసే న్యూస్ ఫీడ్ అల్గోరిథం ట్వీక్స్, అలాగే అనేక సంవత్సరాల క్రితం "దిస్ డే" అసలు యూజర్లు పోస్ట్ పత్రిక రిమైండర్లు సహా ఫేస్బుక్ భాగస్వామ్యం పెంచడానికి ప్రయత్నించాడు వెల్లడైంది. ఈ ఫలితాలు ఒక డేటా మూలంగా ఫేస్బుక్ వాడుకోవాలని భావించే పరిశోధకులు కోసం ఏం చిక్కులు, ఏదైనా ఉంటే, కలిగి ఉన్నారు?
[ ] Tumasjan et al. (2010) రాజకీయ పార్టీ ప్రస్తుతించారు ట్వీట్లు అనుపాతం పార్టీ 2009 లో జర్మన్ పార్లమెంటరీ ఎన్నికల్లో పొందిన ఓట్లు (మూర్తి 2.9) నిష్పత్తి సరిపోలిన నివేదించారు. ఇతర మాటలలో, ఇది మీరు ఎన్నికల అంచనా ట్విట్టర్ వాడేవారు కనిపించింది. అది పెద్ద డేటా సాధారణ మూలం కోసం ఒక విలువైన ఉపయోగం సూచించారు కనిపించింది ఎందుకంటే సమయం ఈ అధ్యయనం ప్రచురించబడిన సమయంలో అది చాలా ఉత్తేజకరమైన భావించేవారు.
పెద్ద డేటా చెడు లక్షణాలు ఇచ్చిన, అయితే, మీరు వెంటనే ఈ ఫలితం యొక్క అనుమానాస్పద ఉండాలి. 2009 లో ట్విట్టర్ లో జర్మన్లు చాలా కాని ప్రతినిధి బృందంగా, ఒక పార్టీ మద్దతుదారులు తరచుగా రాజకీయాలు గురించి ట్వీట్ ఉండవచ్చు. అందువలన, మీరు ఊహించే కాలేదు అన్ని సాధ్యం పక్షపాతాలు ఏదో రద్దు చేసే ఆశ్చర్యం అనిపిస్తుంది. నిజానికి ఫలితాలు Tumasjan et al. (2010) నిజంగా చాలా మంచి తేలింది. వారి పరిశోధనా పత్రంలో, Tumasjan et al. (2010) క్రిస్టియన్ డెమోక్రాట్స్ (CDU) ను క్రైస్తవ సాంఘిక ప్రజాస్వామ్యవాదులు (CSU), SPD, లిబరల్స్ (FDP), ఎడమ (డై Linke), మరియు గ్రీన్ పార్టీ (Grüne): ఆరు రాజకీయ పార్టీలు భావిస్తారు. అయితే, ఆ సమయంలో ట్విట్టర్ లో అత్యంత పేర్కొన్నారు జర్మన్ రాజకీయ పార్టీ పైరేట్ పార్టీ (పైరేట్), ఇంటర్నెట్ యొక్క ప్రభుత్వ నియంత్రణ పోరాడతాడు ఒక పార్టీ. పైరేట్ పార్టీ విశ్లేషణలో చేరుస్తారు చేసినప్పుడు, ట్విట్టర్ ఎన్నికల ఫలితాలు (మూర్తి 2.9) ఒక భయంకరమైన జోస్యం తెలిపేదిగా అవుతుంది పేర్కొన్నాడు (Jungherr, Jürgens, and Schoen 2012) .
ఫ్యాన్సియెర్స్ పద్ధతుల్లో-ధన మరియు రుణ మధ్య విభజన సెంటిమెంట్ విశ్లేషణ ఉపయోగించి తదనంతరం, ప్రపంచంలోని ఇతర పరిశోధకులు ఉపయోగించారు ఎన్నికల్లో వివిధ రకాల అంచనా ట్విట్టర్ డేటా యొక్క సామర్థ్యాన్ని మెరుగుపర్చడానికి పార్టీలు-ప్రస్తావించినా (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . ఇక్కడ ఎలా Huberty (2015) ఎన్నికల్లో అంచనా ఈ ప్రయత్నాలు ఫలితాలు సంగ్రహంగా:
"నిజమైన ముందుచూపుతో ఎన్నికల అంచనా డిమాండ్లను దీని వలన సామాజిక మీడియా ఆధారంగా అన్ని తెలిసిన అంచనా పద్ధతులు విఫలమయ్యాయి. ఈ వైఫల్యాలు కాకుండా సిద్ధాంతపరమైన లేదా క్రమసూత్ర కష్టాల కంటే సామాజిక మీడియా ప్రాథమిక లక్షణాలను కారణంగా ఉన్నట్లు కనిపిస్తాయి. సంక్షిప్తంగా, సోషల్ మీడియా, లేదు మరియు బహుశా ఎప్పటికీ, స్థిరమైన, నిష్పాక్షికమైన, ప్రతినిధి ఓటర్లలో చిత్రాన్ని అందిస్తున్నాయి; మరియు సామాజిక మీడియా సౌలభ్యం నమూనాలను ఈ సమస్యలు ఈ పోస్ట్ పరిష్కరించడానికి తగిన డేటా లేదు. "
కారణమయ్యే పరిశోధనల్లో కొన్నింటిని చదవండి Huberty (2015) నిర్ధారణకు, మరియు ట్విట్టర్ ఎన్నికలు వేయడంపై వాడాలి ఉంటే మరియు ఎలా వివరిస్తూ ఒక రాజకీయ అభ్యర్థి ఒక పేజీ మెమో వ్రాయండి.
[ ] ఒక సామాజిక శాస్త్రజ్ఞుడు మరియు ఒక చరిత్రకారుడు మధ్య తేడా ఏమిటి? గోల్డ్ హోర్పే ప్రకారం (1991) , ఒక సామాజిక శాస్త్రజ్ఞుడు మరియు ఒక చరిత్రకారుడు మధ్య ప్రధాన తేడా డేటా సేకరణ పై నియంత్రణ ఉంది. చరిత్రకారులు, సామాజిక శాస్త్రవేత్తలను నిర్దిష్ట ప్రయోజనాల వారి డేటా సేకరణ తయారుచేసుకోవచ్చు అయితే శేషాలను ఉపయోగించడానికి వస్తుంది. చదువు Goldthorpe (1991) . ఎలా సామాజిక శాస్త్రం మరియు చరిత్ర మధ్య వ్యత్యాసం Custommades మరియు Readymades ఆలోచన సంబంధించినది?
[ ] మునుపటి ప్రశ్న పై, Goldthorpe (1991) నిక్కీ హార్ట్ ఒక సహా విమర్శనాత్మక అనేక చిత్రీకరించేవారు (1994) తయారు డేటా గానూ గోల్డ్ హోర్పే భక్తికి సవాలు. వాడగల డేటా సంభావ్య పరిమితులను స్పష్టం, హార్ట్ ధనిక కుటుంబం వర్కర్ ప్రాజెక్ట్, 1960 మధ్యలో గోల్డ్ హోర్పే మరియు సహచరులు నిర్వహించిన ఆ సామాజిక తరగతి మరియు ఓటింగ్ మధ్య సంబంధం లెక్కించడానికి ఒక పెద్ద సర్వేలో వివరించారు. ఒక దొరకలేదు డేటాను డేటా రూపొందించిన అనుసరించే ఒక స్కాలర్ నుంచి ఆశించిన విధంగా, ధనిక కుటుంబం వర్కర్ ప్రాజెక్ట్ జీవన ప్రమాణాలను మెరుగుపరచడం యుగంలో సామాజిక తరగతి యొక్క భవిష్యత్తు గురించి ఒక ఇటీవల ప్రతిపాదించారు సిద్ధాంతం పరిష్కరించేందుకు వ్యక్తీకరించిన ఆ డేటాను సేకరించిన. కానీ, గోల్డ్ హోర్పే మరియు సహచరులు ఏదో మహిళల ఓటింగ్ ప్రవర్తన గురించి సమాచారాన్ని సేకరించడానికి "మర్చిపోయాను". ఇక్కడ నిక్కీ హార్ట్ ఎలా (1994) మొత్తం ఎపిసోడ్ సంగ్రహం:
". . . ఈ డేటాసెట్ పురుషుడు అనుభవం మినహాయించి, ఒక నమూనా తర్కం ద్వారా మాత్రమే పరిమితమయింది 'పక్కా చేసిన' ఎందుకంటే స్త్రీలు తొలగించబడ్డాయి నిర్ధారణకు దూరంగా కష్టం [ఉంది]. పురుషుడు భావాలను క్రోడీకరించి గా తరగతి స్పృహ మరియు చర్య యొక్క ఒక సైద్ధాంతిక దృష్టి నడుపబడుతోంది. . . , గోల్డ్ హోర్పే మరియు అతని సహచరులు మృదువుగా మరియు సంపూర్ణత ఒక చెల్లుబాటు అయ్యే పరీక్ష వాటిని పరిచయం చేస్తూ బదులు వారి సొంత సైద్ధాంతిక అంచనాలు nurtured ఇది అనుభావిక ప్రమాణాలు సమితి నిర్మించారు. "
హార్ట్ కొనసాగింది:
"సంపన్న వర్కర్ ప్రాజెక్ట్ యొక్క అనుభవ కనుగొన్న వారు అసమానతలు ఉన్నాయి, రాజకీయాలు మరియు పదార్థం జీవితం ప్రక్రియలు తెలియజేయడానికి కంటే మాకు శతాబ్ది మధ్యకాలం సోషియాలజీ masculinist విలువల గురించి మరింత చెప్పండి."
మీరు వాడగల డేటా సేకరణ అది నిర్మించబడ్డ డేటా కలెక్టర్ పక్షపాతాలు కలిగి ఉన్న ఇతర ఉదాహరణలు ఆలోచించవచ్చు? ఎలా ఈ క్రమసూత్ర విచ్ఛిన్న పోల్చడానికి లేదు? ఈ పరిశోధకులు Readymades వాడాలి ఎప్పుడు కోసం చిక్కులను కలిగి మరియు వారు Custommades వాడాలి గానీ?
[ ] ఈ అధ్యాయంలో, నేను కంపెనీలు మరియు ప్రభుత్వాలు రూపొందించినవారు అధికారిక రికార్డులు తో పరిశోధకులకు పరిశోధకులు సేకరించిన డేటా విరుద్ధంగా ఉండేది. కొంతమంది ప్రజలు ఈ పరిపాలనా రికార్డులు వారు విరుద్ధంగా ఇది "డేటా కనుగొన్నము" కాల్ "రూపకల్పన డేటా." ఇది అధికారిక రికార్డులు పరిశోధకులు కనుగొన్నారు ఆ నిజం, కానీ వారు కూడా అత్యంత రూపొందించబడ్డాయి. ఉదాహరణకు, ఆధునిక సాంకేతిక సంస్థలు సేకరించి వారి డేటా పూనుకున్నాడు సమయం అపారమైన మరియు వనరులను ఖర్చు. అందుచేత, ఈ అధికారిక రికార్డులు దొరకలేదు మరియు రూపకల్పన రెండూ లేకుండా అది కేవలం మీ దృష్టికోణం (మూర్తి 2.10) ఆధారపడి ఉంటుంది.
పరిశోధన కోసం ఆ డేటా మూలం ఉపయోగిస్తున్నప్పుడు దొరకలేదు మరియు రూపకల్పన ఉపయోగపడిందా ఉంది రెండు అది చూసిన డేటా మూలం ఒక ఉదాహరణ అందించండి.
[ ] ఒక తెలివైన వ్యాసం, క్రిస్టియన్ Sandvig మరియు Eszter హార్గిట్టాయ్ (2015) డిజిటల్ వ్యవస్థ "పరికరం" లేదా ఎక్కడ డిజిటల్ పరిశోధనలు, రెండు రకాల వివరించడానికి "అధ్యయనం వస్తువు." అధ్యయనంలో మొట్టమొదటి రకానికి ఒక ఉదాహరణగా ఉన్న బెంగ్ట్సన్ మరియు సహచరులు (2011) 2010 లో హైతీ భూకంపం తర్వాత వలసలు ట్రాక్ మొబైల్ ఫోన్ డేటా ఉపయోగించే సెకండ్ రకానికి ఒక ఉదాహరణగా ఉన్న జెన్సన్ (2007) కేరళ అంతటా మొబైల్ ఫోన్ల పరిచయం, భారతదేశం చేప మార్కెట్ పనితీరును ప్రభావితం చేసింది అనే విషయాన్ని అధ్యయనాలు. అది డిజిటల్ డేటా మూలాల సర్వే వారు డేటా మూలం అదే రకమైన ఉపయోగిస్తున్నారు కూడా భిన్నమైన లక్ష్యాలను కలిగి స్పష్టం చేసింది ఎందుకంటే నేను సహాయకరంగా. రెండు మరియు అధ్యయనం యొక్క వస్తువుగా ఒక డిజిటల్ వ్యవస్థ ఉపయోగించి రెండు సాధనంగా ఒక డిజిటల్ సిస్టమ్ను ఉపయోగించే: మరింత ఈ ఘనత స్పష్టం చేయడానికి, మీరు చూసిన ఆ నాలుగు అధ్యయనాలను వివరిస్తాయి. మీరు అనుకుంటే మీరు ఈ అధ్యాయం నుంచి ఉదాహరణలు ఉపయోగించవచ్చు.