Key:
[ , ] Algoritmiskā sajaukšanas bija problēma ar Google gripas izplatība. Lasīt papīru, Lazer et al. (2014) , un uzrakstīt īsu, skaidru e-pastu inženieri Google paskaidrojot problēmu un piedāvā priekšstatu par to, kā noteikt šo problēmu.
[ ] Bollen, Mao, and Zeng (2011) apgalvo, ka dati no čivināt var izmantot, lai prognozētu akciju tirgus. Šis atklājums noveda pie izveidi riska ierobežošanas līdzekļu Derwent Capital Markets-ieguldīt akciju tirgū, pamatojoties uz savāktajiem no čivināt datiem (Jordan 2010) . Kādi pierādījumi jūs vēlaties redzēt, pirms liekot savu naudu šajā fondā?
[ ] Lai gan daži sabiedrības veselības aizstāvji krusa e-cigaretes par efektīvu palīdzību smēķēšanas atmešanai, citi brīdina par iespējamiem riskiem, piemēram, augsto līmeni nikotīna. Iedomājieties, ka pētnieks nolemj studēt sabiedrības viedokli pret e-cigaretes, vācot e-cigaretes saistītos Twitter amatu un veicot noskaņojumu analīzi.
[ ] 2009. gada novembrī, Twitter mainīja jautājumu tweet kastē no "Ko jūs darāt?" Uz "Kas notiek?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizēja 41,7 miljoni lietotāju profilus, 1,47 miljardi sociālās attiecības, 4262 trending tēmām, un 106 miljonus tweets starp jūnija 6. un 31. jūnijā, 2009. Pamatojoties uz šo analīzi, viņi secināja, ka Twitter apkalpo vairāk kā jaunu līdzekli informācijas apmaiņu nekā sociālais tīkls.
[ ] "Retweets" bieži izmanto, lai mērītu ietekmi un izplatīt ietekmes uz čivināt. Sākotnēji, lietotājiem bija kopēt un ielīmēt čivināt viņi patika, tag oriģinālo autoru ar viņa / viņas rokturi, un manuāli ierakstiet "RT" pirms tweet, lai norādītu, ka tas ir retweet. Tad, 2009.gadā Twitter pievienoja pogu "retweet". In 2016 gada jūnijā, Twitter ļāva lietotājiem retweet savu tweets (https://twitter.com/twitter/status/742749353689780224). Vai jūs domājat, ka šīs pārmaiņas ietekmē to, kā jūs izmantojat "retweets" jūsu pētniecībā? Kāpēc Vai kāpēc nē?
[ , , ] Michel et al. (2011) jākonstruē corpus jaunās no Google pūles digitalizēt grāmatas. Izmantojot pirmo versiju corpus, kas tika publicēts 2009. gadā un ietverta vairāk nekā 5 miljonus digitalizētu grāmatu, autori analizē vārdu lietošanas biežumu, lai izmeklētu valodas izmaiņas un kultūras tendences. Drīz Google Books Corpus kļuva populārs datu avots pētniekiem, un 2. versiju datu bāzes tika izlaists 2012. gadā.
Tomēr Pechenick, Danforth, and Dodds (2015) brīdināja, ka pētnieki ir nepieciešams, lai pilnībā raksturotu paraugu ņemšanas procesu corpus, pirms to izmanto, lai izstrādātu plašu secinājumus. Galvenais jautājums ir, ka corpus ir bibliotēka līdzīgi, kas satur vienu no katras grāmatas. Tā rezultātā, indivīds, ražīgs autors spēj ievērojami ievietot jaunas frāzes Google grāmatu leksikons. Turklāt zinātniskie teksti veido arvien būtisku daļu no corpus visā 1900. ir. Turklāt, salīdzinot divas versijas angļu Fiction datu kopām, Pechenick et al. atrasti pierādījumi, ka nepietiekami filtrēšana tika izmantota ražošanā pirmo versiju. Visi dati, kas nepieciešami darbībai ir pieejama šeit: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) pēta, vai plašu publicitāti par NSA / PRISM uzraudzību (ti, Snowden atklāsmes), kas 2013. gada jūnijā ir saistīta ar asu un pēkšņu samazināšanos satiksmē ar Wikipedia rakstus par tēmām, kas rada privātās dzīves problēmas. Ja tā, tad šīs izmaiņas uzvedībā būtu saskaņā ar atdzesēšanas efektu, kas izriet no masveida uzraudzību. Par pieeja Penney (2016) ir dažreiz sauc pārtraukta laika sērijas dizainu un ir saistīts ar pieejām nodaļā apmēram tuvinot eksperimentus no novērojumu datiem (2.4.3).
Izvēlēties tēmu atslēgvārdus, Penney minētas sarakstā ASV Iekšzemes drošības departamentam, ko izmanto uzskaites un sociālo mediju monitoringa. DHS saraksts categorizes dažus meklēšanas nosacījumus par jautājumu loku, ti, "veselības problēmas", "Infrastruktūra Drošība" un "terorismu." Par izpētes grupā, Penney izmantoti četrdesmit astoņi atslēgvārdus, kas saistīti ar "terorismu" (skatīt 8. tabulu pielikums). Pēc tam viņš apkopotas Wikipedia raksts apskatīt skaitu katru mēnesi par attiecīgajiem četrdesmit astoņās Wikipedia rakstus vairāk nekā trīsdesmit divu mēnešu periodā, sākot no 2012. gada janvāra līdz beigām 2014. gada augusta Lai stiprinātu savu argumentu, viņš arī radīja vairākas salīdzinājumu grupas, izsekojot viedokli rakstu par citām tēmām.
Tagad jūs gatavojas atkārtot un paplašināt Penney (2016) . Visi izejas dati, kas jums būs nepieciešams, lai šai darbībai ir pieejama no Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Vai arī jūs varat saņemt to no R iepakojuma wikipediatrend (Meissner and Team 2016) . Kad jūs rakstīt-up jūsu atbildes, lūdzu, ņemiet vērā, kādi dati avots tu izmanto. (Piezīme: Šī pati aktivitāte parādās arī 6. nodaļā)
[ ] Efrati (2016) ziņojumi, kas balstīti uz konfidenciālu informāciju, ka "kopējais apmaiņa" Facebook bija samazinājies par aptuveni 5,5% gadā, vairāk nekā gadu, bet "oriģināls raidījums sadale" bija noteikti 21% gadu vairāk nekā gadu. Šī samazināšanās bija īpaši izteikta ar Facebook lietotājiem vecumā līdz 30 gadiem. Ziņojumā piešķīrusi samazinājumu uz diviem faktoriem. Viens no tiem ir pieaugums skaita "draugi" cilvēki ir par Facebook. Otrs ir tas, ka daži koplietošana aktivitāte ir pārvietoti uz ziņapmaiņu un konkurentiem, piemēram, Snapchat. Ziņojumā arī atklāja vairākas taktiku Facebook bija mēģinājuši, lai veicinātu apmaiņu, ieskaitot News Feed algoritmu tweaks, kas padara oriģinālie posts pamanāmāks, kā arī periodisku atgādinājumus par sākotnējiem ziņojumi lietotājiem "šajā dienā" pirms vairākiem gadiem. Ko sekas, ja tādi ir, vai šie konstatējumi ir pētniekiem, kas vēlas izmantot Facebook kā datu avotu?
[ ] Tumasjan et al. (2010) ziņo, ka daļa tweets minot politisko partiju saskaņota īpatsvaru balsu ka puse saņemto Vācijas parlamenta vēlēšanām 2009. gadā (2.9 attēls). Citiem vārdiem sakot, šķita, ka jūs varētu izmantot čivināt, lai prognozētu vēlēšanas. Tajā laikā šis pētījums tika publicēts tas tika uzskatīts par ļoti aizraujoši, jo šķita ieteikt vērtīgu izmantošanu kopēja avota lielo datu.
Ņemot vērā slikto iezīmes lielo datu, tomēr, jums vajadzētu uzreiz būt skeptiski par šo rezultātu. Vācieši par čivināt, kas 2009. gadā bija diezgan nav pārstāvi grupa, un atbalstītāji vienas puses varētu čivināt par politiku biežāk. Tādējādi, šķiet pārsteidzoši, ka visi iespējamie aizspriedumi, ka jūs varētu iedomāties varētu kaut kā atcelt out. Faktiski rezultāti Tumasjan et al. (2010) izrādījās pārāk labi, lai būtu patiesība. To papīra, Tumasjan et al. (2010) uzskatīja sešas politiskās partijas: kristīgie demokrāti (CDU), Kristiāns sociāldemokrātiem (CSU), VPD Liberāļu (FDP), pa kreisi (Die Linke) un Zaļo partiju (Grüne). Tomēr visvairāk pirmajā minētajā Vācijas politiskā partija Twitter tolaik bija Pirātu partija (Piraten), puse, kas cīnās valdības regulējumu internetā. Kad Pirātu partija tika iekļautas analīzē, Twitter piemin kļūst briesmīga prognozēt vēlēšanu rezultātu (2.9 attēls) (Jungherr, Jürgens, and Schoen 2012) .
Vēlāk citi pētnieki visā pasaulē ir izmantoti mīļotājs metodes-piemēram, izmantojot noskaņojumu analīzi, lai atšķirtu starp pozitīvo un negatīvo piemin pušu-, lai uzlabotu spēju čivināt datu prognozēt dažādas veida vēlēšanu (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Lūk, kā Huberty (2015) apkopoja šo mēģinājumiem prognozēt vēlēšanu rezultātus:
"Visiem zināms prognozēšanas metodes, kuru pamatā sociālo mediju nav izdevies, ja pakļauti prasībām patiesas tālredzīgu vēlēšanu prognozēšanā. Šīs nepilnības, šķiet, ir saistīts ar fundamentālo īpašību sociālo mediju, nevis uz metodiskajiem vai algoritmiskās grūtībām. Īsāk sakot, sociālo mediju nav, un, iespējams, nekad, piedāvā stabilu, objektīvu, reprezentatīvu priekšstatu par vēlētāju; un ērtības paraugi sociālo mediju nav pietiekamu datu, lai noteikt šīs problēmas post hoc. "
Lasīt daži no pētījuma, kas noved Huberty (2015) pie šāda secinājuma, un uzrakstīt vienu lapu piezīmi politisku kandidātu apraksta vai un kā Twitter jāizmanto prognozēt vēlēšanas.
[ ] Kāda ir atšķirība starp sociologs un vēsturnieks? Saskaņā ar Goldthorpe (1991) , galvenā atšķirība starp sociologs un vēsturnieks, ir kontrole pār datu vākšanu. Vēsturnieki ir spiesti izmantot relikvijas bet sociologi var pielāgot savu datu vākšanu uz konkrētiem mērķiem. Lasīt Goldthorpe (1991) . Kā atšķirība starp socioloģiju un vēsturi saistīti ar ideju Custommades un Readymades?
[ ] Balstoties uz iepriekšējo jautājumu, Goldthorpe (1991) vērsa vairāki kritisko atbilžu, tai skaitā viens no Nicky Hart (1994) , ka apstrīdētās Goldthorpe nodošanās pielāgotu datus. Lai precizētu iespējamos ierobežojumus pielāgotus datiem, Hart aprakstīja pārtikušo Worker projektu, liela aptauju, lai novērtētu attiecības starp sociālās šķiras un balsošanas, kas tika veikts ar Goldthorpe un kolēģu vidū 1960. Kā noprotams no zinātnieks, kurš labvēlīgi izstrādātas datu pār atrasto datiem, pārtikušo Worker Project vāc datus, kas tika pielāgoti, lai risinātu nesen ierosināto teorija par nākotni sociālās šķiras laikmetā pieaug dzīves līmeni. Bet, Goldthorpe un kolēģi kaut kā "aizmirsa", lai savāktu informāciju par balsošanas uzvedības sievietēm. Lūk, kā Nicky Hart (1994) kopsavilkumi visu epizodi:
". . . tas [ir] grūti izvairīties no secinājuma, ka sievietes tika izlaists, jo tas "pielāgotu" datu kopu aprobežojās ar paradigmu loģika, kas izslēgtas sieviešu pieredzi. Virza teorētisko redzējumu klases apziņas un rīcības, kā vīriešu raizēm. . . , Goldthorpe un viņa kolēģi jākonstruē kopumu empīriskiem pierādījumiem, kas baro un kopt savus teorētiskos pieņēmumus, nevis pakļaujot tos derīgu testa pietiekamību. "
Hart turpināja:
"Empīriskie atklājumi pārtikušo Worker projekta pastāstīt mums vairāk par masculinist vērtībām gadsimta vidum socioloģijā, nekā viņi jāinformē procesus stratifikācijas, politikā un materiālās dzīves."
Vai tu domā par citu piemēru, kur īpaši pielāgotus datu vākšana ir aizspriedumus par datu kolektora uzcelta tajā? Kā tas salīdzināt ar algoritmiskās sajauktiem? Kādas sekas tas varētu būt, kad pētniekiem vajadzētu izmantot Readymades un kad tie jāizmanto Custommades?
[ ] Šajā nodaļā es kontrastēja datus pētnieki pētniekiem ar administratīvajiem reģistriem rada uzņēmumiem un valdībām savākti. Daži cilvēki to sauc šos administratīvos ierakstus "atrada datiem," kas tie kontrastē ar "paredzētas datiem." Tā ir taisnība, ka administratīvie ieraksti ir atrodami pētnieki, bet tie ir arī ļoti izstrādāta. Piemēram, mūsdienu tehnoloģiju uzņēmumi tērē milzīgas summas, laiku un resursus, lai savāktu un mācītāja palīgs savus datus. Tādējādi šie administratīvie ieraksti ir gan atrast un izstrādāta, tas tikai atkarīgs no jūsu viedokļa (2.10 attēls).
Sniedz piemēru datu avotu, kur redzēt to gan kā atrasts un izstrādātas ir noderīgi, ja izmanto šo datu avotu pētniecībai.
[ ] Jo pārdomāto eseja, Christian Sandvig un Eszter Hargittai (2015) apraksta divu veidu digitālo pētniecības, kur ciparu sistēma ir "instruments" vai "objekts pētījumu." Piemērs no pirmā veida pētījuma kur Bengtsson un kolēģi (2011) izmanto mobilo telefonu datu izsekot migrācijas pēc zemestrīces Haiti 2010. gadā piemērs otrā veida ir, ja Jensen (2007) pētījumi, kā mobilo tālruņu ieviešana visā Kerala, Indija ietekmēja tirgus darbību attiecībā uz zivīm. Es uzskatu, ka tas noderīgi, jo tas precizē, ka pētījumi, izmantojot digitālo datu avotiem var būt diezgan atšķirīgi mērķi, pat ja tie ir, izmantojot to pašu veida datu avotu. Lai vēl vairāk precizētu šo atšķirību, aprakstīt četrus pētījumus, ka jūs esat redzējuši: divi, kas izmanto digitālo sistēmu kā instrumentu, un divas, kas izmanto digitālo sistēmu, kā objekts pētījumā. Jūs varat izmantot piemērus no šajā nodaļā, ja vēlaties.