[ , ] Algoritamski zbunjivanje je bio problem sa Google Flu Trends. Pročitajte članak Lazer et al. (2014) , i napišite kratku, jasnu poruku e-mail-u inženjeru u Google-u objašnjavajući problem i nudeći ideju kako to popraviti.
[ ] Bollen, Mao, and Zeng (2011) tvrde da se podaci iz Twittera mogu koristiti za predviđanje berze. Ovaj nalaz je dovela do stvaranja hedž fond-Derwent Capital Markets-ulaganja na berzu na osnovu podataka prikupljenih od Twittera (Jordan 2010) . Koji dokaz želite da vidite pre nego što stavite svoj novac u taj fond?
[ ] Dok neki zagovornici javnog zdravlja smatraju da e-cigarete predstavljaju efikasnu pomoć za prekid pušenja, drugi upozoravaju na potencijalne rizike, poput visokog nivoa nikotina. Zamislite da istraživač odluči da proučava javno mnjenje prema elektroničkim cigaretama prikupljanjem tiketskih postova vezanih za e-cigarete i vršenjem analize sentimenta.
[ ] U novembru 2009, Twitter je promijenio pitanje u tweet box-u od "Šta radiš?" Do "Šta se događa?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" se često koriste za merenje uticaja i širenja uticaja na Twitter. U početku, korisnici su morali kopirati i nalijepiti tweet koji im se dopao, označiti prvobitnog autora sa njegovom drškom i ručno ukucati "RT" prije tweet-a kako bi naznačio da je to retweet. Zatim, 2009. godine, Twitter je dodao "retweet" dugme. U junu 2016. godine, Twitter je omogućio korisnicima da retekuju svoje tweetove (https://twitter.com/twitter/status/742749353689780224). Da li mislite da bi te promjene trebalo da utiču na to kako koristite "retweet" u vašem istraživanju? Zašto ili zašto ne?
[ , , , ] U široko raspravljenom radu, Michel i kolege (2011) analizirali su sadržaj više od pet miliona digitalizovanih knjiga u pokušaju da identifikuju dugoročne kulturne trendove. Podaci koje su koristili sada su objavljeni kao Google NGrams skup podataka, tako da možemo koristiti podatke za kopiranje i produžavanje nekog njihovog rada.
U jednom od mnogih rezultata u radu, Michel i kolege tvrde da zaboravljamo brže i brže. Za određenu godinu, kažu "1883", izračunali su procenat 1-gramova objavljenih svake godine između 1875. i 1975. godine koji su bili "1883". Oni su obrazložili da je ovaj procenat merilo interesovanja za događaje koji su se događali u toj godini. Na svojoj slici 3a, planirane su za tri godine: 1883, 1910 i 1950. Ove tri godine imaju zajednički uzorak: mala upotreba pre te godine, zatim spike, a zatim propadanje. Zatim, da bi se kvantificirala stopa raspadanja za svaku godinu, Michel i kolege su izračunali "polu-život" svake godine za sve godine između 1875. i 1975. godine. Na njihovoj slici 3a (uložak) pokazali su da poluživot svakog godina se smanjuje, a oni su tvrdili da to znači da zabrinjavamo prošlost brže i brže. Koristili su verziju 1 engleskog korpusa, ali je Google naknadno objavio drugu verziju korpusa. Molimo pročitajte sve delove pitanja pre nego što započnete kodiranje.
Ova aktivnost će vam omogućiti da pišete višespratan kod, tumačite rezultate i premještate podatke (kao što su rad sa neugodnim datotekama i rukovanje manjkom podataka). Ova aktivnost će vam takođe pomoći da ustanete i pokrenete sa bogatim i zanimljivim skupom podataka.
Dobijte sirove podatke sa veb stranice Google Books NGram Viewer. Konkretno, trebalo bi da koristite verziju 2 engleskog korpusa, koji je objavljen 1. jula 2012. godine. Nekompresovan, ovaj fajl je 1.4GB.
Obnovite glavni deo slike 3a Michel et al. (2011) . Da biste ponovo kreirali ovu cifru, trebat će vam dva fajla: ona koju ste preuzeli u dijelu (a) i datoteku "total counts", koju možete koristiti za pretvaranje sirovih brojeva u proporcije. Imajte na umu da ukupna datoteka brojaka ima strukturu koja može biti malo teška za čitanje. Da li verzija 2 NGram podataka daje slične rezultate onima prikazanim u Michel et al. (2011) , koji se zasnivaju na podacima iz verzije 1?
Sada proverite svoj grafikon na grafikonu koji je napravio NGram Viewer.
Ponovo okupite sliku 3a (glavna figura), ali promenite \(y\) -axis kao neispravan broj spomenutih (ne stopa pominjanja).
Da li razlika između (b) i (d) dovodi do preispitivanja bilo kog rezultata Michela i sar. (2011). Zašto ili zašto ne?
Sada, koristeći procenat pominjanja, ponovite urezak sa slike 3a. To je, za svaku godinu između 1875. i 1975. godine, računati polu-život te godine. Poluvrijeme je definisano kao broj godina koje prolaze pre nego što udio pomirenja dostigne polovinu svoje maksimalne vrednosti. Imajte na umu da je Michel et al. (2011) učiniti nešto komplikovanije da procene polu-život-vidi deo III.6 podržavajuće online informacije - ali oni tvrde da oba pristupa proizvode slične rezultate. Da li verzija 2 NGram podataka daje slične rezultate onima prikazanim u Michel et al. (2011) , koji se zasnivaju na podacima iz verzije 1? (Napomena: Nemojte se iznenaditi ako ne.)
Da li je bilo godina koje su bile izvanredne, kao što su godine koje su zaboravljene naročito brzo ili posebno sporo? Ukratko špekulirajte o mogućim razlozima za taj obrazac i objasnite kako ste identifikovali izvanredne.
Sada ponovite ovaj rezultat za verziju 2 podataka NGramsa na kineskom, francuskom, nemačkom, hebrejskom, italijanskom, ruskom i španskom jeziku.
Upoređujući sve jezike, bilo je godina koje su bile izvanredne, kao što su godine koje su zaboravljene naročito brzo ili posebno sporo? Ukratko špekulirajte o mogućim razlozima za taj obrazac.
[ , , , ] Penney (2016) istraživao da li široko rasprostranjeni publicitet o nadzoru NSA / PRISM (tj. Otkrića Snowden-a) u junu 2013. godine povezan sa oštrim i naglim smanjenjem prometa sa tekstovima iz Vikipedije o temama koje pokreću zabrinutost za privatnost. Ako je tako, ova promena u ponašanju bi bila u skladu sa hladnim efektom koji je rezultat masovnog nadzora. Pristup Penney (2016) se ponekad naziva prekidom dizajna vremenskih serija i odnosi se na pristup opisan u odeljku 2.4.3.
Da bi odabrao ključne riječi o temi, Penney se spominjao liste koju je US Department of Homeland Security koristio za praćenje i praćenje društvenih medija. Spisak DHS-a kategorizuje određene pojmove pretraživanja u nizu pitanja, tj. "Zabrinjavanje zdravlja", "Bezbednost infrastrukture" i "Terorizam". Za studijsku grupu, Penney je koristila 48 ključnih riječi vezanih za "terorizam" (pogledajte dodatak tabela 8 ). On je zatim zbirao brojeve članaka iz Wikipedije članaka na mesečnom nivou za odgovarajuće 48 članaka iz Vikipedije u periodu od 32 meseca, od početka januara 2012. do kraja augusta 2014. godine. Da bi ojačao svoj argument, on je takođe kreirao nekoliko uporednih grupa praćenjem članak o drugim temama.
Sada ćete reproducirati i produžiti Penney (2016) . Svi sirovi podaci koji su vam potrebni za ovu aktivnost dostupni su iz Wikipedije. Ili ga možete dobiti iz R-paketa wikipediatrend (Meissner and R Core Team 2016) . Kada napišete svoje odgovore, imajte na umu koji izvor podataka ste koristili. (Imajte na umu da se ova ista aktivnost pojavljuje iu poglavlju 6.) Ova aktivnost će vam omogućiti praćenje podataka i razmišljanje o prirodnim eksperimentima u velikim izvorima podataka. Takođe će vas pokrenuti i pokrenuti sa potencijalno interesantnim izvorima podataka za buduće projekte.
[ ] Efrati (2016) je, na osnovu povjerljivih informacija, izvijestio da je "ukupno dijeljenje" na Facebook-u opalo za oko 5,5% godišnje, dok je "izvorna emisija" bila godišnja za 21%. Ovaj pad je naročito bio akutan kod korisnika Facebook-a ispod 30 godina. Izveštaj pripisuje pad dva faktora. Jedan je rast broja "prijatelja" koji ljudi imaju na Facebooku. Druga je činjenica da se neke deljene aktivnosti pomeraju na poruke i takmičare kao što je Snapchat. U izveštaju se takođe otkrilo nekoliko taktika koje je Facebook pokušao da podstakne razmenu, uključujući i algoritme za alate koji sadrže izvorne postove, kao i periodične podsjetnike na originalne postove s funkcijom "Na ovaj dan". Koje implikacije, ako ih postoje, imaju ti nalazi za istraživače koji žele koristiti Facebook kao izvor podataka?
[ ] Koja je razlika između sociologa i istoričara? Prema Goldthorpe (1991) , glavna razlika je kontrola prikupljanja podataka. Istoričari su primorani da koriste relikvije, dok sociolozi mogu prilagoditi njihovo prikupljanje podataka u određene svrhe. Pročitajte Goldthorpe (1991) . Kako je razlika između sociologije i istorije povezana sa idejom o kupovini i readymades?
[ ] Ovo se zasniva na prethodnom pitanju. Goldthorpe (1991) prikupio je niz kritičnih odgovora, uključujući jedan od Nicky Hart (1994) koji je izazvao Goldthorpeovu posvećenost prilagođenim podacima. Da bi razjasnio potencijalna ograničenja pojedinih podataka, Hart je opisao projekat bogatih radnika, veliko istraživanje za mjerenje odnosa između društvene klase i glasanja koje su provodile Goldthorpe i kolege sredinom 1960-ih. Kao što se moglo očekivati od naučnika koji je favorizovao dizajnirane podatke nad pronađenim podacima, Projekat Affluent Worker je sakupio podatke koji su prilagođeni kako bi se riješila nedavno predložena teorija o budućnosti društvene klase u doba povećanja životnog standarda. Ali, Goldthorpe i kolege su nekako "zaboravili" da prikupe informacije o glasačkom ponašanju žena. Evo kako je Nicky Hart (1994) rezimirao celu epizodu:
"... teško je izbjeći zaključak da su žene izostavljene, jer je taj" nareñen "skup datih podataka ograničen paradigmatičkom logikom koja isključuje žensko iskustvo. Podstaknuta teoretskom vizijom klasne svesti i akcije kao muške preokupacije ..., Goldthorpe i njegove kolege konstruisali su skup empirijskih dokaza koji su hranili i negovali sopstvene teorijske pretpostavke umesto da ih izlažu validnom testu adekvatnosti. "
Hart je nastavio:
"Empirijski nalazi Projekta Affluent Worker nam govore više o maskulinističkim vrednostima sociologije sredinom veka nego što informišu procese stratifikacije, politike i materijalnog života".
Da li možete razmisliti o drugim primjerima gdje prilagođena prikupljanje podataka ima pristrasnost zbiratelja podataka ugrađenih u njega? Kako se ovo upoređuje sa algoritmičkim zbunjenjem? Koje implikacije mogu imati kada istraživači treba da koriste readymades i kada treba da koriste custommades?
[ ] U ovom poglavlju, upoređivao sam podatke koje su istraživači sakupljali istraživačima sa administrativnim podacima koje su stvorile kompanije i vlade. Neki ljudi nazivaju ove administrativne podatke "nađenim podacima", koji su u suprotnosti sa "projektovanim podacima". Tačno je da administrativne podatke pronađu istraživači, ali su takođe visoko dizajnirani. Na primer, moderne tehnološke kompanije veoma naporno rade na sakupljanju i curiranju svojih podataka. Dakle, ovi administrativni zapisi su pronađeni i projektovani, samo zavisi od vaše perspektive (slika 2.12).
Navedite primjer izvora podataka gdje je vidjeti ga i kako je pronađeno i dizajnirano, korisno je prilikom korištenja tog izvora podataka za istraživanje.
[ ] U pažljivom eseju, Christian Sandvig i Eszter Hargittai (2015) podelili su digitalna istraživanja u dve široke kategorije u zavisnosti od toga da li je digitalni sistem "instrument" ili "predmet studiranja". Primer prvog tipa - gde je sistem instrument - istraživanje Bengtsona i kolega (2011) o korištenju podataka o mobilnim telefonima za praćenje migracija nakon zemljotresa na Haitiju 2010. godine. Primer drugog tipa - gdje je sistem predmet studiranja - istražuje Jensen (2007) o tome kako je uvođenje mobilnih telefona širom Kerala, Indije uticalo na funkcionisanje tržišta za ribu. Smatram da je ova razlika korisna jer objašnjava da studije koje koriste digitalne izvore podataka mogu imati sasvim različite ciljeve čak i ako koriste istu vrstu izvora podataka. Da biste dodatno pojasnili ovu razliku, opišite četiri studije koje ste videli: dva koja koriste digitalni sistem kao instrument i dva koja koriste digitalni sistem kao predmet studiranja. Ako želite, možete koristiti primere iz ovog poglavlja.