Jedna vrsta posmatranja koja nije uključena u ovo poglavlje je etnografija. Za više o etnografiji u digitalnim prostorima pogledajte Boellstorff et al. (2012) , a za više o etnografiji u mješovitim digitalnim i fizičkim prostorima, vidi Lane (2016) .
Ne postoji pojedinačna konsenzusna definicija "velikih podataka", ali se mnoga definicija fokusira na volumen, raznovrsnost i brzinu "3 Vs" (npr. Japec et al. (2015) ). Vidi De Mauro et al. (2015) za pregled definicija.
Moja uključivanje vladinih administrativnih podataka u kategoriju velikih podataka je malo neobično, iako su drugi takodje podneli ovaj slučaj, uključujući Legewie (2015) , Connelly et al. (2016) i Einav and Levin (2014) . Više o vrijednosti vladinih administrativnih podataka za istraživanje potražite u Card et al. (2010) , Adminstrative Data Taskforce (2012) i Grusky, Smeeding, and Snipp (2015) .
U pogledu administrativnih istraživanja iz vladinog statističkog sistema, a posebno u Birou za popis stanovništva SAD, vidi Jarmin and O'Hara (2016) . Za knjigovodstveni tretman istraživanja upravnih zapisa na Statistici Švedskoj, pogledajte Wallgren and Wallgren (2007) .
U poglavlju sam ukratko uporedio tradicionalno istraživanje kao što je Opšta društvena istraživanja (GSS) sa izvorima podataka iz društvenih medija kao što je Twitter. Za detaljno i pažljivo upoređivanje tradicionalnih istraživanja i podataka o socijalnim medijima, pogledajte Schober et al. (2016) .
Ove karakteristike velikih podataka opisane su na različite načine od strane različitih autora. Pisanje koje je uticalo na moje razmišljanje o ovim pitanjima uključuje Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) i Goldstone and Lupyan (2016) .
Tokom ovog poglavlja koristio sam pojam digitalnih tragova , za koji mislim da je relativno neutralan. Još jedan popularan izraz za digitalne tragove predstavljaju digitalni otisci (Golder and Macy 2014) , ali kako ističu Hal Abelson, Ken Ledin i Harry Lewis (2008) , pogodniji izraz je verovatno digitalni otisci prstiju . Kada kreirate otiske, svjesni ste šta se događa i vaši otisci ne mogu obično pratiti za vas lično. Isto važi i za vaše digitalne tragove. U stvari, ostavljate tragove sve vreme o kojima imate malo znanja. Iako ovi tragovi nemaju svoje ime na njima, oni se često mogu povezati sa vama. Drugim riječima, oni su više kao otisci prstiju: nevidljivi i lično identifikuju.
Više o tome zašto veliki skupovi podataka čine statističke testove problematičnim, vidi M. Lin, Lucas, and Shmueli (2013) i McFarland and McFarland (2015) . Ova pitanja treba da dovedu do toga da se istraživači fokusiraju na praktični značaj, a ne na statističku važnost.
Više o tome kako su Raj Chetty i kolege dobili pristup poreskim evidencijama, vidi Mervis (2014) .
Veliki skupovi podataka mogu takođe stvoriti računarske probleme koji su generalno izvan mogućnosti jednog računara. Prema tome, istraživači koji vrše račune na velikim skupovima podataka često raširiju rad na mnogim računarima, proces koji se ponekad naziva paralelnim programiranjem . Za upoznavanje sa paralelnim programiranjem, posebno za jezik pod nazivom Hadoop, pogledajte Vo and Silvia (2016) .
Prilikom razmatranja uvek podataka, važno je razmotriti da li upoređujete iste ljude tokom vremena ili da li upoređujete neku promjenu grupe ljudi; videti, na primjer, Diaz et al. (2016) .
Klasična knjiga o nereaktivnim merama je Webb et al. (1966) . Primjeri u toj knjizi predstave digitalno doba, ali i dalje su osvetljeni. Za primere ljudi koji menjaju svoje ponašanje zbog prisustva masovnog nadzora, pogledajte Penney (2016) i Brayne (2014) .
Reaktivnost je usko povezana sa onim što istraživači zovu efekte potražnje (Orne 1962; Zizzo 2010) i efekat Hawthorne (Adair 1984; Levitt and List 2011) .
Za više o rekordnim vezama, pogledajte Dunn (1946) i Fellegi and Sunter (1969) (istorijski) i Larsen and Winkler (2014) (moderni). Slični pristupi su takođe razvijeni u računarskim naukama pod nazivima kao što su deduplikacija podataka, identifikacija instance, podudaranje imena, duplirana detekcija i duplirana detekcija zapisa (Elmagarmid, Ipeirotis, and Verykios 2007) . Postoje i pristupi čuvanja privatnosti za snimanje veze koje ne zahtijevaju prenos ličnih podataka (Schnell 2013) . Facebook je takođe razvio proces povezivanja svojih evidencija sa ponašanjem glasača; ovo je učinjeno kako bi se procenio eksperiment koji ću vam reći u poglavlju 4 (Bond et al. 2012; Jones et al. 2013) .
Više o izgradnji validnosti potražite u poglavlju 3 Shadish, Cook, and Campbell (2001) .
Za više informacija o AOL pretraživačima, pogledajte Ohm (2010) . Ja nudim savete o partnerstvu sa kompanijama i vladama u poglavlju 4 kada opisujem eksperimente. Jedan broj autora izrazio je zabrinutost zbog istraživanja koja se oslanja na nepristupačne podatke, vidi Huberman (2012) i boyd and Crawford (2012) .
Jedan dobar način za univerzitetske istraživače da steknu pristup podacima je raditi u firmi kao pripravnik ili gostujući istraživač. Uz omogućavanje pristupa podacima, ovaj proces će također pomoći istraživač saznati više o tome kako su podaci stvoren, što je važno za analizu.
U pogledu pristupa vladinim podacima, Mervis (2014) govori o tome kako su Raj Chetty i kolege dobili pristup poreskim evidencijama korištenim u njihovom istraživanju socijalne mobilnosti.
Više o istoriji "reprezentativnosti" kao koncepta vidi Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , i Kruskal and Mosteller (1980) .
Moji rezimei rada Snijega i radovi Doll i Hill bili su kratki. Više o snovom radu na koleri vidi Freedman (1991) . Više o Studiji o britanskim lekarima pogledajte Doll et al. (2004) i Keating (2014) .
Mnogi istraživači će biti iznenađeni kada saznaju da iako su Doll i Hill prikupili podatke od doktora i od doktora do 35 godina, oni namjerno nisu koristili ove podatke u svojoj prvoj analizi. Kako su tvrdili: "S obzirom da je rak pluća relativno retkost kod žena i muškaraca mlađih od 35 godina, verovatno će se u ovih grupa verovatno naći neke korisne figure u narednim godinama. Zato smo u ovom preliminarnom izvještaju ograničili našu pažnju na muškarce starosti 35 i više godina. " Rothman, Gallacher, and Hatch (2013) , koji ima provokativnu titulu" Zašto se treba izbeći reprezentativnost ", daju opšti argument za vrijednost namjerno stvaranje nereprezentativnih podataka.
Neprepustivost je veliki problem za istraživače i vlade koji žele dati izjavu o čitavoj populaciji. Ovo je manje zabrinjavajuće za kompanije koje se obično fokusiraju na svoje korisnike. Više o tome kako statistika Holandija razmatra pitanje neprepoznatljivosti velikih poslovnih podataka, pogledajte Buelens et al. (2014) .
Za primjere istraživača koji izražavaju zabrinutost zbog K. Lewis (2015b) prirode velikih izvora podataka, pogledajte boyd and Crawford (2012) , K. Lewis (2015b) i Hargittai (2015) .
Za detaljnije upoređivanje ciljeva socijalnih istraživanja i epidemioloških istraživanja, pogledajte Keiding and Louis (2016) .
Više o pokušajima korištenja Twitter-a da bi se Jungherr (2013) o glasačima izvan uzorka, posebno slučaja sa izborima u Nemačkoj 2009, vidi Jungherr (2013) i Jungherr (2015) . Posle rada Tumasjan et al. (2010) istraživači širom svijeta su koristili bolje metode - kao što je korištenje analize raspoloženja za razliku između pozitivnih i negativnih pominjanja strana - kako bi se poboljšala sposobnost Twitter podataka da predvide različite vrste izbora (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Evo kako je Huberty (2015) rezimirao rezultate ovih pokušaja predviđanja izbora:
"Sve poznate metode predviđanja zasnovane na društvenim medijima propale su kada su podvrgnute zahtjevima istinskog predviđanja izbornog predviđanja. Izgleda da su ovi propusti posledica osnovnih osobina društvenih medija, a ne metodoloških ili algoritamskih teškoća. Ukratko, društveni mediji ne pružaju, verovatno i nikada neće, ponuditi stabilnu, nepristrasnu, reprezentativnu sliku biračkog tela; i uzorci pogodnosti u društvenim medijima nedostaju dovoljni podaci da bi se ovi problemi rešili posle hok. "
U poglavlju 3, detaljno ću opisati uzorkovanje i procenu. Čak i ako podaci nisu predstavnici, pod određenim uslovima, oni se mogu ponderisati kako bi proizveli dobre procjene.
Dreniranje sistema je veoma teško vidjeti spolja. Međutim, projekat MovieLens (o čemu se više govori u poglavlju 4) sprovodi akademska istraživačka grupa više od 15 godina. Stoga su uspeli da dokumentuju i razmene informacije o načinu na koji se sistem evoluirao tokom vremena i kako to može uticati na analizu (Harper and Konstan 2015) .
Brojni naučnici su se usredsredili na drift na Twitter-u: Liu, Kliman-Silver, and Mislove (2014) i Tufekci (2014) .
Jedan pristup bavljenja stanovništvom je stvaranje panela korisnika, što omogućava istraživačima da proučavaju iste ljude tokom vremena, vidi Diaz et al. (2016) .
Prvo sam čuo termin "algoritamski zbunjen" koji je koristio Jon Kleinberg u razgovorima, ali nažalost se ne sećam kada i gdje je govor. Prvi put kad sam vidio termin u štampi bio je u Anderson et al. (2015) , što je interesantna diskusija o tome kako algoritmi koje koriste sajtovi za davanje mogu komplikovati sposobnost istraživača da koriste podatke sa ovih veb lokacija za proučavanje društvenih preferenci. Ova zabrinutost pokrenuo je K. Lewis (2015a) u odgovoru na Anderson et al. (2014) .
Pored Facebook-a, Twitter takođe preporučuje korisnike za korisnike da prate bazu na ideji trijadičnog zatvaranja; vidi Su, Sharma, and Goel (2016) . Tako je nivo trijadičnog zatvaranja na Twitteru kombinacija neke ljudske tendencije prema trijadičnom zatvaranju i neke algoritamske tendencije za promociju tridašnjeg zatvaranja.
Više o performativnosti - naročito ideji da su neke teorije društvenih nauka "motori i kamere" (tj. Oni oblikuju svet, a ne samo da ga opisuju) - pogledajte Mackenzie (2008) .
Vladine statističke agencije pozivaju na čišćenje statističkih podataka . De Waal, Puts, and Daas (2014) opisuju tehnike za uređivanje statističkih podataka razvijenih za podatke istraživanja i ispitaju u kojoj mjeri se primjenjuju za velike izvore podataka, a Puts, Daas, and Waal (2015) predstavljaju neke od istih ideja za opširnija publika.
Za pregled socijalnih botova pogledajte Ferrara et al. (2016) . Za neke primjere studija fokusiranih na pronalaženje spama na Twitter-u, vidi Clark et al. (2016) i Chu et al. (2012) . Na kraju, Subrahmanian et al. (2016) opisuju rezultate DARPA Twitter Bot Challenge-a, masovnu saradnju dizajniranu za upoređivanje pristupa za otkrivanje botova na Twitter-u.
Ohm (2015) razmatra ranije istraživanje o ideji osjetljivih informacija i nudi multi-faktorski test. Četiri faktora koji on predlaže su veličina štete, verovatnoća štete, prisustvo poverljivog odnosa i da li rizik odražava većinske probleme.
Farberova studija taksija u Njujorku zasnovana je na ranijoj studiji Camerer et al. (1997) koji je koristio tri različita uzorka listova papira. Ova ranija studija pokazala je da su vozači izgledali kao ciljani: manje su radili u danima kada su njihove plate bile veće.
U narednom radu, King i kolege su dodatno istražili cenzuru na mreži u Kini (King, Pan, and Roberts 2014, [@king_how_2016] ) . Za srodni pristup merenju cenzure na mreži u Kini, pogledajte Bamman, O'Connor, and Smith (2012) . Više o statističkim metodama kao što su oni korišćeni u King, Pan, and Roberts (2013) da procene osećaj od 11 miliona postova, pogledajte Hopkins and King (2010) . Više o nadziranom učenju vidi James et al. (2013) (manje tehnički) i Hastie, Tibshirani, and Friedman (2009) (više tehnički).
Prognoza je veliki dio naučnih podataka o industrijama (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jedna vrsta predviđanja koja obično vrše socijalni istraživači jeste demografska predviđanja; vidi, na primjer, Raftery et al. (2012) .
Google Flu Trends nije bio prvi projekat koji koristi podatke o pretraživanju za trenutno širenje influence. Zapravo, istraživači u Sjedinjenim Državama (Polgreen et al. 2008; Ginsberg et al. 2009) i Švedska (Hulth, Rydevik, and Linde 2009) su utvrdili da su određeni pojmovi pretraživanja (npr. "Gripa") predviđali nacionalni nadzor javnog zdravlja podaci pre nego što je pušten. Nakon toga mnogi, mnogi drugi projekti su pokušali da koriste digitalne podatke o tragovima za otkrivanje bolesti nadgledanja; vidi Althouse et al. (2015) za pregled.
Pored korišćenja digitalnih podataka o tragovima za predviđanje zdravstvenih rezultata, takođe je postojala ogromna količina rada korišćenjem podataka iz Twittera kako bi se predvidjeli rezultati izbora; za preglede vidi Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (poglavlje 7) i Huberty (2015) . Prikazivanje ekonomskih indikatora, kao što je bruto domaći proizvod (BDP), takođe je uobičajeno u centralnim bankama, vidi Bańbura et al. (2013) . Tabela 2.8 sadrži nekoliko primera studija koje koriste neku vrstu digitalnog traga za predviđanje neke vrste događaja u svijetu.
Digitalni trag | Ishod | Citation |
---|---|---|
Prihod boksova u filmovima u SAD-u | Asur and Huberman (2010) | |
Pretraga dnevnika | Prodaja filmova, muzike, knjiga i video igara u SAD-u | Goel et al. (2010) |
Dow Jones Industrial Average (američka burza) | Bollen, Mao, and Zeng (2011) | |
Društveni mediji i dnevnici pretraživanja | Ankete o raspoloženju investitora i berzama u SAD-u, Ujedinjenom Kraljevstvu, Kanadi i Kini | Mao et al. (2015) |
Pretraga dnevnika | Prevalenca dengue groznice u Singapuru i Bangkoku | Althouse, Ng, and Cummings (2011) |
Na kraju, Jon Kleinberg i kolege (2015) su istakli da problemi sa predviđanjima spadaju u dve, suptilno različite kategorije i da su socijalni naučnici uglavnom fokusirali na jednog i ignorisali drugu. Zamislite jednog kreatora politike, nazvaću je Ana, koja se suočava sa sušenjem i mora odlučiti da li da angažuje šamana da napravi ples za kišu kako bi povećala šansu kiše. Još jedan kreator politike, nazvaću je Betty, mora odlučiti da li da kišobran za rad kako bi se izbjegao da se opusti na putu kući. I Anna i Betty mogu donijeti bolju odluku ako razumeju vrijeme, ali moraju znati različite stvari. Ana mora da razume da li kišni ples izaziva kišu. S druge strane, Betty ne mora ništa da razume o uzročnosti; ona samo treba tačnu prognozu. Socijalni istraživači često se fokusiraju na probleme kao što je ona sa kojom se suočavala Anna - a Kleinberg i kolege nazivaju probleme sa "kišnim plesom" - jer uključuju pitanja uzročnosti. Pitanja poput one sa kojom se suočava Betty - koju Kleinberg i kolege nazivaju "kišobranim" političkim problemima - mogu biti veoma važni, ali su imali mnogo manje pažnje od socijalnih istraživača.
Časopis PS Političke nauke imao je simpozijum o velikim podacima, uzročnom zaključku i formalni teoriji, a Clark and Golder (2015) sumiraju svaki doprinos. Zbornik radova Nacionalne akademije nauka Sjedinjenih Američkih Država održao je simpozijum o uzročnom zaključivanju i velikim podacima, a Shiffrin (2016) sumira svaki doprinos. Za pristupe mašinskom učenju koje pokušavaju automatski otkriti prirodne eksperimente unutar velikih izvora podataka, pogledajte Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) i Sharma, Hofman, and Watts (2016) .
U pogledu prirodnih eksperimenata, Dunning (2012) pruža uvodni, dugotrajni tretman sa mnogo primera. Za skeptičan pogled na prirodne eksperimente pogledajte Rosenzweig and Wolpin (2000) (ekonomija) ili Sekhon and Titiunik (2012) (političke nauke). Deaton (2010) i Heckman and Urzúa (2010) tvrde da fokusiranje na prirodne eksperimente može dovesti istraživače da se fokusiraju na procjenu nebitnih uzročnih efekata; Imbens (2010) ove argumente sa optimističnijim pogledom na vrednost prirodnih eksperimenata.
Kada sam opisao kako istraživač može proći od procene efekta pripreme do učinka serviranja, opisao sam tehniku nazvanu instrumentalne varijable . Imbens and Rubin (2015) , u njihovim poglavljima 23 i 24, pružaju uvod i koriste nacrt lutrije kao primer. Efekat služenja vojnog roka na komplikacije se ponekad naziva i komplikovan prosečni uzročni efekat (CAcE), a ponekad i lokalni prosečni efekat tretmana (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) i Bollen (2012) nude kritike o upotrebi instrumentalnih varijabli u političkim naukama, ekonomiji i sociologiji, a Sovey and Green (2011) daje "čitalačku listu" za vrednovanje studija pomoću instrumentalnih varijabli.
Ispostavilo se da u 1970. projektnoj lutriji nije, zapravo, bio slučajno randomiziran; bilo je mala odstupanja od čisto slučajnosti (Fienberg 1971) . Berinsky and Chatfield (2015) tvrde da ova mala odstupanja nisu suštinski važna i da diskutuju o važnosti pravilnog vođenja randomizacije.
Što se tiče usklađivanja, pogledajte Stuart (2010) za optimističan pregled, a Sekhon (2009) za pesimističku reviziju. Za više o usklađivanju kao vrstu rezidbe, pogledajte Ho et al. (2007) . Pronalaženje jedinstvenog savršenog podudaranja za svaku osobu je često teško, a to uvodi niz složenosti. Prvo, kada tačne podudarnosti nisu dostupne, istraživači moraju odlučiti kako izmeriti rastojanje između dvije jedinice i ako je određeno rastojanje dovoljno blizu. Druga složenost se javlja ako istraživači žele da koriste više seta za svaki slučaj u grupi za lečenje, jer to može dovesti do preciznije procene. Oba ova pitanja, kao i druge, detaljno su opisana u poglavlju 18 Imbens and Rubin (2015) . Vidi i deo II ( ??? ) .
Vidi Dehejia and Wahba (1999) za primjer gdje su metode usklađivanja uspjeli proizvesti procjene slične onima iz randomiziranog kontrolisanog eksperimenta. Međutim, pogledajte Arceneaux, Gerber, and Green (2006) i Arceneaux, Gerber, and Green (2010) za primere gdje metodi usklađivanja nisu uspeli da reprodukuju eksperimentalni benčmark.
Rosenbaum (2015) i Hernán and Robins (2016) nude druge savjete za otkrivanje korisnih upoređivanja unutar velikih izvora podataka.