Jedna vrsta promatranja koja nije uključena u ovo poglavlje jest etnografija. Više o etnografiji u digitalnim prostorima vidi Boellstorff et al. (2012) , a više o etnografiji u mješovitim digitalnim i fizičkim prostorima, vidi Lane (2016) .
Ne postoji jedinstvena definicija "velikih podataka", ali se mnoge definicije usredotočuju na "3 Vs": volumen, raznolikost i brzinu (npr. Japec et al. (2015) ). Vidi De Mauro et al. (2015) za pregled definicija.
Moja uključenost vladinih administrativnih podataka u kategoriju velikih podataka malo je neobična, iako su drugi također napravili ovaj slučaj, uključujući Legewie (2015) , Connelly et al. (2016) , te Einav and Levin (2014) . Više o vrijednosti vladinih administrativnih podataka za istraživanje potražite u Card et al. (2010) , Adminstrative Data Taskforce (2012) i Grusky, Smeeding, and Snipp (2015) .
Za pregled administrativnih istraživanja iz državnog statističkog sustava, osobito Ureda za popis stanovništva SAD-a, pogledajte Jarmin and O'Hara (2016) . Za knjigovodstvenu obradu administrativnih evidencija u statistici Švedske, pogledajte Wallgren and Wallgren (2007) .
U ovom poglavlju ukratko sam usporedio tradicionalno istraživanje kao što je General Social Survey (GSS) s izvorom podataka društvenih medija kao što je Twitter. Za temeljitu i pažljivu usporedbu između tradicionalnih istraživanja i podataka o društvenim medijima, pogledajte Schober et al. (2016) .
Ovih 10 obilježja velikih podataka opisano je na različite načine različitim različitim autorima. Pisanje koje je utjecalo na moje mišljenje o tim pitanjima uključuje Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) i Goldstone and Lupyan (2016) .
Tijekom ovog poglavlja upotrijebio sam pojam digitalnih tragova , za koje mislim da je relativno neutralan. Drugi popularni pojam za digitalne tragove digitalni su tragovi (Golder and Macy 2014) , no kao što Hal Abelson, Ken Ledeen i Harry Lewis (2008) ističu, prikladniji pojam vjerojatno je digitalni otisak prsta . Kada izradite otiske stopala, svjesni ste što se događa i tragovi vas obično ne mogu pratiti. Isto vrijedi i za vaše digitalne tragove. Zapravo, ostavljate tragove cijelo vrijeme zbog kojih imate vrlo malo znanja. I, iako ti tragovi nemaju vaše ime na njima, često ih se može povezati s vama. Drugim riječima, oni su više nalik na otiske prstiju: nevidljivi i osobno identificirajući.
Za više o tome zašto velike skupove podataka čine statističke testove problematičnim, pogledajte M. Lin, Lucas, and Shmueli (2013) te McFarland and McFarland (2015) . Ova bi pitanja trebala voditi istraživače da se usredotoče na praktično značenje, a ne na statističku značajnost.
Više o tome kako je Raj Chetty i kolege dobili pristup poreznim evidencijama, pogledajte Mervis (2014) .
Velike skupove podataka također mogu stvoriti računalne probleme koji su općenito izvan mogućnosti jednog računala. Stoga, istraživači koji izrađuju računalstvo na velikim skupovima podataka često šire rad preko mnogih računala, proces koji se ponekad zove paralelno programiranje . Za uvod u paralelno programiranje, posebno jezik koji se zove Hadoop, vidi Vo and Silvia (2016) .
Prilikom razmatranja uvijek dostupnih podataka, važno je razmotriti usporedbu istih ljudi s vremenom ili uspoređujete li neki promjenjivi skup ljudi; vidi na primjer, Diaz et al. (2016) .
Klasična knjiga o neaktivnim mjerama je Webb et al. (1966) . Primjeri u toj knjizi prethode digitalnom dobu, ali još uvijek osvjetljavaju. Za primjere ljudi koji mijenjaju svoje ponašanje zbog prisutnosti masovnog nadzora, pogledajte Penney (2016) i Brayne (2014) .
Reaktivnost je usko povezana s onim što istraživači nazivaju učincima potražnje (Orne 1962; Zizzo 2010) i Hawthorneov efekt (Adair 1984; Levitt and List 2011) .
Za više o rekordnoj vezi, pogledajte Dunn (1946) i Fellegi and Sunter (1969) (povijesni) te Larsen and Winkler (2014) (moderni). Slični su pristupi također razvijeni u računalnoj znanosti pod nazivima kao što su deduplicacija podataka, identifikacija instancira, podudaranje imena, duplikat detekcije i duple detekcije zapisa (Elmagarmid, Ipeirotis, and Verykios 2007) . Postoje i pristupi očuvanja privatnosti kako bi snimili vezu koja ne zahtijeva prijenos osobnih podataka (Schnell 2013) . Facebook je također razvio proces povezivanja svojih zapisa s ponašanjem u glasu; to je učinjeno kako bi se procijenio pokus koji ću vam reći u poglavlju 4 (Bond et al. 2012; Jones et al. 2013) .
Više o konstrukcijskoj valjanosti potražite u poglavlju 3: Shadish, Cook, and Campbell (2001) .
Za više informacija o debaklima dnevnika pretraživanja AOL-a, pogledajte Ohm (2010) . Nudim savjete o partnerstvu s tvrtkama i vladama u 4. poglavlju kad opisujem eksperimente. Brojni su autori izrazili zabrinutost zbog istraživanja koja se oslanjaju na nedostupne podatke, vidi Huberman (2012) i boyd and Crawford (2012) .
Jedan dobar način za sveučilišni istraživači steći pristup podacima je raditi u tvrtki kao pripravnik ili gostujući istraživač. Uz omogućavanje pristupa podacima, ovaj proces će također pomoći istraživač saznali više o tome kako su podaci stvoren, što je važno za analizu.
U pogledu dobivanja pristupa državnim podacima, Mervis (2014) raspravlja o tome kako Raj Chetty i njegovi kolege dobivaju pristup poreznim evidencijama koje se koriste u svojim istraživanjima o društvenoj pokretljivosti.
Više o povijesti "reprezentativnosti" kao koncepta, vidi Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1980) .
Moji su sažeci rada Snijeg i rada Doll i Hill bili kratki. Više o Snowovom radu na kolerama vidi Freedman (1991) . Za više informacija o britanskom liječničkom studiju vidi Doll et al. (2004) i Keating (2014) .
Mnogi će istraživači biti iznenađeni kad saznaju da, iako su Doll i Hill prikupili podatke od ženskih liječnika i liječnika do 35 godina, oni nisu namjerno koristili ove podatke u prvoj analizi. Kao što su oni tvrdili: "Budući da je rak pluća relativno rijedak u žena i muškaraca mlađih od 35 godina, korisne brojke vjerojatno neće biti dobivene u tim skupinama već nekih godina. U ovom preliminarnom izvješću, stoga smo ograničili našu pažnju muškarcima od 35 i više godina. " Rothman, Gallacher, and Hatch (2013) , koji ima provokativnu titulu" Zašto treba izbjegavati reprezentativnost ", daju općenitije argument za vrijednost namjerno stvaranje nereprezentativnih podataka.
Neprepresivnost je glavni problem za istraživače i vlade koji žele dati izjave o cijeloj populaciji. To je manje zabrinutost za tvrtke koje se obično fokusiraju na svoje korisnike. Više o tome kako Statistika Nizozemska razmatra pitanje Buelens et al. (2014) velikih poslovnih podataka, vidi Buelens et al. (2014) .
Za primjere istraživača koji izražavaju zabrinutost zbog K. Lewis (2015b) prirode velikih izvora podataka, pogledajte boyd and Crawford (2012) , K. Lewis (2015b) i Hargittai (2015) .
Za detaljniju usporedbu ciljeva socijalnih istraživanja i epidemioloških istraživanja, pogledajte Keiding and Louis (2016) .
Više o pokušajima korištenja Twittera kako bi se Jungherr (2013) o biračima, posebice slučaja s njemačkim izborima za 2009. godinu, pogledajte Jungherr (2013) i Jungherr (2015) . Nakon rada Tumasjan et al. (2010) istraživači širom svijeta koriste se fancijalnim metodama - kao što je korištenje analize sentimenta kako bi se razlikovala pozitivna i negativna spominjanja stranaka - kako bi se poboljšala sposobnost podataka Twittera da predviđaju različite vrste izbora (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Evo kako Huberty (2015) sažeti rezultate tih pokušaja predviđanja izbora:
"Sve poznate metode predviđanja temeljene na društvenim medijima propale su kada su podvrgnute zahtjevima istinskih predviđanja predizborne prognoze. Čini se da su ti kvarovi posljedica temeljnih svojstava društvenih medija, a ne metodoloških ili algoritamskih poteškoća. Ukratko, društveni mediji ne, i vjerojatno nikada neće, ponuditi stabilnu, nepristranu, reprezentativnu sliku biračkog tijela; i praktičnost uzoraka društvenih medija nedostaje dovoljno podataka za rješavanje tih problema post hoc. "
U poglavlju 3 opisujem uzorkovanje i procjenu u mnogo većem detalju. Čak i ako podaci nisu reprezentativni, pod određenim uvjetima, mogu se ponderirati kako bi se dobile dobre procjene.
Drift sustava je vrlo teško vidjeti izvana. Ipak, projekt FilmLens (više se raspravlja u poglavlju 4) već više od 15 godina vodi akademska istraživačka skupina. Stoga su uspjeli dokumentirati i dijeliti informacije o načinu na koji se sustav evoluirala tijekom vremena i kako bi to moglo utjecati na analizu (Harper and Konstan 2015) .
Nekoliko je znanstvenika usredotočilo na drift na Twitteru: Liu, Kliman-Silver, and Mislove (2014) i Tufekci (2014) .
Jedan pristup rješavanju problema s populacijom jest stvaranje ploče korisnika, što omogućuje istraživačima istodobno proučavanje istih ljudi, vidi Diaz et al. (2016) .
Prvo sam čuo pojam "algoritamski zbunjen" kojeg je Jon Kleinberg koristio u razgovoru, ali nažalost ne sjećam se kada i gdje su razgovarali. Prvi put kad sam vidio termin u tisku bio je Anderson et al. (2015) , što je zanimljiva rasprava o tome kako algoritmi koje koriste web-lokacije za pronalaženje partnera mogu komplicirati mogućnost istraživača da koriste podatke s ovih web stranica kako bi proučili društvene preferencije. Ta je zabrinutost podigla K. Lewis (2015a) kao odgovor na Anderson et al. (2014) .
Osim Facebooka, Twitter također preporučuje korisnicima da slijedite na temelju ideje triadicnog zatvaranja; vidjeti Su, Sharma, and Goel (2016) . Stoga je razina trojanskog zatvaranja na Twitteru kombinacija neke ljudske sklonosti prema triadskom zatvaranju i nekim algoritamskim tendencijama za promicanje trodijelnog zatvaranja.
Više o performativnosti - posebice ideji da su neke teorije društvenih znanosti "motori ne kamere" (tj. Oni oblikuju svijet, a ne samo ga opisuju) - vidi Mackenzie (2008) .
Državne statističke agencije zovu podatke čišćenja statističkih podataka uređivanje . De Waal, Puts, and Daas (2014) opisuju tehnike uređivanja statističkih podataka razvijene za podatke ankete i ispitaju u kojoj se mjeri primjenjuju na velike izvore podataka, a Puts, Daas, and Waal (2015) prikazuju neke iste ideje za općenitijoj publici.
Za pregled društvenih botova, vidi Ferrara et al. (2016) . Za neke primjere studija usmjerenih na pronalaženje neželjenih sadržaja na Twitteru, pogledajte Clark et al. (2016) i Chu et al. (2012) . Konačno, Subrahmanian et al. (2016) opisuju rezultate DARPA Twitter Bot Challengea, masovne suradnje dizajnirane za usporedbu pristupa otkrivanju robota na Twitteru.
Ohm (2015) preispituje ranija istraživanja o ideji osjetljivih informacija i nudi test s više faktora. Četiri čimbenika koji on predlaže jesu veličina štete, vjerojatnost štetnosti, prisutnost povjerljivog odnosa i rizik odražava većinsku zabrinutost.
Farberova studija taksija u New Yorku temeljila se na ranijoj studiji Camerer et al. (1997) koji su koristili tri različita uzorka praktičnosti listova papira. Ova ranija studija pokazala je da su vozači bili ciljani zarade: manje su radili u danima gdje su imale veće plaće.
U sljedećem radu, King i kolege su dalje istraživali online cenzuru u Kini (King, Pan, and Roberts 2014, [@king_how_2016] ) . Za povezani pristup mjerenju online cenzure u Kini, pogledajte Bamman, O'Connor, and Smith (2012) . Više o statističkim metodama kao što je to slučaj s King, Pan, and Roberts (2013) za procjenu osjećaja od 11 milijuna postova, vidi Hopkins and King (2010) . Više o nadziranom učenju vidi James et al. (2013) (manje tehnički) i Hastie, Tibshirani, and Friedman (2009) (više tehnički).
Predviđanje je veliki dio industrijskih podataka znanosti (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jedna vrsta predviđanja koju društveno istraživači obično rade jest demografsko predviđanje; vidi, na primjer, Raftery et al. (2012) .
Google Raširenost gripe nije bio prvi projekt koji upotrebljava podatke pretraživanja za prevalenciju gripe. U stvari, istraživači u Sjedinjenim Američkim Državama (Polgreen et al. 2008; Ginsberg et al. 2009) i Švedska (Hulth, Rydevik, and Linde 2009) otkrili su da određeni pojmovi za pretraživanje (npr. "Gripa") predviđaju nacionalno nadgledanje javnog zdravstva podatke prije nego što je objavljen. Zatim su mnogi i mnogi drugi pokušali koristiti digitalne podatke o tragovima za detekciju nadzora bolesti; vidi Althouse et al. (2015) za pregled.
Uz korištenje digitalnih podataka o tragovima za predviđanje zdravstvenih ishoda, došlo je do velike količine posla pomoću podataka Twittera kako bi se predvidjeli rezultati izbora; za recenzije pogledajte Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (poglavlje 7) i Huberty (2015) . U središnjim je bankama uobičajeno prikazivanje ekonomskih pokazatelja poput bruto domaćeg proizvoda (BDP), vidi Bańbura et al. (2013) . tablica 2.8 sadrži nekoliko primjera studija koje koriste neku vrstu digitalnog traga za predviđanje neke vrste događaja u svijetu.
Digitalni trag | Ishod | Citat |
---|---|---|
Cvrkut | Prihod prihoda od filmova u SAD-u | Asur and Huberman (2010) |
Zapisnici pretraživanja | Prodaja filmova, glazbe, knjiga i video igara u SAD-u | Goel et al. (2010) |
Cvrkut | Dow Jones industrijski prosjek (američko tržište dionica) | Bollen, Mao, and Zeng (2011) |
Društveni mediji i zapisnici pretraživanja | Istraživanja sentimenta i tržišta dionica investitora u Sjedinjenim Američkim Državama, Ujedinjenom Kraljevstvu, Kanadi i Kini | Mao et al. (2015) |
Zapisnici pretraživanja | Prevalencija denga groznice u Singapuru i Bangkoku | Althouse, Ng, and Cummings (2011) |
Naposljetku, Jon Kleinberg i njegovi kolege (2015) naglasili su da problemi predviđanja spadaju u dvije, posve različite kategorije i da su društveni znanstvenici skloni fokusirati se na jednu i zanemariti druge. Zamislite jednog kreatora politike, nazvat ću je Anu, koja se suočava sa sušom i mora odlučiti hoće li zaposliti šaman da ples za kišu poveća vjerojatnost za kišu. Drugi kreator politike, nazvat ću je Betty, mora odlučiti hoće li uzeti kišobran kako bi izbjegao mokro na putu kući. I Ana i Betty mogu donijeti bolju odluku ako razumiju vrijeme, ali moraju znati različite stvari. Anna treba razumjeti da li kiša pada uzrokuje kišu. Betty, s druge strane, ne mora razumjeti ništa o uzročnosti; ona samo treba točnu prognozu. Socijalni istraživači često se usredotočuju na probleme poput onog s kojima se Ana suočila - što Kleinberg i njegovi kolege nazivaju "političkim problemima poput kiše", jer uključuju pitanja kauzalnosti. Pitanja poput onoga s kojom se suočava Betty - koji Kleinberg i njegovi kolege nazivaju "kišobranima" političkim problemima - mogu biti vrlo važni, ali su primili mnogo manje pozornosti od socijalnih istraživača.
Časopis PS Political Science imao je simpozij o velikim podacima, kauzalnom zaključku i formalnoj teoriji, a Clark and Golder (2015) sažeti svaki doprinos. Časopis Zbornik Nacionalne akademije znanosti Sjedinjenih Američkih Država imao je simpozij o kauzalnom zaključivanju i velikim podacima, a Shiffrin (2016) sažima svaki doprinos. Za strojno učenje pristupe koji pokušavaju automatski otkriti prirodne pokuse unutar velikih izvora podataka, vidi Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , te Sharma, Hofman, and Watts (2016) .
U smislu prirodnih eksperimenata, Dunning (2012) pruža uvodni, dugotrajni postupak s mnogo primjera. Za skeptičan pogled na prirodne pokuse vidjeti Rosenzweig and Wolpin (2000) (ekonomika) ili Sekhon and Titiunik (2012) (politička znanost). Deaton (2010) i Heckman and Urzúa (2010) tvrde da se usredotočujući se na prirodne pokuse mogu voditi istraživače da se usredotoče na procjenu nevažnih kauzalnih učinaka; Imbens (2010) suprotstavlja ove argumente s optimističnijim pogledom na vrijednost prirodnih pokusa.
Prilikom opisivanja načina na koji bi istraživač mogao proći od procjene učinka izrade na učinak posluživanja, opisao sam tehniku nazvanu instrumentalne varijable . Imbens and Rubin (2015) , u svojim poglavljima 23 i 24, daju uvod i primjenjuju nacrt lutrije kao primjer. Učinak vojne službe na kompilere ponekad se naziva prosječni kauzalni učinak (CAcE), a ponekad i lokalni prosječni učinak liječenja (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) i Bollen (2012) nude recenzije o korištenju instrumentalnih varijabli u politologiji, ekonomiji i sociologiji, a Sovey and Green (2011) daje " Sovey and Green (2011) popis za provjeru" vrednovanje studija pomoću instrumentalnih varijabli.
Ispada da loto 1970 lutrija nije, zapravo ispravno randomizirano; bilo je malo odstupanja od čiste slučajnosti (Fienberg 1971) . Berinsky and Chatfield (2015) tvrde da ovo malo odstupanje nije bitno važno i raspravlja o važnosti pravilno provedene randomizacije.
U pogledu podudaranja, pogledajte Stuart (2010) za optimističan pregled i Sekhon (2009) za pesimistički pregled. Više o podudarnosti kao vrsta obrezivanja vidi Ho et al. (2007) . Pronalaženje jednog savršenog podudaranja za svaku osobu često je teško, a to uvodi niz složenosti. Prvo, kada točnost utakmica nije dostupna, istraživači moraju odlučiti kako izmjeriti udaljenost između dvije jedinice i ako je određena udaljenost dovoljno blizu. Druga složenost nastaje ako istraživači žele koristiti više šibica za svaki slučaj u skupini liječenja, jer to može dovesti do preciznijih procjena. Oba ova pitanja, kao i ostala, detaljno su opisana u poglavlju 18 Imbens and Rubin (2015) . Vidi također Dio II od ( ??? ) .
Vidi Dehejia and Wahba (1999) za primjer gdje su podudarne metode bile u stanju proizvesti procjene slične onima iz randomiziranog kontroliranog eksperimenta. Ali, pogledajte Arceneaux, Gerber, and Green (2006) i Arceneaux, Gerber, and Green (2010) za primjere gdje metode podudaranja nisu uspjele reproducirati eksperimentalno mjerilo.
Rosenbaum (2015) i Hernán and Robins (2016) nude druge savjete za otkrivanje korisnih usporedbi unutar velikih izvora podataka.