Eno opazovanje, ki ni vključeno v to poglavje, je etnografija. Za več o etnografiji v digitalnih prostorih glej Boellstorff et al. (2012) in za več o etnografiji v mešanih digitalnih in fizičnih prostorih glej Lane (2016) .
Obstaja enotna soglasna opredelitev "velikih podatkov", vendar se zdi, da se številne opredelitve osredotočajo na obseg, raznolikost in hitrost "3 Vs" (npr. Japec et al. (2015) ). Glej De Mauro et al. (2015) za pregled opredelitev.
Moja vključitev vladnih administrativnih podatkov v kategorijo velikih podatkov je nekoliko nenavadna, čeprav so nekateri tudi ta primer, vključno z Legewie (2015) , Connelly et al. (2016) ter Einav and Levin (2014) . Za več informacij o vrednosti vladnih administrativnih podatkov za raziskave glejte Card et al. (2010) , Adminstrative Data Taskforce (2012) Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) in Grusky, Smeeding, and Snipp (2015) .
Zaradi administrativnih raziskav znotraj vladnega statističnega sistema, zlasti ameriškega urada za popise prebivalstva, glej Jarmin and O'Hara (2016) . Za knjigovodsko obravnavo raziskav upravnih evidenc na Statističnem Švedskem glej Wallgren and Wallgren (2007) .
V poglavju sem kratko primerjal tradicionalno raziskavo, kot je Splošna družbena raziskava (GSS) z virom podatkov o socialnih medijih, kot je Twitter. Za temeljito in natančno primerjavo med tradicionalnimi raziskavami in podatki o družbenih medijih glej Schober et al. (2016) .
Te 10 značilnosti velikih podatkov so na različne načine opisali različni avtorji. Pisanje, ki je vplivalo na moje razmišljanje o teh vprašanjih, vključuje Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) ter Goldstone and Lupyan (2016) .
V tem poglavju sem uporabil izraz digitalne sledi , ki je po mojem mnenju relativno nevtralen. Drug priljubljen izraz za digitalne sledi je digitalni odtis (Golder and Macy 2014) , toda, kot poudarjajo Hal Abelson, Ken Ledeen in Harry Lewis (2008) , je primernejši izraz verjetno digitalni prstni odtisi . Ko ustvarite odtise, se zavedate, kaj se dogaja in vaši odtisi na splošno ne morejo slediti osebno do vas. Enako velja za vaše digitalne sledi. Pravzaprav zapuščate sledove, o katerih imate zelo malo znanja. Čeprav ti sledi nimajo vašega imena na njih, jih je mogoče pogosto povezati z vami. Z drugimi besedami, bolj so kot prstni odtisi: nevidni in osebno prepoznavni.
Več o tem, zakaj veliki podatkovni nizi povzročajo problematične statistične teste, glej M. Lin, Lucas, and Shmueli (2013) ter McFarland and McFarland (2015) . Ta vprašanja bi morala voditi raziskovalce, da se osredotočijo na praktični pomen in ne na statistično pomembnost.
Več o tem, kako so Raj Chetty in sodelavci dobili dostop do davčnih evidenc, glej Mervis (2014) .
Veliki nizi podatkov lahko ustvarijo računalniške probleme, ki so večinoma zunaj zmogljivosti posameznega računalnika. Zato raziskovalci, ki izračunajo velike zbirke podatkov, pogosto širijo delo na več računalnikih, proces, ki se včasih imenuje vzporedno programiranje . Za uvod v vzporedno programiranje, zlasti jezik, imenovan Hadoop, glej Vo and Silvia (2016) .
Pri obravnavi podatkov, ki so vedno na voljo, je pomembno, da razmislite, ali primerjate iste ljudi s časom ali pa primerjate neko spreminjajočo se skupino ljudi; glej na primer Diaz et al. (2016) .
Klasična knjiga o nereaktivnih ukrepih je Webb et al. (1966) . Primeri v tej knjigi predstavljajo digitalno dobo, vendar še vedno osvetljujejo. Za primere ljudi, ki spreminjajo svoje vedenje zaradi prisotnosti množičnega nadzora, glej Penney (2016) in Brayne (2014) .
Reaktivnost je tesno povezana s tem, kar raziskovalci imenujejo učinek povpraševanja (Orne 1962; Zizzo 2010) in učinek Hawthorne (Adair 1984; Levitt and List 2011) .
Za več informacij o rekordnih povezavah glej Dunn (1946) in Fellegi and Sunter (1969) (zgodovinsko) ter Larsen and Winkler (2014) (moderno). Podobni pristopi so bili razviti tudi v računalništvu pod imeni, kot so deduplikacija podatkov, identifikacija primera, ujemanje imena, dvojno zaznavanje in odkrivanje podvojenih zapisov (Elmagarmid, Ipeirotis, and Verykios 2007) . Obstajajo tudi pristopi, ki ohranjajo zasebnost, da beležijo povezavo, ki ne zahteva prenosa osebnih podatkov (Schnell 2013) . Facebook je razvil tudi postopek za povezavo svojih zapisov z glasovnim vedenjem; to je bilo storjeno, da bi ocenili eksperiment, ki vam ga bom povedal v 4. poglavju (Bond et al. 2012; Jones et al. 2013) .
Za več o gradnji veljavnosti glej poglavje 3 Shadish, Cook, and Campbell (2001) .
Za več informacij o razpadu dnevnika za iskanje AOL glej Ohm (2010) . Pri opisovanju eksperimentov nudim nasvete glede partnerstva s podjetji in vladami v 4. poglavju. Številni avtorji so izrazili zaskrbljenost glede raziskav, ki se opirajo na nedostopne podatke, glej Huberman (2012) in boyd and Crawford (2012) .
En dober način za univerzitetni raziskovalci, da pridobijo dostop do podatkov je, da delo v podjetju kot pripravnik ali gostujoči raziskovalec. Poleg tega, da omogoča dostop do podatkov, bo ta proces pomaga tudi raziskovalec izvedeti več o tem, kako je nastal podatkov, kar je pomembno za analizo.
V zvezi s pridobivanjem dostopa do vladnih podatkov, Mervis (2014) razpravlja o tem, kako sta Raj Chetty in kolegi pridobila dostop do davčnih evidenc, ki so jih uporabili pri raziskavah o družbeni mobilnosti.
Za več o zgodovini »reprezentativnosti« kot koncepta glej Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) ter Kruskal and Mosteller (1980) .
Moji povzetki dela Snowa in dela Doll in Hill so bili kratki. Za več o Snowovem delu na koleri glej Freedman (1991) . Za več o študiji British Doctors glej Doll et al. (2004) in Keating (2014) .
Mnogi raziskovalci bodo presenečeni, če bodo izvedeli, da čeprav so Doll in Hill zbirali podatke od zdravnic in zdravnikov, mlajših od 35 let, jih v prvi analizi namerno niso uporabili. Kot so trdili: "Ker je pljučni rak pri ženskah in moških, mlajših od 35 let, razmeroma redek, se v teh skupinah verjetno ne bodo dosegle koristne številke nekaj let. V tem predhodnem poročilu smo zato opozorili na moške, stari 35 let ali več. « Rothman, Gallacher, and Hatch (2013) , ki ima izzivalen naslov» Zakaj se je treba izogibati reprezentativnosti «, daje splošnejši argument za vrednost namerno ustvarjanje nestandardnih podatkov.
Nereprezentativnost je velik problem za raziskovalce in vlade, ki želijo dati izjave o celotnem prebivalstvu. To je manj zaskrbljujoče za podjetja, ki se običajno osredotočajo na svoje uporabnike. Za več o tem, kako statistika Nizozemska obravnava vprašanje neupoštevnosti poslovnih velikih podatkov, glej Buelens et al. (2014) .
Za primere raziskovalcev, ki izražajo zaskrbljenost zaradi neobstojne narave velikih virov podatkov, glej boyd and Crawford (2012) , K. Lewis (2015b) in Hargittai (2015) .
Za podrobnejšo primerjavo ciljev socialnih raziskav in epidemioloških raziskav glej Keiding and Louis (2016) .
Več o poskusih uporabe Twitterja, da bi poskušali posploševati splošne podatke o volivcih, zlasti primera z nemških volitev leta 2009, glej Jungherr (2013) in Jungherr (2015) . Po delu Tumasjan et al. (2010) raziskovalci po vsem svetu uporabljali bolj fančne metode - na primer z uporabo analize sentimentov, da bi razlikovali med pozitivnimi in negativnimi navedbami strank - da bi izboljšali sposobnost podatkov Twittera, da predvidijo različne vrste volitev (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) povzel rezultate teh poskusov napovedovanja volitev:
"Vse znane metode napovedovanja, ki temeljijo na socialnih medijih, niso uspele, ko so bile izpostavljene zahtevam resnične napovedne volilne napovedi v prihodnosti. Zdi se, da so te napake posledica temeljnih lastnosti socialnih medijev, ne pa metodoloških ali algoritmičnih težav. Skratka, socialni mediji ne ponujajo in verjetno nikoli ne bodo ponudili stabilno, nepristransko in reprezentativno sliko volivcev; in primernosti vzorcev socialnih medijev nimajo zadostnih podatkov za odpravljanje teh težav po hoku. "
V poglavju 3 bom podrobneje opisal vzorčenje in oceno. Tudi če podatki niso zastopani, se lahko pod določenimi pogoji tehtajo, da bi dobili dobre ocene.
Zunanji sistem je zelo težko videti. Vendar pa je projekt MovieLens (več o tem v poglavju 4) vodil akademska raziskovalna skupina že več kot 15 let. Tako so lahko dokumentirali in izmenjali informacije o tem, kako se je sistem razvijal s časom in kako bi to lahko vplivalo na analizo (Harper and Konstan 2015) .
Številni učenjaki so se osredotočili na drift na Twitterju: Liu, Kliman-Silver, and Mislove (2014) in Tufekci (2014) .
Eden od načinov, kako se ukvarjati s preusmerjanjem prebivalstva, je ustvariti skupino uporabnikov, ki raziskovalcem omogoča, da istočasno preučujejo iste ljudi, glej Diaz et al. (2016) .
Najprej sem slišal izraz "algoritmično zmeden", ki ga je uporabil Jon Kleinberg v pogovoru, vendar se na žalost ne spomnim, kdaj in kje je bilo govora. Prvič, ko sem videl izraz v tiskani obliki, je bil v Anderson et al. (2015) , kar je zanimiva razprava o tem, kako lahko algoritmi, ki jih uporabljajo dating straneh, otežujejo raziskovalcem sposobnost uporabe podatkov s teh spletnih strani za preučevanje socialnih preferenc. To težavo je postavil K. Lewis (2015a) kot odgovor na Anderson et al. (2014) .
Poleg Facebooka Twitter tudi priporoča uporabnikom, da sledijo na podlagi ideje triadičnega zapiranja; glej Su, Sharma, and Goel (2016) . Torej, stopnja triadnega zaprtja v Twitterju je kombinacija neke človeške tendence proti tridimenzionalnemu zaprtju in nekateri algoritemski težnji k spodbujanju triadnega zapiranja.
Za več o performativnosti, zlasti o ideji, da so nekatere teorije družbene vede "motorji ne kamere" (tj. Oblikujejo svet in ne opisujejo le tega), glej Mackenzie (2008) .
Vladne statistične agencije pozivajo k čiščenju statističnih podatkov . De Waal, Puts, and Daas (2014) opisujejo tehnike urejanja statističnih podatkov, razvitih za podatke o raziskavah, in preučijo, v kolikšni meri se uporabljajo za velike vire podatkov, in Puts, Daas, and Waal (2015) predstavljajo nekatere iste zamisli za splošnejše občinstvo.
Za pregled socialnih botov glej Ferrara et al. (2016) . Za nekatere primere študij, ki so bile osredotočene na iskanje spama v Twitterju, glej Clark et al. (2016) in Chu et al. (2012) . Nazadnje, Subrahmanian et al. (2016) opisujejo rezultate DARPA Twitter Bot Challenge, množično sodelovanje, namenjeno primerjanju pristopov za odkrivanje botov na Twitterju.
Ohm (2015) obravnava zgodnejše raziskave o zamisli o občutljivih informacijah in ponuja večfaktorski test. Štirje dejavniki, ki jih predlaga, so obseg škode, verjetnost škode, navzočnost zaupnega razmerja in ali tveganje odraža večinski pomisleki.
Farberjeva študija taksijev v New Yorku je temeljila na prejšnji študiji Camerer et al. (1997) ki je uporabil tri različne vzorce papirnatih listov. V tej zgodnejši študiji je bilo ugotovljeno, da so bili vozniki ciljno usmerjeni: delali so manj dni, ko so bile njihove plače višje.
V naslednjem delu so King in sodelavci dodatno raziskali spletno cenzuro na Kitajskem (King, Pan, and Roberts 2014, [@king_how_2016] ) . Za povezani pristop k merjenju spletne cenzure na Kitajskem glej Bamman, O'Connor, and Smith (2012) . Več o statističnih metodah, kot so tisti, ki so jih uporabili v King, Pan, and Roberts (2013) da bi ocenili občutje 11 milijonov delovnih mest, glej Hopkins and King (2010) . Več o nadziranem učenju glej James et al. (2013) (manj tehničnega) in Hastie, Tibshirani, and Friedman (2009) (bolj tehnično).
Napovedovanje je velik del znanosti o industrijskih podatkih (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ena vrsta napovedi, ki jo običajno opravljajo socialni raziskovalci, je demografsko napovedovanje; glej, na primer, Raftery et al. (2012) .
Google Spremljanje razširjenosti gripe ni bil prvi projekt za uporabo podatkov iskanja za razširjenost gripe. Dejansko so raziskovalci v Združenih državah Amerike (Polgreen et al. 2008; Ginsberg et al. 2009) in Švedska (Hulth, Rydevik, and Linde 2009) ugotovili, da nekateri iskalni izrazi (npr. "Gripa") napovedujejo nacionalni nadzor javnega zdravja podatkov, preden je bil sprožen. Kasneje so številni drugi projekti poskušali uporabiti digitalne podatke o sledenju za odkrivanje bolezni; glej Althouse et al. (2015) za pregled.
Poleg uporabe digitalnih podatkov o sledovih za napovedovanje zdravstvenih rezultatov je bilo tudi veliko dela z uporabo podatkov iz Cvrkte za napovedovanje rezultatov volitev; za pregled glej Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (poglavje 7) in Huberty (2015) . Poudarki ekonomskih kazalnikov, kot je bruto domači proizvod (BDP), so pogosti tudi v centralnih bankah, glej Bańbura et al. (2013) . Tabela 2.8 vsebuje nekaj primerov študij, ki uporabljajo nekakšno digitalno sled, da predvidijo kakšen dogodek na svetu.
Digitalna sled | Izid | Navedba |
---|---|---|
Filmski prihodki filmov v ZDA | Asur and Huberman (2010) | |
Dnevniki iskanja | Prodaja filmov, glasbe, knjig in video iger v ZDA | Goel et al. (2010) |
Dow Jones Industrial Average (borza v ZDA) | Bollen, Mao, and Zeng (2011) | |
Družabni mediji in dnevniki iskanja | Ankete o razpoloženju vlagateljev in borznih trgov v Združenih državah, Združenem kraljestvu, Kanadi in na Kitajskem | Mao et al. (2015) |
Dnevniki iskanja | Razširjenost mrzlice dengue v Singapurju in Bangkoku | Althouse, Ng, and Cummings (2011) |
Končno sta Jon Kleinberg in kolegi (2015) poudarila, da napovedovanje problemov sodi v dve, subtilno različne kategorije in da se socialni znanstveniki večinoma osredotočajo na enega in ignorirajo druge. Predstavljajte si enega oblikovalca politike, poklical jo bom Anna, ki se sooča z suho in se mora odločiti, ali naj zaposli šamana, da naredi deževni ples, da bi povečal možnost dežja. Druga oblikovalka politike, jo imenujem Betty, se mora odločiti, ali bo delala krov, da bi se izognila mokrimi na poti domov. Anna in Betty se lahko bolje odločita, če razumejo vreme, vendar morajo poznati različne stvari. Anna mora razumeti, ali deževni ples povzroča dež. Na drugi strani pa Betty ni treba razumeti ničesar o vzročnosti; potrebuje natančno napoved. Socialni raziskovalci se pogosto osredotočajo na probleme, kot je tista, s katero se sooča Anna, ki jo Kleinberg in kolegi imenujejo "deževni plesni" politični problemi, ker vključujejo vprašanja vzročnosti. Vprašanja, kot je tista, s katero se srečuje Betty, ki jo Kleinberg in kolegi imenujejo "krovni podobni" politični problemi, so lahko zelo pomembni, vendar so socialna raziskovalka deležna manj pozornosti.
Revija PS Politične znanosti je imela simpozij o velikih podatkih, vzročnih sklepih in formalni teoriji, Clark and Golder (2015) povzela vsak prispevek. Zbornik Zbornik Nacionalne akademije znanosti Združenih držav Amerike je imel simpozij o vzročnih sklepih in velikih podatkih, Shiffrin (2016) povzema vsak prispevek. Pri pristopih strojnega učenja, ki poskušajo samodejno odkriti naravne eksperimente znotraj velikih podatkovnih virov, glej Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) ter Sharma, Hofman, and Watts (2016) .
V zvezi z naravnimi eksperimenti Dunning (2012) ponuja uvodno, knjigovodsko obdelavo z veliko primeri. Za skeptičen pogled na naravne eksperimente glej Rosenzweig and Wolpin (2000) (ekonomija) ali Sekhon and Titiunik (2012) (politična znanost). Deaton (2010) in Heckman and Urzúa (2010) navajajo, da se osredotočanje na naravne eksperimente lahko privede do raziskovalcev, da se osredotočijo na ocenjevanje nepomembnih vzročnih učinkov; Imbens (2010) nasprotuje tem argumentom z bolj optimističnim pogledom na vrednost naravnih eksperimentov.
Ko opisujem, kako bi raziskovalec lahko ocenjeval učinek priprave na učinek, sem opisal tehniko, imenovano instrumentalne spremenljivke . Imbens and Rubin (2015) v svojih poglavjih 23 in 24 predstavita uvod in uporabita osnutek loterije kot primer. Učinek vojaške službe na komplementarje se včasih imenuje povprečni vzročni učinek (CAcE) in včasih lokalni učinek zdravljenja (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) in Bollen (2012) ponujata pregled uporabe instrumentalnih spremenljivk v političnih znanostih, ekonomiji in sociologiji ter Sovey and Green (2011) določa "bralni kontrolni seznam" za vrednotenje študij z instrumentalnimi spremenljivkami.
Izkazalo se je, da osnutek loterije iz leta 1970 dejansko ni bil pravilno naključen; so bili majhni odkloni od čiste naključnosti (Fienberg 1971) . Berinsky and Chatfield (2015) trdi, da to majhno odstopanje ni bistveno pomembno in razpravlja o pomenu pravilne randomizacije.
Glede ujemanja glej Stuart (2010) za optimistični pregled in Sekhon (2009) za pesimistični pregled. Za več o ujemanju kot obrezovanju glej Ho et al. (2007) . Iskanje ene popolne ujemanja za vsako osebo je pogosto težko, kar uvaja številne zapletenosti. Prvič, ko natančne tekme niso na voljo, se morajo raziskovalci odločiti, kako meriti razdaljo med dvema enotama in če je določena razdalja dovolj blizu. Druga zapletenost se pojavi, če raziskovalci želijo uporabiti več zadetkov za vsak primer v skupini za zdravljenje, ker lahko to vodi do natančnejših ocen. Obe temi, pa tudi drugi, sta podrobneje opisana v poglavju 18 iz Imbens and Rubin (2015) . Glej tudi II. Del ( ??? ) .
Glej Dehejia and Wahba (1999) za primer, pri katerem so metode ujemanja lahko Dehejia and Wahba (1999) ocene, podobne tistim iz randomiziranega kontroliranega preizkusa. Toda glej Arceneaux, Gerber, and Green (2006) ter Arceneaux, Gerber, and Green (2010) za primere, pri katerih metode ujemanja niso uspele reproducirati eksperimentalnega merila.
Rosenbaum (2015) in Hernán and Robins (2016) ponujajo druge nasvete za odkrivanje koristnih primerjav v velikih virih podatkov.