Üks selline vaatlus, mida selles peatükis ei sisaldu, on etnograafia. Lisateavet etnograafia kohta digitaalsetes ruumides vt Boellstorff et al. (2012) ja rohkem etnograafia kohta segatud digitaalsetes ja füüsilistes ruumides, vt Lane (2016) .
Puudub ühtne "suurte andmete" üksmeelne määratlus, kuid paljud määratlused keskenduvad "3 Vs": maht, mitmekesisus ja kiirus (nt Japec et al. (2015) ). Vt De Mauro et al. (2015) mõistete ülevaatamiseks.
Minu valitsuse administratiivsete andmete lisamine suurte andmete kategoorias on natuke ebatavaline, kuigi teised on seda juhtumit teinud, sealhulgas Legewie (2015) , Connelly et al. (2016) ja Einav and Levin (2014) . Lisateavet valitsuse administratiivsete andmete väärtuse kohta uuringute jaoks vt Card et al. (2010) , Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) ja Grusky, Smeeding, and Snipp (2015) .
Valitsuse statistikasüsteemi, eelkõige USA loendusbüroo Jarmin and O'Hara (2016) vaata Jarmin and O'Hara (2016) . Rootsi Statistikaameti administratiivsete dokumentide uurimise raamatute pikkuse käsitlemise kohta vt Wallgren and Wallgren (2007) .
Selles peatükis ma lühidalt võrreldlesin traditsioonilist uuringut, näiteks üldist sotsiaalvaldkonna uuringut (GSS) sotsiaalmeedia andmeallikaga, näiteks vidistama. Traditsiooniliste uuringute ja sotsiaalse meedia andmete põhjaliku ja hoolika võrdluse kohta vt Schober et al. (2016) .
Neid 10 suurte andmete omadusi kirjeldasid erinevad autorid mitmel erineval moel. Kirjutamine, mis mõjutas minu mõtteid nendele küsimustele, hõlmab Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) Japec et al. (2015) Horton and Tambe (2015) , Japec et al. (2015) ja Goldstone and Lupyan (2016) .
Selles peatükis olen kasutanud terminit digitaalsed jäljed , mis minu arvates on suhteliselt neutraalne. Teine populaarne digitaalsete jälgede termin on digitaalne jalajälg (Golder and Macy 2014) , kuid Hal Abelson, Ken Lideen ja Harry Lewis (2008) rõhutavad, et sobivam termin on ilmselt digitaalsed sõrmejäljed . Kui loote jalajäljed, olete teadlik sellest, mis juhtub ja teie jalajälgi ei saa teiega isiklikult tuvastada. Sama ei kehti teie digitaalsete jälgede kohta. Tegelikult jätate kogu aeg jälgi, mille kohta teil on väga vähe teadmisi. Ja kuigi need jäljed ei anna neile nime, saab neid tihti teiega siduda. Teisisõnu on need pigem sõrmejäljed: nähtamatu ja isiklikult tuvastatav.
Lisateavet selle kohta, miks suured andmekogumid muudavad statistiliste testide probleemid, vt M. Lin, Lucas, and Shmueli (2013) ning McFarland and McFarland (2015) . Need küsimused peaksid teadlaste tähelepanu pöörama pigem praktilisele tähtsusele kui statistilisele tähtsusele.
Lisateavet selle kohta, kuidas Raj Chetty ja tema kolleegid said juurdepääsu maksuregistritele, vt Mervis (2014) .
Suured andmekogumid võivad samuti tekitada arvutusprobleeme, mis üldiselt ületavad ühe arvuti võimekust. Seepärast levitavad suured andmekogumit arvutanud teadlased sageli tööd paljude arvutite vahel, protsessi, mida mõnikord nimetatakse paralleelseks programmeerimiseks . Paralleelse programmeerimise juurest, eriti keelest Hadoop, vt Vo and Silvia (2016) .
Kui kaalute alati andmeid, on oluline kaaluda, kas võrreldate täpselt samu inimesi aja jooksul või kas te võrdlete mõnda muutuvat inimrühma; vt näiteks Diaz et al. (2016) .
Klassikaline raamat mittereaktiivsete meetmete kohta on Webb et al. (1966) . Selle raamatu näited pärinevad enne digitaalajast, kuid need on endiselt valgustavad. Näiteid inimeste kohta, kes muudavad oma käitumist massilise järelevalve olemasolu tõttu, vt Penney (2016) ja Brayne (2014) .
Reaktiivsus on tihedalt seotud sellega, mida teadlased nimetavad nõudluse mõjuks (Orne 1962; Zizzo 2010) ja Hawthorne'i efekt (Adair 1984; Levitt and List 2011) .
Lisainformatsiooni saamiseks vt Dunn (1946) ja Fellegi and Sunter (1969) (ajalooline) ning Larsen and Winkler (2014) (tänapäevased). Sarnased lähenemised on välja töötatud ka infotehnoloogias selliste nimede all nagu andmetöötlus, nt identifitseerimine, nimede sobitamine, duplikaadide tuvastamine ja duplikaadi tuvastamine (Elmagarmid, Ipeirotis, and Verykios 2007) . Samuti on olemas eraelu puutumatust säilitavad lähenemisviisid, et salvestada sidet, mis ei nõua isikuandmete edastamist (Schnell 2013) . Facebook on ka loonud protsessi oma dokumentide sidumiseks hääletamise käitumisega; seda tehti, et hinnata eksperimenti, mida ma teile 4. peatükis (Bond et al. 2012; Jones et al. 2013) .
Põhjalikuma konstruktsiooni kehtivuse kohta vt Shadish, Cook, and Campbell (2001) 3. peatükki.
Lisateavet AOL-i otsingumänguartikli kohta leiate teemal Ohm (2010) . Ma kirjeldan katseid, pakkudes nõu ettevõtte ja valitsuse partneritega 4. peatükis. Mitmed autorid on väljendanud muret teadustöö pärast, mis põhineb ligipääsmatutel andmetel, vt Huberman (2012) ja boyd and Crawford (2012) .
Üks hea viis ülikooli teadlased omandada andmetele juurdepääsu on töötada firmas intern või külastada teadlane. Lisaks võimaldab juurdepääsu andmetele, see protsess aitab ka uurija rohkem teada, kuidas andmed on loodud, mis on oluline analüüsida.
Valitsuse andmetega tutvumise osas arutleb Mervis (2014) üle, kuidas Raj Chetty ja tema kolleegid said juurdepääsu sotsiaalse liikuvuse uuringutes kasutatud maksuregistritele.
Kontseptsiooni "esindavuse" ajaloo kohta vt Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) ning Kruskal and Mosteller (1980) .
Lumi töö ja Doll and Hilli töö kokkuvõtted olid lühikesed. Lisateavet Loola töö kohta koolerale vt Freedman (1991) . Lisateavet Briti arstide õpetuse kohta vt Doll et al. (2004) ja Keating (2014) .
Paljud teadlased on üllatunud, et kuigi Doll and Hill kogus andmeid naistest arstidelt ja alla 35-aastastelt arstidelt, ei tahtnud nad neid andmeid esimeses analüüsis tahtlikult kasutada. Nagu nad väitsid: "Kuna kopsuvähk on suhteliselt haruldane naistel ja alla 35-aastastel meestel, siis mõne aasta jooksul pole sellistes rühmades tõenäoliselt kasulikke näitajaid. Selles esialgses aruandes oleme seetõttu piiranud meie tähelepanu 35-aastastele ja vanematele meestele. " Rothman, Gallacher, and Hatch (2013) , millel on provokatiivne pealkiri" Miks esindavust tuleks vältida, "teevad üldisema argumendi tahtlikult mitterepresentatiivsete andmete loomine.
Mittesepresentatiivsus on suur probleem teadlastele ja valitsustele, kes soovivad teha avaldusi kogu elanikkonna kohta. See ei ole mure ettevõtete pärast, kes keskenduvad tavaliselt nende kasutajatele. Lisateavet selle kohta, kuidas statistikaametid arvestavad äriandmete suurte andmete Buelens et al. (2014) , vt Buelens et al. (2014) .
Näiteid teadlaste kohta, kes väljendasid muret suurte andmeallikate mitteametliku iseloomu üle, vt boyd and Crawford (2012) , K. Lewis (2015b) ja Hargittai (2015) .
Sotsiaaluuringute ja epidemioloogiliste uuringute eesmärkide üksikasjalikumat võrdlemist vt Keiding and Louis (2016) .
Lisateavet Jungherr (2013) , et teha Jungherr (2013) valijate kohta, eriti seoses 2009. aasta Saksa valimistega, vt Jungherr (2013) ja Jungherr (2015) . Pärast Tumasjan et al. (2010) tööd Tumasjan et al. (2010) kogu maailma teadlased kasutanud võõraste meetodite kasutamist, näiteks tundlikkuse analüüsi kasutamist, et eristada osapoolte positiivseid ja negatiivseid märkusi, et parandada Twitteri võimalusi erinevate erinevate valimisviiside ennustamiseks (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) kokku võtnud järgmiste valimiste ennustuskatsete tulemused:
"Kõik teadaolevad sotsiaalmeediumil põhinevad prognoosimismeetodid on ebaõnnestunud, kui nad on nõudnud tõelist tulevikku suunatud valimisprognoosi. Need ebaõnnestumised tunduvad olevat pigem sotsiaalse meedia põhiomaduste kui metoodiliste või algoritmiliste raskuste tõttu. Lühidalt öeldes, sotsiaalmeedia ei paku ja tõenäoliselt kunagi ei paku valijate stabiilset, erapooletu ja tüüpilist pilti; ja sotsiaalse meedia mugavusproovides puuduvad piisavad andmed nende probleemide lahendamiseks post-hoc. "
3. peatükis kirjeldan proovide võtmist ja hinnangut palju üksikasjalikumalt. Isegi kui andmed ei ole representatiivsed, võivad teatud tingimustel kaaluda heade hinnangute saamiseks kaalutlusi.
Süsteemi triiv on väljastpoolt väga raske näha. Siiski on akadeemilise uurimisgrupi poolt filmi "MovieLens" projekt (mida on käsitletud peatükis 4) rohkem kui 15 aastat. Seega on neil olnud võimalik dokumenteerida ja jagada teavet selle kohta, kuidas süsteem aja jooksul arenenud ning kuidas see võib mõjutada analüüsi (Harper and Konstan 2015) .
Mitu teadlast on keskendunud Liu, Kliman-Silver, and Mislove (2014) Twitteris: Liu, Kliman-Silver, and Mislove (2014) ja Tufekci (2014) .
Üks lähenemisviis rahvastikutiheduse lahendamisele on luua kasutajate rühm, mis võimaldab teadlastel aja jooksul samu inimesi uurida (vt Diaz et al. (2016) .
Kõigepealt kuulsin sõna Jon Kleinbergi poolt kasutatavat terminit "algoritmiliselt segane", kuid kahjuks ma ei mäleta seda, kus ja kus rääkisid. Esimene kord, kui ma nägin prinditavat terminit, oli Anderson et al. (2015) , mis on huvitav arutlus selle üle, kuidas dating saitidel kasutatavad algoritmid võivad raskendada teadlaste võimet kasutada neid veebisaite andmeid sotsiaalsete eelistuste uurimiseks. Seda muret tõstis K. Lewis (2015a) vastuseks Anderson et al. (2014) .
Lisaks Facebook soovitab Twitter samuti kasutajatel jälgida triadaalse sulgemise ideed; vaata Su, Sharma, and Goel (2016) . Nii et triadaalse sulgemise tase Twitteris on kombinatsioon mõnest inimlikust tendentsist triadaalse sulgemise suunas ja mõne algoritmilise kalduvusega edendada triadilist sulgemist.
Täiendavamaks on performatiivsus - eriti idee, et mõned sotsiaalteaduste teooriad on "mootorid, mitte kaamerad" (st nad kujundavad pigem maailma kui kirjeldavad seda) - vaata Mackenzie (2008) .
Valitsuste statistikaasutused nimetavad andmete puhastamiseks statistiliste andmete redigeerimist . De Waal, Puts, and Daas (2014) kirjeldavad uuringuandmete jaoks välja töötatud statistiliste andmete töötlemise meetodeid ja uurivad, mil määral need on kohaldatavad suurte andmeallikate suhtes, ning Puts, Daas, and Waal (2015) pakuvad mõningaid samu ideid üldisem vaatajaskond.
Ülevaade sotsiaalsetest robotest vt Ferrara et al. (2016) . Mõnede näidete kohta, mis keskenduvad Twitteris rämpsposti leidmisele, vt Clark et al. (2016) ja Chu et al. (2012) . Lõpuks, Subrahmanian et al. (2016) kirjeldab DARPA Twitter Bot Challenge tulemusi, mis on mõeldud platvormide avastamise tuvastamiseks Twitteris.
Ohm (2015) vaatab läbi tundliku teabe idee varasemad uuringud ja pakub multifaktoritesti. Neli tegurit, mida ta pakub, on kahju suurusjärgus, kahju tõenäosus, konfidentsiaalse suhte olemasolu ja see, kas risk peegeldab suuremahulisi küsimusi.
Farberi takso uuring New Yorgis põhines Camerer et al. (1997) varasemal uuringul Camerer et al. (1997) kus kasutati kolme erinevat paberilehtede mugavuse näidist. Varasemas uurimuses leiti, et juhid näivad olevat sihtkasvatajad: nad töötasid vähem päevadel, kus nende palgad olid suuremad.
Edaspidises töös on King ja tema kolleegid veelgi uurinud Interneti-tsensuuri Hiinas (King, Pan, and Roberts 2014, [@king_how_2016] ) . Sarnase lähenemise kohta online tsensuuri mõõtmiseks Hiinas vt Bamman, O'Connor, and Smith (2012) . Lisateavet selliste statistiliste meetodite kohta nagu King, Pan, and Roberts (2013) , mida kasutatakse 11 miljoni postituse jaoks, vt Hopkins and King (2010) . Lisateavet juhendatud õppimise kohta vt James et al. (2013) (vähem tehniline) ja Hastie, Tibshirani, and Friedman (2009) (tehniline).
Prognoosimine on suur osa tööstuslikust andmetest (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Sotsiaalteadlaste poolt sageli tehtav prognoosimine on demograafiline prognoos; vt näiteks Raftery et al. (2012) .
Google Flu Trends ei olnud esimene projekt gripiviiruse levimuse kohta tänapäeval otsingandmete kasutamiseks. Tegelikult on Ameerika Ühendriikide teadlased (Polgreen et al. 2008; Ginsberg et al. 2009) ja Rootsist (Hulth, Rydevik, and Linde 2009) leidnud, et teatud otsinguterminid (nt "gripp") ennustavad riiklikku rahvatervisealast järelevalvet andmed enne selle vabastamist. Hiljem on paljudel, paljudel teistel projektidel püüdnud kasutada digitaalseid jälgiandmeid haiguste jälgimise avastamiseks; vaata Althouse et al. (2015) läbivaatamiseks.
Lisaks tervisega seotud tulemuste ennustamiseks digitaalsete jälgimisteabe kasutamisele on valimiste tulemuste ennustamiseks kasutatud ka Twitteri andmeid; ülevaatamiseks vt Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (7. peatükk) ja Huberty (2015) . Majandusnäitajate, nagu sisemajanduse koguprodukt (SKT), on praegu ka keskpankades tavaline, vt Bańbura et al. (2013) . tabelis 2.8 on toodud mõned näited uuringutest, mis kasutavad mingisugust digitaalset jälge, et ennustada mingisugust sündmust maailmas.
Digitaalne jälg | Tulemus | Viide |
---|---|---|
USA filmitööstuse karbi tulud | Asur and Huberman (2010) | |
Otsingupäringud | USAs filmide, muusika, raamatute ja videomängude müük | Goel et al. (2010) |
Dow Jones Industrial Average (USA aktsiaturg) | Bollen, Mao, and Zeng (2011) | |
Sotsiaalmeedia ja otsingupäringud | Investori sentiment ja aktsiaturgude uuringud Ameerika Ühendriikides, Ühendkuningriigis, Kanadas ja Hiinas | Mao et al. (2015) |
Otsingupäringud | Dengue-palaviku levimus Singapuris ja Bangkokis | Althouse, Ng, and Cummings (2011) |
Lõpuks on Jon Kleinberg ja tema kolleegid (2015) märkinud, et prognoosimisprobleemid jagunevad kahte, peenelt erinevasse kategooriasse ja et sotsiaalteadlased on kaldunud keskenduma ühele ja ignoreerima teist. Kujutage ette, et üks poliitikakujundaja, ma kutsun teda Anna, kes seisab põua ees ja peab otsustama, kas palkama šamaanit, et vihma võimalus tõstaks vihma tantsu. Teine poliitikakujundaja, ma helistan talle Bettyle, peab otsustama, kas võtta vihmavari töötamiseks, et vältida märjaks saamist kodus. Nii Anna ja Betty saavad paremini otsustada, kui nad mõistavad ilmastikku, kuid nad peavad teadma erinevaid asju. Anna peab mõistma, kas vihma tants annab vihma. Betty teisest küljest ei pea midagi põhjuslikkuse kohta mõistma; ta vajab täpset prognoosi. Sotsiaalteadlased keskenduvad sageli sellistele probleemidele nagu Anna, kellega Kleinberg ja tema kolleegid nimetavad "vihma tantsu-sarnasteks" poliitilisteks probleemideks, kuna need hõlmavad põhjuslikke seoseid. Kindlasti võivad olla üsna olulised küsimused, nagu näiteks Bettys, kellega Kleinberg ja tema kolleegid nimetavad "vihmavarjuga sarnaseid" poliitilisi probleeme, kuid sotsiaalteadlaste tähelepanu on pööratud palju vähem tähelepanu.
Ajakirjale PS Political Science oli sümpoosion suurte andmete, põhjuslike järelduste ja formaalse teooria kohta ning Clark and Golder (2015) kajastavad iga panuse. Ameerika Ühendriikide Riikliku Teaduste Akadeemia ajakirjas Proceedings korraldas sümpoosioni põhjusliku seose ja suurte andmete kohta ning Shiffrin (2016) võtab kokku iga panuse. Masinapõhiste lähenemisviiside puhul, mis püüavad automaatselt leida looduslikke katseid suurte andmeallikate sees, vt Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) ning Sharma, Hofman, and Watts (2016) .
Looduslike eksperimentide puhul pakub Dunning (2012) sissejuhatavat, pikkust käsitlemist mitmete näidetega. Looduslike eksperimentide skeptiline vaade vt Rosenzweig and Wolpin (2000) (majandus) või Sekhon and Titiunik (2012) (politoloogia). Deaton (2010) ja Heckman and Urzúa (2010) väidavad, et keskendumine looduslikele eksperimentidele võib aidata teadlastel keskenduda ebaoluliste põhjuslike mõjude hindamisele; Imbens (2010) neid argumente looduslike eksperimentide väärtuse optimistlikuma nägemusega.
Kirjeldades seda, kuidas teadlane võiks prognoosida koostamise mõju teenimise mõjule, kirjeldasin ma tehnikat, mida nimetatakse instrumentaalseks muutujateks . Imbens and Rubin (2015) oma peatükkides 23 ja 24 annavad sissejuhatuse ja kasutavad loteriina eelnõu. Sõjaväeteenistuse mõju järgijatele nimetatakse mõnikord tavapäraseks keskmise põhjusliku mõju (CAcE) ja mõnikord ka kohaliku keskmise raviefekti (LATE) jaoks. Sovey and Green (2011) , Angrist and Krueger (2001) ja Bollen (2012) pakuvad ülevaate instrumentaalsete muutujate kasutamisest poliitikas, majanduses ja sotsioloogias ning Sovey and Green (2011) pakuvad "lugejate kontrollnimekirja" instrumentaalsete muutujate kasutamise uuringute hindamine.
Tuleb välja, et 1970. aasta loterii eelnõu ei olnud tegelikult õigesti randomiseeritud; väikesed kõrvalekalded puhast juhuslikkusest (Fienberg 1971) . Berinsky and Chatfield (2015) väidavad, et see väike kõrvalekalle ei ole sisuliselt oluline ja arutleb õigesti läbiviidud randomiseerimise tähtsuse üle.
Sobimuse osas vt Stuart (2010) optimistliku ülevaate saamiseks ja Sekhon (2009) pessimistliku ülevaate saamiseks. Lisateabe saamiseks niisuguse pügamise kohta vt Ho et al. (2007) . Iga inimese täiuslik sobitamine on sageli keeruline ja sellega kaasneb mitmeid keerukaid probleeme. Esiteks, kui täpseid vasteid pole saadaval, peavad teadlased otsustama, kuidas mõõta kaugust kahe üksuse vahel ja kui antud vahemaa on piisavalt lähedal. Teine keerukus tekib siis, kui teadlased soovivad ravigrupis iga juhtumi jaoks kasutada mitut vastet, kuna see võib viia täpsemate hinnangute juurde. Mõlemat teemat, nagu ka teisi, kirjeldatakse üksikasjalikult Imbens and Rubin (2015) peatükis 18. Vt ka ( ??? ) II osa.
Vt Dehejia and Wahba (1999) näitena, kus Dehejia and Wahba (1999) suutsid luua hinnangud, mis on sarnased randomiseeritud kontrollitud eksperimendi tulemustega. Kuid vaadake Arceneaux, Gerber, and Green (2006) ja Arceneaux, Gerber, and Green (2010) näiteid, mille puhul sobivad meetodid ei suutnud katsetada võrdlust.
Rosenbaum (2015) ja Hernán and Robins (2016) pakuvad teisi nõuandeid kasulike võrdluste leidmiseks suurte andmeallikate hulgas.