Viena iš pastebimų, kad šiame skyriuje nėra, yra etnografija. Daugiau apie etnografiją skaitmeniniuose erdviuose žr. Boellstorff et al. (2012) , o daugiau apie etnografiją mišriose skaitmeninėse ir fizinėse erdvėse žr. Lane (2016) .
Nėra vieningo "didelių duomenų" apibrėžimo bendro sutarimo, tačiau daugelis apibrėžimų, atrodo, sutelkti dėmesį į "3 Vs": apimtis, įvairovė ir greitis (pvz., Japec et al. (2015) ). Žr. De Mauro et al. (2015) Apibrėžimų peržiūrai.
Mano vyriausybės administracinių duomenų įtraukimas į didelių duomenų kategoriją yra šiek tiek neįprastas, tačiau kiti taip pat padarė šį atvejį, įskaitant Legewie (2015) , Connelly et al. (2016) , Einav and Levin (2014) . Daugiau apie vyriausybės administracinių tyrimų vertę, žr. Card et al. (2010) , Adminstrative Data Taskforce (2012) Ir Grusky, Smeeding, and Snipp (2015) .
Dėl vyriausybės statistikos sistemos, ypač JAV surašymo biuro, atliekamų administracinių tyrimų, žr. Jarmin and O'Hara (2016) . Norvegijos statistikos administracinių įrašų tyrimų, susijusių su Wallgren and Wallgren (2007) , žr. Wallgren and Wallgren (2007) .
Šiame skyriuje trumpai palyginu tradicinį apklausą, pvz., "Bendrąjį socialinį tyrimą" (GSS) su socialinės žiniasklaidos duomenų šaltiniu, pvz., "Twitter". Kruopštus ir kruopštus palyginimas tarp tradicinių apklausų ir socialinės žiniasklaidos duomenų žr. Schober et al. (2016) .
Šios 10 didelių duomenų charakteristikos įvairiais būdais aprašytos įvairių autorių įvairovėje. Rašymas, kuris paveikė mano mintis šiais klausimais, yra Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , " Goldstone and Lupyan (2016) .
Šiame skyriuje naudoju terminas " skaitmeninės pėdsakai" , kuris, mano nuomone, yra gana neutralus. Dar vienas populiarus skaitmeninių pėdsakų terminas yra skaitmeninis pėdsakas (Golder and Macy 2014) , tačiau, kaip nurodo Hal Abelson, Ken Ledeen ir Harry Lewis (2008) , tinkamesnis terminas yra skaitmeniniai pirštų atspaudai . Kai kuriate pėdsakus, jūs žinote, kas vyksta, ir jūsų pėdsakai paprastai negali būti atsekami jums asmeniškai. Tas pats pasakytina ir apie jūsų skaitmenines pėdsakus. Tiesą sakant, jūs visada paliekate pėdsakus, apie kuriuos turite labai mažai žinių. Ir nors šie pėdsakai neturi jūsų vardo, jie dažnai gali būti susieti su savimi. Kitaip tariant, jie labiau panašūs į pirštų atspaudus: nematomi ir asmeniškai identifikuojami.
Daugiau apie tai, kodėl dideli duomenų rinkiniai atlieka statistinius testavimus, žr. M. Lin, Lucas, and Shmueli (2013) Ir McFarland and McFarland (2015) . Šie klausimai turėtų padėti mokslininkams sutelkti dėmesį į praktinę reikšmę, o ne į statistinę reikšmę.
Daugiau informacijos apie tai, kaip Raj Chetty ir kolegos gavo prieigą prie mokesčių apskaitos, žr. " Mervis (2014) .
Didelės duomenų grupės taip pat gali sukurti skaičiavimo problemas, kurios paprastai yra didesnės nei vieno kompiuterio galimybės. Todėl mokslininkai, atliekantys skaičiavimus didelėse duomenų rinkose, dažnai skleisti darbą daugelyje kompiuterių, procesą, kuris kartais vadinamas lygiagrečiu programavimu . Įvadas į paralelinį programavimą, ypač kalbą "Hadoop", žr. Vo and Silvia (2016) .
Svarstydami nuolatinius duomenis, svarbu apsvarstyti, ar esate lyginantis tiksliai tuos pačius žmones per tam tikrą laiką, ar jūs lyginate keletą besikeičiančių žmonių grupių; žr., pavyzdžiui, Diaz et al. (2016) .
Klasikinė knyga apie nereaguojančias priemones yra Webb et al. (1966) . Šios knygos pavyzdžiai anksčiau nei skaitmeninis amžius, tačiau jie vis dar apšviečia. Žmonių, keičiančių savo elgesį dėl masinio stebėjimo, pavyzdžių žr. " Penney (2016) Ir " Brayne (2014) .
Reaktyvumas glaudžiai susijęs su tuo, ką mokslininkai vadina paklausos efektais (Orne 1962; Zizzo 2010) ir Hawthorne efektas (Adair 1984; Levitt and List 2011) .
Norėdami sužinoti daugiau apie įrašų sąsają, žr. Dunn (1946) ir Fellegi and Sunter (1969) (istorinis) ir Larsen and Winkler (2014) (modernus). Panašūs metodai taip pat buvo sukurti informacinių technologijų srityje pavadinimuose, pavyzdžiui, duomenų dublikavimo, instancijos identifikavimo, vardų atitikimo, dublikato aptikimo ir pasikartojančių įrašų nustatymo (Elmagarmid, Ipeirotis, and Verykios 2007) . Taip pat yra privatumo išsaugojimo būdų, kaip įrašyti ryšius, kuriems nereikia perduoti asmeniškai identifikuojamos informacijos (Schnell 2013) . "Facebook" taip pat sukūrė procesą susieti savo įrašus su balsavimo elgesiu; tai buvo padaryta, norint įvertinti eksperimentą, apie kurį pasakysiu 4 skyriuje (Bond et al. 2012; Jones et al. 2013) .
Daugiau apie konstrukcijos pagrįstumą skaitykite Shadish, Cook, and Campbell (2001) 3 skyriuje.
Norėdami sužinoti daugiau apie AOL paieškos žurnalą, žr. " Ohm (2010) . Kai aš apibūdina eksperimentus, aš siūlau apie partnerystę su įmonėmis ir vyriausybėmis 4 skyriuje. Daugelis autorių išreiškė susirūpinimą dėl mokslinių tyrimų, kurie remiasi neprieinamais duomenimis, žr. Huberman (2012) ir boyd and Crawford (2012) .
Vienas geras būdas universiteto mokslininkai įsigyti prieigą prie duomenų yra dirbti įmonėje kaip stažuotojas ar Lankymūsi mokslininkas. Be to, leidžianti prieigą prie duomenų, šis procesas taip pat padės mokslo mokytis daugiau apie tai, kaip duomenys buvo sukurtas, kuri yra svarbi analizės.
Kalbant apie prieigą prie vyriausybės duomenų, " Mervis (2014) kaip Raj Chetty ir jo kolegos gavo prieigą prie mokesčių apskaitos, naudojamos atliekant socialinio mobilumo tyrimus.
Daugiau apie "reprezentatyvumo" istoriją kaip koncepciją žr. Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) ir Kruskal and Mosteller (1980) .
Mano santraukos apie sniegą ir "Doll and Hill" darbą buvo trumpi. Daugiau apie "Snow" darbą choleros atveju žr. Freedman (1991) . Daugiau apie britų gydytojų tyrimą žr. Doll et al. (2004) ir Keating (2014) .
Daugelis mokslininkų nustebins, kad nors Doll and Hill surinko duomenis iš moterų gydytojų ir nuo 35 metų amžiaus gydytojų, jie jų sąmoningai nenaudojo pirmosios analizės metu. Jie teigė: "Kadangi plaučių vėžys yra gana retas moterims ir vyrams iki 35 metų, mažai tikėtina, kad šiais grupėmis bus naudingi skaičiai ateinantiems metams. Šiame preliminariame pranešime mes atkreipėme dėmesį į vyresnius kaip 35 metų ir vyresnius žmones. " Rothman, Gallacher, and Hatch (2013) , Kuris turi provokatyvų pavadinimą" Kodėl reprezentatyvumas turėtų būti vengiamas ", kelia bendresnį argumentą dėl tyčia kurti nereprezentacinius duomenis.
Neprepresencija yra didelė problema mokslininkams ir vyriausybėms, norintiems pateikti pareiškimus apie visą gyventojų grupę. Tai yra mažiau rūpestis įmonėms, kurios paprastai orientuojasi į jų vartotojus. Daugiau informacijos apie tai, kaip Statistikos departamentas nagrinėja didelių duomenų nereprezentatyvumo klausimą, žr. Buelens et al. (2014) .
Mokslininkų, išreiškiančių susirūpinimą dėl didelių duomenų šaltinių nereprezentatyvų pobūdį, pavyzdžių žr. boyd and Crawford (2012) , K. Lewis (2015b) ir Hargittai (2015) .
Išsamesnį socialinių tyrimų ir epidemiologinių tyrimų tikslų palyginimą žr. Keiding and Louis (2016) .
Daugiau apie bandymus naudoti "Twitter", kad būtų galima rinktis iš rinkėjų apibendrintų rinkėjų, ypač nuo 2009 m. Vokietijos rinkimų, žr. " Jungherr (2013) Ir " Jungherr (2015) . Po Tumasjan et al. (2010) Mokslininkai visame pasaulyje naudojo mėgėjų metodus, tokius kaip sentimentų analizė, siekiant atskirti teigiamas ir neigiamas partijų mintis, siekiant pagerinti "Twitter" duomenų gebėjimą numatyti įvairias įvairių tipų rinkimus (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Štai kaip Huberty (2015) Apibendrino šių bandymų numatyti rinkimus rezultatus:
"Visi žinomi socialinės žiniasklaidos pagrįsti prognozavimo metodai nepavyko patenkinti tikro ateities rinkimų prognozavimo poreikių. Atrodo, kad šie trūkumai atsiranda dėl pagrindinių socialinės žiniasklaidos savybių, o ne dėl metodologinių ar algoritminių sunkumų. Trumpai tariant, socialinė žiniasklaida nėra ir, tikriausiai niekada nebus, pasiūlys stabilų, nešališką, tipišką rinkėjų vaizdą; ir patogios socialinės žiniasklaidos pavyzdžių nėra, kad būtų išspręstos šios problemos post hoc ".
3 skyriuje aprašysiu mėginių ėmimo ir vertinimo daug išsamiau. Net jei duomenys yra nereprezentatyvūs, esant tam tikroms sąlygoms, juos galima svertiniai, kad gautų gerus įvertinimus.
Sistemos dreifą labai sunku matyti iš išorės. Tačiau "MovieLens" projektas (aptartas 4 skyriuje) jau daugiau nei 15 metų vyko akademinės tyrimų grupės. Taigi jie sugebėjo dokumentuoti ir dalintis informacija apie tai, kaip sistema ilgainiui vystėsi, ir kaip tai gali turėti įtakos analizei (Harper and Konstan 2015) .
Daugelis mokslininkų daugiausia dėmesio skyrė "Twitter": " Liu, Kliman-Silver, and Mislove (2014) Ir " Tufekci (2014) .
Vienas iš būdų kovoti su gyventojų dreifu yra sukurti naudotojų grupę, kuri leidžia mokslo darbuotojams studijuoti tuos pačius žmones laikui bėgant, žr. Diaz et al. (2016) .
Aš pirmą kartą išgirdau žodį "algoritminiai sugadinti", kurį Jonas Kleinbergas naudojo kalboje, bet deja, nepamenu, kada ir kur buvo kalbama. Pirmą kartą, kai aš pamačiau spausdinimo terminą, buvo Anderson et al. (2015) , Kuri yra įdomi diskusija apie tai, kaip pažinčių svetainių algoritmai gali apsunkinti tyrėjų gebėjimą naudoti šių svetainių duomenis studijuoti socialines lengvatas. Ši problema buvo iškelta K. Lewis (2015a) , atsakant į Anderson et al. (2014) .
Be "Facebook", "Twitter" taip pat rekomenduoja žmonėms vartotojams sekti, remiantis triadiško uždarymo idėja; žr Su, Sharma, and Goel (2016) . Taigi triadiško uždarymo lygis "Twitter" yra keletas žmonių tendencijos triadalio uždarymo derinys ir tam tikra algoritminė tendencija skatinti triadinį uždarymą.
Daugiau apie spektaklingumą, ypač į mintis, kad kai kurios socialinių mokslų teorijos yra "varikliai ne kameros" (ty jie formuoja pasaulį, o ne tik jį apibūdina) - žr. Mackenzie (2008) .
Valstybinės statistikos agentūros skleidžia duomenų valymą statistinių duomenų redagavimui . De Waal, Puts, and Daas (2014) Apibūdina statistinių duomenų redagavimo metodus, sukurtus apklausų duomenims, ir išnagrinėja, kokiu mastu jie taikomi dideliems duomenų šaltiniams, o Puts, Daas, and Waal (2015) Pateikia keletą tų pačių idėjų bendresnė auditorija.
Socialinių robotų apžvalga pateikta Ferrara et al. (2016) . Kai kuriems studijų pavyzdžiams, kuriuose daugiausia dėmesio buvo skiriama "Twitter" paieškai, žr. Clark et al. (2016) ir Chu et al. (2012) . Galiausiai, Subrahmanian et al. (2016) Apibūdina "DARPA" "Twitter Bot Challenge" rezultatus - masinį bendradarbiavimą, kurio tikslas - palyginti robotų aptikimo metodus sistemoje "Twitter".
Ohm (2015) Peržiūri ankstesnius tyrimus dėl slaptos informacijos idėjos ir siūlo daugiafaktorinį testą. Keturi veiksniai, kuriuos jis siūlo, yra žalos dydis, žalos tikimybė, konfidencialių santykių buvimas ir ar rizika atspindi didžiausią susirūpinimą.
Farberio taksi tyrimas Niujorke buvo pagrįstas ankstesniu Camerer et al. (1997) tyrimu Camerer et al. (1997) kuris naudojo tris skirtingus popieriaus lapų patogumo mėginius. Šis ankstesnis tyrimas parodė, kad vairuotojai atrodė esąs tiksliniai: jie dirbo mažiau dienų, kai jų darbo užmokestis buvo didesnis.
Vėlesniame darbe karalius ir jo kolegos dar nagrinėjo internetinę cenzūrą Kinijoje (King, Pan, and Roberts 2014, [@king_how_2016] ) . Dėl panašaus požiūrio į cenzūrą internete Kinijoje žr. Bamman, O'Connor, and Smith (2012) . Daugiau informacijos apie statistinius metodus, tokius kaip " King, Pan, and Roberts (2013) Siekiant įvertinti 11 milijonų įrašų jausmą, žr. Hopkins and King (2010) . Norėdami sužinoti daugiau apie prižiūrimą mokymą, žr. James et al. (2013) (Mažiau techninis) ir Hastie, Tibshirani, and Friedman (2009) (Daugiau techninių).
Prognozavimas yra didelė pramoninių duomenų mokslų dalis (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Vienas iš tipinių prognozių, kuriuos dažniausiai atlieka socialiniai tyrėjai, yra demografinis prognozavimas; žr., pavyzdžiui, Raftery et al. (2012) .
"Google Flu Trends" nebuvo pirmasis projektas, kurio metu buvo naudojami paieškos duomenys, kad būtų galima įvertinti gripo paplitimą. Iš tikrųjų mokslininkai Jungtinėse Amerikos Valstijose (Polgreen et al. 2008; Ginsberg et al. 2009) ir Švedija (Hulth, Rydevik, and Linde 2009) nustatė, kad tam tikri paieškos terminai (pvz., "Gripas") numatė nacionalinę visuomenės sveikatos priežiūros duomenys prieš išleidžiant. Vėliau daugelis, daugelis kitų projektų bandė naudoti skaitmeninius pėdsakų duomenis ligų stebėjimo aptikimui; žr. Althouse et al. (2015) Peržiūrai.
Be to, kad naudotųsi skaitmeniniais pėdsakų duomenimis, norint prognozuoti sveikatos būklę, taip pat buvo daug darbo, naudojant "Twitter" duomenis, kad prognozuoti rinkimų rezultatus; Apžvalgos rasite Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (7 skyrius) ir Huberty (2015) . Dabartiniai ekonominiai rodikliai, tokie kaip bendrasis vidaus produktas (BVP), taip pat yra paplitę centriniams bankams, žr. Bańbura et al. (2013) . 2.8 lentelėje pateikiami keli tyrimai, kuriuose naudojama kokia nors skaitmeninė pėdsakai, siekiant numatyti kokį nors įvykį pasaulyje.
Skaitmeninis pėdsakas | Rezultatas | Citavimas |
---|---|---|
JAV biuro filmų pajamos | Asur and Huberman (2010) | |
Paieškos žurnalai | JAV filmų, muzikos, knygų ir vaizdo žaidimų pardavimas | Goel et al. (2010) |
"Dow Jones Industrial Average" (JAV akcijų rinka) | Bollen, Mao, and Zeng (2011) | |
Socialinės žiniasklaidos priemonės ir paieškos žurnalai | Investuotojų nuotaikų ir akcijų rinkų apžvalgos Jungtinėse Amerikos Valstijose, Jungtinėje Karalystėje, Kanadoje ir Kinijoje | Mao et al. (2015) |
Paieškos žurnalai | Dengės karštinės paplitimas Singapūre ir Bankoke | Althouse, Ng, and Cummings (2011) |
Galiausiai Jon Kleinbergas ir jo kolegos (2015) Nurodė, kad prognozavimo problemos susideda iš dviejų, subtiliai skirtingų kategorijų ir kad socialiniai mokslininkai linkę sutelkti dėmesį į vieną ir ignoruoti kitą. Įsivaizduokite vieną politikos formuotoją, aš vadinu ją Aną, kuri susiduria su sausra ir turi nuspręsti, ar išsinuomoti šamaną, norint padaryti lietaus šokį, kad padidėtų lietaus tikimybė. Kitas politikos formuotojas, aš vadinu ją Betty, turi nuspręsti, ar imtis skėrio dirbti, kad būtų išvengta drėgmės keliu namo. Tiek Anna, tiek Betty gali priimti geresnį sprendimą, jei jie suprastų orą, tačiau jiems reikia žinoti skirtingus dalykus. Anna turi suprasti, ar lietaus šokis sukelia lietų. Bet, kita vertus, nereikia nieko suprasti apie priežastingumą; ji tiesiog turi tikslią prognozę. Socialiniai tyrinėtojai dažnai sutelkia dėmesį į tokias problemas kaip Ana, su kuria susiduria Anna, kurią Kleinbergas ir jo kolegos vadina "lietaus šokio tipo" politikos problemomis, nes jie apima priežastingumo klausimus. Taip pat gali būti labai svarbūs tokie klausimai kaip ir Betty, su kuriuo susiduria Kleinbergas ir jo kolegos, "socialinės politikos" problemos, tačiau socialinių mokslininkų daug mažiau dėmesio.
Žurnale PS Politologija buvo simpoziumas apie didelius duomenis, priežastinį išvadą ir formalią teoriją, o Clark and Golder (2015) apibendrina kiekvieną įnašą. Jungtinių Amerikos Valstijų Nacionalinės mokslų akademijos leidinyje vyko simpoziumas apie priežastinį išvadą ir didelius duomenis, o Shiffrin (2016) apibendrina kiekvieną įnašą. Dėl mašinų mokymosi metodų, kurie bando automatiškai atrasti natūralius eksperimentus dideliuose duomenų šaltiniuose, žr. Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , o Sharma, Hofman, and Watts (2016) .
Kalbant apie natūralius eksperimentus, " Dunning (2012) pateikia įvadinį, ilgesnį gydymą su daugybe pavyzdžių. Skeptiškai žiūrint į natūralius eksperimentus žr. Rosenzweig and Wolpin (2000) (Ekonomika) arba Sekhon and Titiunik (2012) ( Sekhon and Titiunik (2012) ). Deaton (2010) ir Heckman and Urzúa (2010) teigia, kad daugiausia dėmesio skiriant natūraliems eksperimentams gali padėti mokslininkams sutelkti dėmesį į nesvarbius priežastinius padarinius; Imbens (2010) šiuos argumentus skaičiuoja su labiau optimistiškai vertinamais natūraliais eksperimentais.
Apibūdindamas, kaip mokslininkas galėtų įvertinti sąveikos efektą su tarnavimo rezultatais, aš apibūdindavau techniką, vadinamą instrumentiniais kintamaisiais . Imbens and Rubin (2015) Savo 23 ir 24 skyriuose pateikia įžangą ir loterijos projektą naudoja kaip pavyzdį. Karo tarnybos poveikis komplikuotojams kartais vadinamas komplikuotu vidutiniu priežastiniu poveikiu (CAcE), o kartais ir vietiniu vidutiniu gydymo efektu (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) bei Bollen (2012) siūlo politinių, ekonominių ir sociologinių instrumentinių kintamųjų naudojimo apžvalgas, o " Sovey and Green (2011) pateikia "skaitytojo kontrolinį sąrašą" vertinant tyrimus naudojant instrumentinius kintamuosius.
Pasirodo, kad 1970 m. Loterijos projektas nebuvo iš tiesų tinkamai atsitiktinai atrinktas; buvo nedideli nukrypimai nuo gryno atsitiktinumo (Fienberg 1971) . Berinsky and Chatfield (2015) teigia, kad šis nedidelis nukrypimas nėra reikšmingas ir aptaria tinkamai atliekamos atsitiktinės atrankos svarbą.
Kalbant apie atitikimą, žr. Stuart (2010) dėl optimistiškos apžvalgos ir Sekhon (2009) dėl pesimistikos apžvalgos. Norėdami sužinoti daugiau apie derinimą, kaip genėjimo natūra, žr. Ho et al. (2007) . Dažnai sunku surasti vienintelį puikų atitikimą kiekvienam žmogui, o tai kelia sudėtingų sunkumų. Pirma, kai tikslių atitikčių nėra, mokslininkams reikia nuspręsti, kaip išmatuoti atstumą tarp dviejų vienetų ir jei tam tikras atstumas yra pakankamai arti. Antrasis sudėtingumas kyla, jei mokslininkai nori naudoti daugybę atitikmenų kiekvienoje gydymo grupės byloje, nes tai gali lemti tikslesnius įvertinimus. Abu šie klausimai, taip pat kiti, išsamiai aprašyti Imbens and Rubin (2015) 18 skyriuje. Taip pat žr. ( ??? ) II ( ??? ) .
Dehejia and Wahba (1999) žr. Dehejia and Wahba (1999) , kai atitikties metodai galėjo Dehejia and Wahba (1999) įvertinimus, panašius į rezultatus, gautus iš atsitiktinai parinkto kontroliuojamo eksperimento. Tačiau Arceneaux, Gerber, and Green (2006) bei Arceneaux, Gerber, and Green (2010) pavyzdžius, kai taikant metodus nepavyko atkurti eksperimentinio etalono.
Rosenbaum (2015) ir Hernán and Robins (2016) siūlo kitus patarimus, kaip atrasti naudingus palyginimus dideliuose duomenų šaltiniuose.