Een soort waarneming wat nie in hierdie hoofstuk ingesluit is nie, is etnografie. Vir meer oor etnografie in digitale ruimtes, sien Boellstorff et al. (2012) , en vir meer oor etnografie in gemengde digitale en fisiese ruimtes, sien Lane (2016) .
Daar is geen enkele konsensusdefinisie van "groot data" nie, maar baie definisies blyk te fokus op die "3 Vs": volume, verskeidenheid en snelheid (bv. Japec et al. (2015) ). Sien De Mauro et al. (2015) vir 'n hersiening van definisies.
My insluiting van administratiewe administratiewe data in die kategorie groot data is 'n bietjie ongewoon, hoewel ander ook hierdie saak gemaak het, insluitend Legewie (2015) , Connelly et al. (2016) , en Einav and Levin (2014) . Vir meer inligting oor die waarde van administratiewe administratiewe data vir navorsing, sien Card et al. (2010) , Adminstrative Data Taskforce (2012) , en Grusky, Smeeding, and Snipp (2015) .
Vir 'n siening van administratiewe navorsing van binne die regering statistiese stelsel, veral die Amerikaanse Sensus Buro, sien Jarmin and O'Hara (2016) . Vir 'n boeklengte-behandeling van die administratiewe rekordsnavorsing in Statistiek Swede, sien Wallgren and Wallgren (2007) .
In die hoofstuk het ek kortliks 'n tradisionele opname soos die Algemene Sosiale Opname (GSS) vergelyk met 'n sosiale media-databron soos Twitter. Vir 'n deeglike en noukeurige vergelyking tussen tradisionele opnames en sosiale media data, sien Schober et al. (2016) .
Hierdie 10 eienskappe van groot data is op verskillende maniere deur 'n verskeidenheid verskillende outeurs beskryf. Skryfwerk wat my denke oor hierdie kwessies beïnvloed het, sluit in Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , en Goldstone and Lupyan (2016) .
In hierdie hoofstuk het ek die term digitale spore gebruik , wat volgens my relatief neutraal is. Nog 'n gewilde term vir digitale spore is digitale voetafdrukke (Golder and Macy 2014) , maar soos Hal Abelson, Ken Ledeen en Harry Lewis (2008) daarop wys, is 'n meer toepaslike term waarskynlik digitale vingerafdrukke . As jy voetafdrukke maak, is jy bewus van wat aangaan en jou voetspore kan gewoonlik nie persoonlik opgespoor word nie. Dieselfde geld nie vir jou digitale spore nie. Trouens, jy verlaat altyd spore waaroor jy min kennis het. En alhoewel hierdie spore jou naam nie op hulle het nie, kan hulle dikwels aan jou gekoppel word. Met ander woorde, hulle is meer soos vingerafdrukke: onsigbaar en persoonlik identifiseer.
Vir meer oor waarom groot datastelle statistiese toetse problematies maak, sien M. Lin, Lucas, and Shmueli (2013) en McFarland and McFarland (2015) . Hierdie kwessies moet lei dat navorsers fokus op praktiese betekenis eerder as statistiese betekenisvolheid.
Vir meer inligting oor hoe Raj Chetty en kollegas toegang tot die belastingrekords verkry het, kyk Mervis (2014) .
Groot datastelle kan ook rekenaarprobleme skep wat oor die algemeen buite die vermoë van 'n enkele rekenaar is. Daarom versprei navorsers die berekening van groot datastelle die werk dikwels oor baie rekenaars, 'n proses wat soms parallelle programmering genoem word . Vir 'n inleiding tot parallelle programmering, veral 'n taal genaamd Hadoop, sien Vo and Silvia (2016) .
By die oorweging van altyd-op-data, is dit belangrik om te oorweeg of jy presies dieselfde mense met verloop van tyd vergelyk, of as jy 'n paar veranderende groep mense vergelyk; sien byvoorbeeld Diaz et al. (2016) .
'N Klassieke boek oor nie-reaktiewe maatreëls is Webb et al. (1966) . Die voorbeelde in die boek is die digitale ouderdom, maar hulle is steeds verlig. Vir voorbeelde van mense wat hul gedrag verander weens die teenwoordigheid van massa-toesig, sien Penney (2016) en Brayne (2014) .
Reaktiwiteit is nou verwant aan wat navorsers (Orne 1962; Zizzo 2010) en die Hawthorne-effek (Adair 1984; Levitt and List 2011) .
Vir meer oor rekordverband, sien Dunn (1946) en Fellegi and Sunter (1969) (histories) en Larsen and Winkler (2014) (moderne). Soortgelyke benaderings is ook in rekenaarwetenskap ontwikkel onder name soos data-deduplikasie, identifikasie, (Elmagarmid, Ipeirotis, and Verykios 2007) duplikaatopsporing en duplikaatrekorddeteksie (Elmagarmid, Ipeirotis, and Verykios 2007) . Daar is ook privaatheidsbesparende benaderings om skakeling aan te teken wat nie die oordrag van persoonsidentifiserende inligting benodig nie (Schnell 2013) . Facebook het ook 'n proses ontwikkel om hul rekords te koppel aan stemgedrag; Dit is gedoen om 'n eksperiment te evalueer waaroor ek u in hoofstuk 4 gaan vertel (Bond et al. 2012; Jones et al. 2013) .
Vir meer inligting oor konstruksiegeldigheid, sien Hoofstuk 3 van Shadish, Cook, and Campbell (2001) .
Vir meer inligting oor die AOL search log debacle, sien Ohm (2010) . Ek bied advies oor vennootskap met maatskappye en regerings in hoofstuk 4 wanneer ek eksperimente beskryf. 'N Aantal skrywers het kommer uitgespreek oor navorsing wat op ontoeganklike data berus, sien Huberman (2012) en boyd and Crawford (2012) .
Een goeie manier vir universiteit navorsers om toegang tot die inligting te bekom is om te werk aan 'n maatskappy as 'n intern of besoek navorser. Benewens sodat toegang tot die inligting, sal hierdie proses ook help om die navorser meer te leer oor hoe die data geskep is, wat belangrik is vir ontleding.
In terme van toegang tot regeringsdata, bespreek Mervis (2014) hoe Raj Chetty en kollegas toegang verkry tot die belastingrekords wat gebruik word in hul navorsing oor sosiale mobiliteit.
Vir meer oor die geskiedenis van "representativiteit" as konsep, sien Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , en Kruskal and Mosteller (1980) .
My opsommings van die werk van Sneeu en die werk van Doll and Hill was kort. Vir meer oor Snow se werk op cholera, sien Freedman (1991) . Vir meer inligting oor die Britse doktersstudie, kyk Doll et al. (2004) en Keating (2014) .
Baie navorsers sal verbaas wees om te leer dat hoewel Doll en Hill data van vroulike dokters en dokters onder 35 ingesamel het, het hulle doelbewus nie hierdie data in hul eerste analise gebruik nie. Soos hulle aangevoer het: "Aangesien longkanker relatief skaars is by vroue en mans onder 35, is dit onwaarskynlik dat nuttige syfers in sommige groepe vir 'n paar jaar beskikbaar sal wees. In hierdie voorlopige verslag het ons dus aandag geskenk aan mans van 35 jaar en ouer. " Rothman, Gallacher, and Hatch (2013) , wat die provokatiewe titel" Waarom verteenwoordigendheid moet vermy word ", maak 'n meer algemene argument vir die waarde van doelbewus skep van nie-verteenwoordigende data.
Nie-verteenwoordigendheid is 'n groot probleem vir navorsers en regerings wat uitsprake wil maak oor 'n hele bevolking. Dit is minder belangrik vir maatskappye, wat gewoonlik op hul gebruikers gefokus is. Vir meer inligting oor hoe die CBS die kwessie van nie-verteenwoordigendheid van besigheids groot data beskou, sien Buelens et al. (2014) .
Vir voorbeelde van navorsers wat kommer uitgespreek het oor nie-verteenwoordigende aard van groot databronne, sien boyd and Crawford (2012) , K. Lewis (2015b) en Hargittai (2015) .
Vir 'n meer gedetailleerde vergelyking van die doelwitte van sosiale opnames en epidemiologiese navorsing, kyk Keiding and Louis (2016) .
Vir meer inligting oor pogings om Twitter te gebruik om algemene verkiesings oor kiesers te maak, veral die geval van die 2009-verkiesing in 2009, sien Jungherr (2013) en Jungherr (2015) . Na aanleiding van die werk van Tumasjan et al. (2010) navorsers regoor die wêreld het gevorderde metodes gebruik, soos die gebruik van sentimentanalise om tussen positiewe en negatiewe opmerkings van die partye te onderskei om die vermoë van Twitter-data te verbeter om 'n verskeidenheid verskillende verkiesings te voorspel (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Hier is hoe Huberty (2015) die resultate van hierdie pogings om verkiesings voor te stel, opgesom het:
"Alle bekende voorspellingsmetodes wat op sosiale media gebaseer is, het misluk wanneer dit onderworpe is aan die eise van ware vooruitskouende verkiesingsvooruitskatting. Hierdie mislukkings blyk te wyte aan fundamentele eienskappe van sosiale media, eerder as metodologiese of algoritmiese probleme. Kortom, sosiale media doen nie, en waarskynlik nooit sal nie, 'n stabiele, onbevooroordeelde, verteenwoordigende prentjie van die kiesers bied; en geriefsmonsters van sosiale media het nie genoeg data om hierdie probleme na te streef nie. "
In hoofstuk 3 beskryf ek monsterneming en skatting in baie groter detail. Selfs as data nie verteenwoordigend is nie, kan hulle onder sekere omstandighede geweeg word om goeie ramings te lewer.
Stelsel drywing is baie moeilik om van buite af te sien. Die MovieLens-projek (bespreek meer in hoofstuk 4) is egter vir meer as 15 jaar deur 'n akademiese navorsingsgroep uitgevoer. Hulle het dus in staat om inligting te dokumenteer en te deel oor die manier waarop die stelsel met verloop van tyd ontwikkel het en hoe dit 'n uitwerking op die analise kan hê (Harper and Konstan 2015) .
'N Aantal geleerdes het gefokus op wegdrywing in Twitter: Liu, Kliman-Silver, and Mislove (2014) en Tufekci (2014) .
Een benadering tot die hantering van bevolkingsdrywing is om 'n paneel gebruikers te skep, wat navorsers in staat stel om oor dieselfde tyd dieselfde mense te bestudeer, sien Diaz et al. (2016) .
Ek het eers die term "algoritmies gekonfronteer" wat Jon Kleinberg in 'n praatjie gebruik het, maar ongelukkig onthou ek nie wanneer of waar die praatjie gegee is nie. Die eerste keer dat ek die term in druk gesien het, was in Anderson et al. (2015) , wat 'n interessante bespreking is van hoe die algoritmes wat deur dating sites gebruik word, die navorsers se vermoë om data van hierdie webwerwe te gebruik, kan kompliseer om sosiale voorkeure te bestudeer. Hierdie besorgdheid is deur K. Lewis (2015a) opgewek in reaksie op Anderson et al. (2014) .
Benewens Facebook, beveel Twitter ook mense aan om gebruikers te volg gebaseer op die idee van triadiese sluiting; sien Su, Sharma, and Goel (2016) . So die vlak van triadiese sluiting in Twitter is 'n kombinasie van sommige menslike neiging tot triadiese sluiting en 'n paar algoritmiese neiging om triadiese sluiting te bevorder.
Vir meer oor performativiteit - veral die idee dat sommige sosiale wetenskapsteorieë "enjins nie kameras" is nie (dit vorm die wêreld eerder as om dit net te beskryf). Sien Mackenzie (2008) .
Regering statistiese agentskappe skakel data skoonmaak statistiese data redigering . De Waal, Puts, and Daas (2014) beskryf statistiese data-redigeringstegnieke wat ontwikkel is vir opname data en ondersoek die mate waartoe dit van toepassing is op groot data bronne, en Puts, Daas, and Waal (2015) bied 'n paar idees vir 'n meer algemene gehoor.
Vir 'n oorsig van sosiale bots, sien Ferrara et al. (2016) . Vir 'n paar voorbeelde van studies gefokus op die vind van strooipos in Twitter, sien Clark et al. (2016) en Chu et al. (2012) . Ten slotte, Subrahmanian et al. (2016) beskryf die resultate van die DARPA Twitter Bot Challenge, 'n massamewerking wat ontwerp is om benaderings vir die opsporing van bots op Twitter te vergelyk.
Ohm (2015) beoordeel vroeër navorsing oor die idee van sensitiewe inligting en bied 'n multi-faktor toets. Die vier faktore wat hy voor stel, is die omvang van die skade, die waarskynlikheid van skade, die teenwoordigheid van 'n vertroulike verhouding, en of die risiko grootskaalse kommer weerspieël.
Farber se studie van taxi's in New York was gebaseer op 'n vorige studie deur Camerer et al. (1997) wat drie verskillende geriefsmonsters van papierreisbladsye gebruik het. Hierdie vroeëre studie het bevind dat bestuurders blyk te wees verdieners: hulle het minder gewerk op dae waar hul lone hoër was.
In die daaropvolgende werk het King en kollegas verdere sensuur in China ondersoek (King, Pan, and Roberts 2014, [@king_how_2016] ) . Vir 'n verwante benadering tot die meet van aanlyn sensuur in China, sien Bamman, O'Connor, and Smith (2012) . Vir meer inligting oor statistiese metodes soos die een wat gebruik word in King, Pan, and Roberts (2013) om die sentiment van die 11 miljoen poste te skat, sien Hopkins and King (2010) . Vir meer oor onderrigleer, kyk James et al. (2013) (minder tegniese) en Hastie, Tibshirani, and Friedman (2009) (meer tegniese).
Vooruitskouing is 'n groot deel van industriële data wetenskap (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Een soort vooruitskatting wat algemeen deur sosiale navorsers gedoen word, is demografiese vooruitskatting; sien byvoorbeeld Raftery et al. (2012) .
Google-griep neigings was nie die eerste projek om soektogdata te gebruik nie. Trouens, navorsers in die Verenigde State (Polgreen et al. 2008; Ginsberg et al. 2009) en Swede (Hulth, Rydevik, and Linde 2009) het bevind dat sekere soekterme (bv. "Griep") nasionale volksgesondheidswaarneming voorspel het data voordat dit vrygestel is. Daarna het baie, baie ander projekte probeer om digitale spoordata vir siektewaarnemingsopsporing te gebruik; sien Althouse et al. (2015) vir 'n resensie.
Benewens die gebruik van digitale spoordata om gesondheidsuitkomste te voorspel, was daar ook 'n groot hoeveelheid werk met behulp van Twitter-data om verkiesingsuitkomste te voorspel; Vir resensies sien Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (hoofstuk 7), en Huberty (2015) . Nuutste ekonomiese aanwysers, soos bruto binnelandse produk (BBP), is ook algemeen in sentrale banke, sien Bańbura et al. (2013) . tabel 2.8 bevat 'n paar voorbeelde van studies wat 'n soort digitale spore gebruik om 'n soort gebeurtenis in die wêreld voor te stel.
Digitale spoor | uitkoms | aanhaling |
---|---|---|
Box office inkomste van films in die VSA | Asur and Huberman (2010) | |
Soek logs | Verkope van films, musiek, boeke en video speletjies in die VSA | Goel et al. (2010) |
Dow Jones Industriële Gemiddelde (Amerikaanse aandelemark) | Bollen, Mao, and Zeng (2011) | |
Sosiale media en soek logs | Opmetings van beleggersentiment en aandelemarkte in die Verenigde State, Brittanje, Kanada en China | Mao et al. (2015) |
Soek logs | Voorkoms van Dengue Fever in Singapoer en Bangkok | Althouse, Ng, and Cummings (2011) |
Ten slotte het Jon Kleinberg en kollegas (2015) daarop gewys dat vooruitskattingsprobleme in twee, subtiel verskillende kategorieë val en dat sosiale wetenskaplikes geneig is om op een te konsentreer en die ander te ignoreer. Stel jou voor een beleidmaker. Ek sal haar Anna noem, wat 'n droogte ondervind, en moet besluit of 'n sjamaan gehuur moet word om reëndans te doen om die kans op reën te verhoog. Nog 'n beleidsmaker, ek sal haar Betty noem, moet besluit of 'n sambreel werk moet word om te verhoed dat dit nat word op pad huis toe. Beide Anna en Betty kan 'n beter besluit maak as hulle weer verstaan, maar hulle moet verskillende dinge ken. Anna moet verstaan of die reën-dans reën veroorsaak. Betty, aan die ander kant, hoef niks oor oorsaaklikheid te verstaan nie; sy benodig net 'n akkurate voorspelling. Sosiale navorsers fokus dikwels op die probleme soos Anna-wat Kleinberg en kollegas "reën-dansagtige" beleidsprobleme noem - omdat hulle vrae van oorsaaklikheid betrek. Vrae soos Betty-wat Kleinberg en kollegas noem "sambreelagtige" beleidsprobleme - kan ook baie belangrik wees, maar het baie minder aandag aan sosiale navorsers ontvang.
Die tydskrif PS Politieke Wetenskap het 'n simposium oor groot data, kousale inferensie en formele teorie gehad, en Clark and Golder (2015) som elke bydrae op. Die tydskrif Proceedings of the National Academy of Sciences van die Verenigde State van Amerika het 'n simposium oor kousale inferensie en groot data gehad, en Shiffrin (2016) som elke bydrae op. Vir masjienleerbenaderings wat probeer om natuurlike eksperimente binne groot databronne outomaties te ontdek, sien Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , en Sharma, Hofman, and Watts (2016) .
In terme van natuurlike eksperimente bied Dunning (2012) 'n inleidende boeklengte-behandeling met baie voorbeelde. Vir 'n skeptiese siening van natuurlike eksperimente, sien Rosenzweig and Wolpin (2000) (ekonomie) of Sekhon and Titiunik (2012) (politieke wetenskap). Deaton (2010) en Heckman and Urzúa (2010) beweer dat die fokus op natuurlike eksperimente navorsers kan lei om te fokus op die skatting van onbelangrike kousale effekte; Imbens (2010) hierdie argumente met 'n meer optimistiese siening van die waarde van natuurlike eksperimente.
By die beskrywing van hoe 'n navorser kan gaan van die skatting van die effek van die opstel van die effek van bediening, beskryf ek 'n tegniek genaamd instrumentele veranderlikes . Imbens and Rubin (2015) gee in hul hoofstukke 23 en 24 'n inleiding en gebruik die konsep lotery as voorbeeld. Die effek van militêre diens op verskaffers word soms die vergelykende gemiddelde kousale effek (CAcE) genoem en soms die plaaslike gemiddelde behandelingseffek (LAAT). Sovey and Green (2011) , Angrist and Krueger (2001) , en Bollen (2012) bied resensies oor die gebruik van instrumentale veranderlikes in die politieke wetenskap, ekonomie en sosiologie, en Sovey and Green (2011) bied 'n leesboek se kontrolelys vir evaluering van studies met behulp van instrumentele veranderlikes.
Dit blyk dat die 1970-lotto nie regtig willekeurig was nie; daar was klein afwykings van suiwer ewekansigheid (Fienberg 1971) . Berinsky and Chatfield (2015) beweer dat hierdie klein afwyking nie substantief belangrik is nie en bespreek die belangrikheid van behoorlik uitgevoer willekeurigheid.
In terme van ooreenstemming, sien Stuart (2010) vir 'n optimistiese oorsig, en Sekhon (2009) vir 'n pessimistiese oorsig. Vir meer oor die aanpassing as 'n soort snoei, sien Ho et al. (2007) . Om 'n enkele perfekte passing vir elke persoon te vind, is dikwels moeilik, en dit stel 'n aantal kompleksiteite bekend. Eerstens, wanneer presiese vuurhoutjies nie beskikbaar is nie, moet navorsers besluit hoe om die afstand tussen twee eenhede te meet en indien 'n gegewe afstand naby genoeg is. 'N Tweede kompleksiteit ontstaan as navorsers meer as een wedstryd vir elke geval in die behandelingsgroep wil gebruik, aangesien dit tot meer akkurate ramings kan lei. Beide hierdie kwessies, sowel as ander, word in detail in hoofstuk 18 van Imbens and Rubin (2015) . Sien ook Deel II van ( ??? ) .
Sien Dehejia and Wahba (1999) vir 'n voorbeeld waar ooreenstemmende metodes in staat was om ramings te produseer soortgelyk aan dié van 'n gerandomiseerde beheerde eksperiment. Maar, sien Arceneaux, Gerber, and Green (2006) en Arceneaux, Gerber, and Green (2010) vir voorbeelde waarby ooreenstemmende metodes nie 'n eksperimentele maatstaf vermenigvuldig het nie.
Rosenbaum (2015) en Hernán and Robins (2016) bied ander raad aan om nuttige vergelykings binne groot databronne te ontdek.