En slags observation, der ikke er medtaget i dette kapitel, er etnografi. For mere om etnografi i digitale rum, se Boellstorff et al. (2012) , og for mere om etnografi i blandede digitale og fysiske rum, se Lane (2016) .
Der er ingen ensartet konsensusdefinition af "store data", men mange definitioner synes at fokusere på "3 Vs": volumen, sort og hastighed (fx Japec et al. (2015) ). Se De Mauro et al. (2015) til en gennemgang af definitioner.
Min inddragelse af offentlige administrative data i kategorien store data er lidt usædvanlig, selv om andre også har gjort denne sag, herunder Legewie (2015) , Connelly et al. (2016) og Einav and Levin (2014) . For mere om værdien af offentlige administrative data for forskning, se Card et al. (2010) , Adminstrative Data Taskforce (2012) og Grusky, Smeeding, and Snipp (2015) .
For en visning af administrativ forskning indefra statens statistiske system, især US Census Bureau, se Jarmin and O'Hara (2016) . For en Wallgren and Wallgren (2007) statistikforskningen i SCB, se Wallgren and Wallgren (2007) .
I kapitlet sammenlignede jeg kort en traditionel undersøgelse som den generelle sociale undersøgelse (GSS) med en social media datakilde som Twitter. For en grundig og omhyggelig sammenligning mellem traditionelle undersøgelser og sociale medier data, se Schober et al. (2016) .
Disse 10 karakteristika ved store data er blevet beskrevet på en række forskellige måder af en række forskellige forfattere. Skrivning, der påvirker min tænkning på disse spørgsmål, omfatter Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) og Goldstone and Lupyan (2016) .
Gennem dette kapitel har jeg brugt udtrykket digitale spor , som jeg synes er relativt neutralt. Et andet populært udtryk for digitale spor er digitale fodspor (Golder and Macy 2014) , men som Hal Abelson, Ken Ledeen og Harry Lewis (2008) påpeger, er et mere passende udtryk sandsynligvis digitale fingeraftryk . Når du opretter fodspor, er du opmærksom på, hvad der sker, og dine fodspor kan generelt ikke spores til dig personligt. Det samme gælder ikke for dine digitale spor. Faktisk forlader du spor hele tiden, som du har meget lidt viden om. Og selvom disse spor ikke har dit navn på dem, kan de ofte knyttes tilbage til dig. Med andre ord er de mere som fingeraftryk: usynlige og personligt identificerende.
For mere om hvorfor store datasæt gør problematisk statistiske tests, se M. Lin, Lucas, and Shmueli (2013) og McFarland and McFarland (2015) . Disse spørgsmål bør føre forskere til at fokusere på praktisk betydning snarere end statistisk betydning.
For mere om, hvordan Raj Chetty og kolleger fik adgang til skatteposterne, se Mervis (2014) .
Store datasæt kan også skabe computerproblemer, der generelt ikke overstiger en enkelt computers kapacitet. Derfor forskere, der laver beregninger på store datasæt, spredte ofte arbejdet på mange computere, en proces, der undertiden hedder parallel programmering . For en introduktion til parallel programmering, især et sprog kaldet Hadoop, se Vo and Silvia (2016) .
Når man overvejer altid-på-data, er det vigtigt at overveje, om du sammenligner nøjagtig samme folk over tid, eller om du sammenligner nogle skiftende grupper af mennesker; se for eksempel Diaz et al. (2016) .
En klassisk bog om ikke-reaktive foranstaltninger er Webb et al. (1966) . Eksemplerne i den bog forud for den digitale tidsalder, men de lyser stadig. For eksempler på personer, der ændrer deres adfærd på grund af tilstedeværelsen af massovervågning, se Penney (2016) og Brayne (2014) .
Reaktiviteten er tæt forbundet med, hvad forskere kalder efterspørgselseffekter (Orne 1962; Zizzo 2010) og Hawthorne-effekten (Adair 1984; Levitt and List 2011) .
For mere om rekordforbindelse se Dunn (1946) og Fellegi and Sunter (1969) (historisk) og Larsen and Winkler (2014) (moderne). Lignende fremgangsmåder er også blevet udviklet inden for datalogi under navne som (Elmagarmid, Ipeirotis, and Verykios 2007) , duplikat detektion og duplikat registrering af detektering (Elmagarmid, Ipeirotis, and Verykios 2007) . Der er også privatlivsbeskyttelsesmetoder til registrering af sammenkobling, der ikke kræver overførsel af personidentificerende oplysninger (Schnell 2013) . Facebook har også udviklet en proces til at forbinde deres optegnelser med stemmeafgivelse; Dette blev gjort for at evaluere et eksperiment, som jeg vil fortælle dig om i kapitel 4 (Bond et al. 2012; Jones et al. 2013) .
For mere om konstruktiv validitet, se kapitel 3 i Shadish, Cook, and Campbell (2001) .
For mere på AOL search log debacle, se Ohm (2010) . Jeg tilbyder råd om partnerskab med virksomheder og regeringer i kapitel 4, når jeg beskriver forsøg. En række forfattere har udtrykt bekymring for forskning, der er afhængig af utilgængelige data, se Huberman (2012) og boyd and Crawford (2012) .
En god måde for universitetsforskere til at erhverve dataadgang er at arbejde i en virksomhed som praktikant eller gæsteforsker. Ud over at aktivere dataadgang, vil denne proces også hjælpe forskeren lære mere om, hvordan dataene blev skabt, hvilket er vigtigt for analyse.
Med hensyn til adgang til regeringsdata diskuterer Mervis (2014) , hvordan Raj Chetty og kolleger fik adgang til de Mervis (2014) , der blev brugt i deres forskning om social mobilitet.
For mere om historien om "repræsentativitet" som koncept, se Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) og Kruskal and Mosteller (1980) .
Mine resuméer af Snøværket og Doll og Hills arbejde var korte. For mere om Sne's arbejde med kolera, se Freedman (1991) . For mere om den britiske lægerundersøgelse, se Doll et al. (2004) og Keating (2014) .
Mange forskere vil blive overrasket over at vide, at selvom Doll and Hill havde indsamlet data fra kvindelige læger og fra læger under 35, brugte de ikke intentionelt disse data i deres første analyse. Som de hævder: "Da lungekræft er relativt sjældent hos kvinder og mænd under 35 år, er det usandsynligt, at der er brugbare tal i disse grupper i nogle år fremover. I denne foreløbige rapport har vi derfor begrænset vores opmærksomhed til mænd i alderen 35 år og derover. " Rothman, Gallacher, and Hatch (2013) , som har den provokerende titel" Hvorfor repræsentativitet bør undgås ", gør et mere generelt argument for værdien af med vilje skabe ikke-repræsentative data.
Ikke-repræsentativitet er et stort problem for forskere og regeringer, der ønsker at udtale sig om en hel befolkning. Dette er mindre bekymret for virksomheder, som typisk er fokuseret på deres brugere. For mere om, hvordan Statistikcentralen anser spørgsmålet om ikke-repræsentativitet af forretningsmæssige store data, se Buelens et al. (2014) .
For eksempler på forskere, der udtrykker bekymring over ikke-repræsentative karakter af store datakilder, se boyd and Crawford (2012) , K. Lewis (2015b) og Hargittai (2015) .
For en mere detaljeret sammenligning af målene for sociale undersøgelser og epidemiologisk forskning, se Keiding and Louis (2016) .
For mere om forsøg på at bruge Twitter til at gøre generaliseringer uden for stikprøven om vælgerne, især tilfældet fra det tyske valg i 2009, se Jungherr (2013) og Jungherr (2015) . Efter arbejdet i Tumasjan et al. (2010) forskere rundt omkring i verden brugt mere avancerede metoder - som f.eks. Brug af sentimentanalyse for at skelne mellem parternes positive og negative navne - for at forbedre Twitter (Gayo-Avello 2013; Jungherr 2015, chap. 7.) evne til at forudsige en række forskellige typer valg (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Her er hvordan Huberty (2015) opsummerede resultaterne af disse forsøg på at forudsige valg:
"Alle kendte prognosemetoder baseret på sociale medier har mislykkedes, når de er underkastet kravene til ægte fremtidsvalgte prognoser. Disse fejl synes at skyldes grundlæggende egenskaber af sociale medier, snarere end metodologiske eller algoritmiske vanskeligheder. Kort sagt, sociale medier ikke og sandsynligvis aldrig vil tilbyde et stabilt, upartisk, repræsentativt billede af vælgerne; og bekvemmelighedsprøver af sociale medier mangler tilstrækkelige data til at løse disse problemer efter hoc. "
I kapitel 3 beskriver jeg prøveudtagning og estimering meget mere detaljeret. Selvom data er ikke repræsentative, kan de under visse omstændigheder vægtes til at producere gode estimater.
Systemdrift er meget svært at se udefra. MovieLens-projektet (diskuteret mere i kapitel 4) er dog blevet kørt i mere end 15 år af en akademisk forskningsgruppe. Således har de været i stand til at dokumentere og dele information om den måde, systemet har udviklet sig over tid, og hvordan dette kan påvirke analysen (Harper and Konstan 2015) .
En række forskere har fokuseret på drift i kvidre: Liu, Kliman-Silver, and Mislove (2014) og Tufekci (2014) .
En tilgang til at håndtere befolkningsdrift er at skabe et panel af brugere, som gør det muligt for forskere at studere de samme mennesker over tid, se Diaz et al. (2016) .
Jeg hørte først ordet "algoritmisk forvirret", som Jon Kleinberg brugte i en snak, men jeg kan desværre ikke huske, hvornår eller hvor præsentationen blev givet. Første gang jeg så termen i print var i Anderson et al. (2015) , som er en interessant diskussion om, hvordan de algoritmer, der bruges af dating sites, kan komplicere forskernes evne til at bruge data fra disse websteder til at studere sociale præferencer. Denne bekymring blev rejst af K. Lewis (2015a) som svar på Anderson et al. (2014) .
Foruden Facebook anbefaler Twitter også folk for brugerne at følge baseret på ideen om triadisk lukning; se Su, Sharma, and Goel (2016) . Så niveauet af triadisk lukning i Twitter er en kombination af en menneskelig tendens til triadisk lukning og en algoritmisk tendens til at fremme triadisk lukning.
For mere om performativitet - især ideen om, at nogle samfundsvidenskabelige teorier er "motorer ikke kameraer" (dvs. de forbereder verden i stedet for blot at beskrive det) - se Mackenzie (2008) .
Statslige statistiske agenturer kalder data rensning statistisk data redigering . De Waal, Puts, and Daas (2014) beskriver statistiske dataredigeringsteknikker udviklet til undersøgelsesdata og undersøger, i hvilket omfang de gælder for store datakilder, og Puts, Daas, and Waal (2015) præsenterer nogle af de samme ideer til et mere generelt publikum.
For en oversigt over sociale bots, se Ferrara et al. (2016) . For nogle eksempler på undersøgelser fokuseret på at finde spam i Twitter, se Clark et al. (2016) og Chu et al. (2012) . Endelig Subrahmanian et al. (2016) beskriver resultaterne af DARPA Twitter Bot Challenge, et massesamarbejde designet til at sammenligne tilgange til at finde bots på Twitter.
Ohm (2015) gennemgår tidligere undersøgelser af ideen om følsomme oplysninger og tilbyder en multifaktor test. De fire faktorer, han foreslår, er omfanget af skade, sandsynligheden for skade, tilstedeværelsen af et fortroligt forhold, og om risikoen afspejler majoritære bekymringer.
Farbers undersøgelse af taxier i New York var baseret på et tidligere studie af Camerer et al. (1997) der anvendte tre forskellige bekvemmelighedsprøver af papirtabeller. Denne tidligere undersøgelse viste, at chauffører syntes at være måltagere: de arbejdede mindre på dage, hvor deres løn var højere.
I efterfølgende arbejde har kongen og kollegerne yderligere undersøgt online censur i Kina (King, Pan, and Roberts 2014, [@king_how_2016] ) . For en relateret tilgang til måling af online censur i Kina, se Bamman, O'Connor, and Smith (2012) . For mere om statistiske metoder som den, der blev brugt i King, Pan, and Roberts (2013) at estimere følelsen af de 11 millioner stillinger, se Hopkins and King (2010) . For mere om overvåget læring, se James et al. (2013) (mindre teknisk) og Hastie, Tibshirani, and Friedman (2009) (mere teknisk).
Forecasting er en stor del af industriel (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . En type prognoser, der almindeligvis udføres af sociale forskere, er demografisk prognoser; se for eksempel Raftery et al. (2012) .
Google Flu Trends var ikke det første projekt til at bruge søge data til nucast influenza prævalens. Faktisk har forskere i USA (Polgreen et al. 2008; Ginsberg et al. 2009) og Sverige (Hulth, Rydevik, and Linde 2009) fundet ud af, at visse søgeord (fx "influenza") forudsagde den nationale folkesundhedsovervågning data, inden den blev frigivet. Efterfølgende har mange mange andre projekter forsøgt at anvende digitale spordata til registrering af sygdomsovervågning; se Althouse et al. (2015) til en anmeldelse.
Ud over at bruge digitale spordata til at forudsige sundhedsresultater har der også været en enorm mængde arbejde ved hjælp af Twitter-data for at forudsige valgresultater; for anmeldelser se Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kapitel 7) og Huberty (2015) . Nucasting af økonomiske indikatorer, såsom bruttonationalprodukt (BNP), er også fælles i centralbankerne, se Bańbura et al. (2013) . tabel 2.8 indeholder et par eksempler på undersøgelser, der bruger en slags digital spor til at forudsige en slags begivenhed i verden.
Digitalt spor | Resultat | Citation |
---|---|---|
Box office indtægter af film i USA | Asur and Huberman (2010) | |
Søg logfiler | Salg af film, musik, bøger og videospil i USA | Goel et al. (2010) |
Dow Jones Industrial Average (amerikanske aktiemarkedet) | Bollen, Mao, and Zeng (2011) | |
Sociale medier og søge logfiler | Undersøgelser af investorens stemning og aktiemarkeder i USA, Storbritannien, Canada og Kina | Mao et al. (2015) |
Søg logfiler | Udbredelse af Dengue Feber i Singapore og Bangkok | Althouse, Ng, and Cummings (2011) |
Endelig har Jon Kleinberg og kolleger (2015) påpeget, at prognoseproblemer falder ind i to, subtly forskellige kategorier, og at socialforskere har tendens til at fokusere på en og ignorere den anden. Forestil dig en politimager, jeg kalder hende Anna, der står over for en tørke og skal afgøre, om man skal ansætte en shaman for at lave en regndans for at øge muligheden for regn. En anden politimager, jeg kalder hende Betty, skal beslutte at tage en paraply på arbejde for at undgå at blive våd på vej hjem. Både Anna og Betty kan træffe en bedre beslutning, hvis de forstår vejr, men de skal vide forskellige ting. Anna har brug for at forstå, om regn dansen forårsager regn. Betty behøver på den anden side ikke at forstå noget om årsagssammenhæng; hun behøver bare en præcis prognose. Socialforskere fokuserer ofte på de problemer, som Anna-which Kleinberg står overfor, og kolleger kalder "regndanslignende" politiske problemer - fordi de involverer spørgsmål om årsagssammenhæng. Spørgsmål som Betty-som Kleinberg og kolleger kalder "paraplylignende" politiske problemer - kan også være meget vigtige, men har fået meget mindre opmærksomhed fra sociale forskere.
Tidsskriftet PS Politisk Videnskab havde et symposium om store data, årsagssammenhæng og formel teori, og Clark and Golder (2015) opsummerer hvert bidrag. Journalen Proceedings of the National Academy of Sciences i USA havde et symposium om årsagssammenhæng og store data, og Shiffrin (2016) opsummerer hvert bidrag. Til maskinindlæringsmetoder, der forsøger automatisk at opdage naturlige eksperimenter inde i store datakilder, se Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) og Sharma, Hofman, and Watts (2016) .
Med hensyn til naturlige eksperimenter giver Dunning (2012) en introduktion, boglængdesbehandling med mange eksempler. For et skeptisk syn på naturlige eksperimenter, se Rosenzweig and Wolpin (2000) (økonomi) eller Sekhon and Titiunik (2012) (statsvidenskab). Deaton (2010) og Heckman and Urzúa (2010) hævder, at fokusering på naturlige eksperimenter kan føre forskere til at fokusere på at estimere uvæsentlige årsagseffekter; Imbens (2010) tæller disse argumenter med et mere optimistisk billede af værdien af naturlige eksperimenter.
Når jeg beskriver hvordan en forsker kunne gå fra at estimere virkningen af at blive udarbejdet til effekten af servering, beskriver jeg en teknik kaldet instrumentelle variabler . Imbens and Rubin (2015) , i deres kapitel 23 og 24, giver en introduktion og bruger udkastet til lotteri som et eksempel. Effekten af militærtjeneste på komplikatorer kaldes undertiden den gennemsnitlige årsagssammenhæng (CAcE) og undertiden den lokale gennemsnitlige behandlingseffekt (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) og Bollen (2012) tilbyder anmeldelser af brugen af instrumentelle variabler inden for statsvidenskab, økonomi og sociologi, og Sovey and Green (2011) giver en "læserens checkliste" for evaluere undersøgelser ved hjælp af instrumentelle variabler.
Det viser sig, at udkastet til lotteriet i 1970 ikke var faktisk korrekt randomiseret; Der var små afvigelser fra ren tilfældighed (Fienberg 1971) . Berinsky and Chatfield (2015) hævder, at denne lille afvigelse ikke er væsentligt vigtig og diskutere betydningen af korrekt udført randomisering.
Med hensyn til matchning, se Stuart (2010) for en optimistisk gennemgang, og Sekhon (2009) for en pessimistisk gennemgang. For mere om matchning som en slags beskæring, se Ho et al. (2007) . At finde en enkelt perfekt match for hver person er ofte svært, og det introducerer en række kompleksiteter. For det første, når eksakte kampe ikke er tilgængelige, skal forskere bestemme, hvordan man måler afstanden mellem to enheder, og hvis en given afstand er tæt nok. En anden kompleksitet opstår, hvis forskerne ønsker at bruge flere kampe for hver sag i behandlingsgruppen, da dette kan føre til mere præcise estimater. Begge disse problemer, såvel som andre, beskrives detaljeret i kapitel 18 i Imbens and Rubin (2015) . Se også del II af ( ??? ) .
Se Dehejia and Wahba (1999) for et eksempel, hvor matchende metoder var i stand til at producere estimater svarende til dem fra et randomiseret kontrolleret eksperiment. Men se Arceneaux, Gerber, and Green (2006) og Arceneaux, Gerber, and Green (2010) for eksempler, hvor matchende metoder ikke kunne reproducere et eksperimentelt benchmark.
Rosenbaum (2015) og Hernán and Robins (2016) tilbyder andre råd til at finde nyttige sammenligninger inden for store datakilder.