En slags observasjon som ikke er inkludert i dette kapittelet, er etnografi. For mer om etnografi i digitale rom, se Boellstorff et al. (2012) , og for mer om etnografi i blandede digitale og fysiske rom, se Lane (2016) .
Det er ingen konsensusdefinisjon av "store data", men mange definisjoner synes å fokusere på "3 Vs": volum, variasjon og hastighet (f.eks. Japec et al. (2015) ). Se De Mauro et al. (2015) for en gjennomgang av definisjoner.
Min inkludering av regjeringens administrative data i kategorien store data er litt uvanlig, selv om andre også har gjort denne saken, inkludert Legewie (2015) , Connelly et al. (2016) , og Einav and Levin (2014) . For mer om verdien av offentlige administrative data for forskning, se Card et al. (2010) , Adminstrative Data Taskforce (2012) , og Grusky, Smeeding, and Snipp (2015) .
For en oversikt over administrativ forskning fra innsiden av statens statistiske system, særlig US Census Bureau, se Jarmin and O'Hara (2016) . For en boklengdsbehandling av undersøkelsen i Statistisk sentralbyrå, se Wallgren and Wallgren (2007) .
I kapittelet sammenlignet jeg kort en tradisjonell undersøkelse som General Social Survey (GSS) med en sosial media datakilde som Twitter. For en grundig og forsiktig sammenligning mellom tradisjonelle undersøkelser og sosiale medier, se Schober et al. (2016) .
Disse 10 egenskapene til store data har blitt beskrevet på mange forskjellige måter av en rekke forskjellige forfattere. Skrive som påvirket min tenkning på disse problemene, inkluderer Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) og Goldstone and Lupyan (2016) .
Gjennom dette kapittelet har jeg brukt begrepet digitale spor , som jeg synes er relativt nøytral. Et annet populært begrep for digitale spor er digitale fotspor (Golder and Macy 2014) , men som Hal Abelson, Ken Ledeen og Harry Lewis (2008) påpeker, er et mer passende begrep sannsynligvis digitale fingeravtrykk . Når du lager fotspor, er du klar over hva som skjer, og fotsporene dine kan vanligvis ikke spores til deg personlig. Det samme gjelder ikke dine digitale spor. Faktisk forlater du spor hele tiden hvor du har svært liten kunnskap. Og selv om disse sporene ikke har navnet ditt på dem, kan de ofte knyttes tilbake til deg. Med andre ord, de er mer som fingeravtrykk: usynlig og personlig identifisering.
For mer om hvorfor store datasett gjør problematiske statistiske tester, se M. Lin, Lucas, and Shmueli (2013) og McFarland and McFarland (2015) . Disse problemene skal føre til at forskere fokuserer på praktisk betydning snarere enn statistisk betydning.
For mer om hvordan Raj Chetty og kolleger fikk tilgang til skatteoppgavene, se Mervis (2014) .
Store datasett kan også skape beregningsproblemer som generelt er utenfor egenskapene til en enkelt datamaskin. Derfor forskere som utarbeider beregninger på store datasett sprer ofte arbeidet over mange datamaskiner, en prosess som iblant kalles parallell programmering . For en introduksjon til parallell programmering, spesielt et språk som heter Hadoop, se Vo and Silvia (2016) .
Når du vurderer alltid-på data, er det viktig å vurdere om du sammenligner nøyaktig samme folk over tid, eller om du sammenligner noen skiftende gruppe mennesker; se for eksempel Diaz et al. (2016) .
En klassisk bok om ikke-reaktive tiltak er Webb et al. (1966) . Eksemplene i den boken er preget av den digitale tidsalderen, men de lyser fortsatt. For eksempler på personer som endrer sin oppførsel på grunn av tilstedeværelsen av massovervåkning, se Penney (2016) og Brayne (2014) .
Reaktiviteten er nært knyttet til hva forskere kaller etterspørselseffekter (Orne 1962; Zizzo 2010) og Hawthorne-effekten (Adair 1984; Levitt and List 2011) .
For mer på rekordkobling, se Dunn (1946) og Fellegi and Sunter (1969) (historisk) og Larsen and Winkler (2014) (moderne). Liknende tilnærminger er også blitt utviklet i datavitenskap under navn som dataduplisering, forekomstidentifikasjon, (Elmagarmid, Ipeirotis, and Verykios 2007) duplikat deteksjon og duplikatregistrering (Elmagarmid, Ipeirotis, and Verykios 2007) . Det er også personvernbeskyttende tilnærminger for å registrere koblinger som ikke krever overføring av personlig identifiserende informasjon (Schnell 2013) . Facebook har også utviklet en prosess for å knytte sine poster til stemmeoppførsel; Dette ble gjort for å evaluere et eksperiment som jeg skal fortelle om i kapittel 4 (Bond et al. 2012; Jones et al. 2013) .
For mer om konstruksjonsgyldighet, se kapittel 3 i Shadish, Cook, and Campbell (2001) .
For mer på AOL søk logg debacle, se Ohm (2010) . Jeg gir råd om partnering med bedrifter og regjeringer i kapittel 4 når jeg beskriver eksperimenter. En rekke forfattere har uttrykt bekymringer for forskning som er avhengig av utilgjengelige data, se Huberman (2012) og boyd and Crawford (2012) .
En god måte for universitetsforskere til å erverve datatilgang er å jobbe i et firma som praktikant eller gjesteforsker. I tillegg til å aktivere datatilgang, vil denne prosessen også hjelpe forskeren å lære mer om hvordan dataene ble opprettet, noe som er viktig for analyse.
Når det gjelder å få tilgang til regjeringsdata, diskuterer Mervis (2014) hvordan Raj Chetty og kolleger fikk tilgang til skatteoppgavene som ble brukt i deres forskning om sosial mobilitet.
For mer om historien om "representativitet" som konsept, se Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , og Kruskal and Mosteller (1980) .
Mine oppsummeringer av Snøarbeidet og Doll and Hills arbeid var korte. For mer om Snows arbeid på kolera, se Freedman (1991) . For mer om den britiske doktorsstudien, se Doll et al. (2004) og Keating (2014) .
Mange forskere vil bli overrasket over å vite at selv om Doll and Hill hadde samlet data fra kvinnelige leger og fra leger under 35, brukte de ikke bevisst disse dataene i sin første analyse. Som de hevdet: "Siden lungekreft er relativt sjelden hos kvinner og menn under 35 år, er det lite sannsynlig å få nyttige tall i disse gruppene i noen år framover. I denne foreløpige rapporten har vi derfor begrenset oppmerksomheten til menn i alderen 35 år og over. " Rothman, Gallacher, and Hatch (2013) , som har den provokerende tittelen" Hvorfor representativitet bør unngås ", gi et mer generelt argument for verdien av bevisst opprette ikke-representativ data.
Ikke representativitet er et stort problem for forskere og regjeringer som ønsker å uttale seg om en hel befolkning. Dette er mindre en bekymring for selskaper, som vanligvis er fokusert på sine brukere. For mer om hvordan Statistisk sentralbyrå vurderer spørsmålet om ikke-representativitet av forretningsdata, se Buelens et al. (2014) .
For eksempler på forskere som uttrykker bekymring for ikke-representativ karakter av store datakilder, se boyd and Crawford (2012) , K. Lewis (2015b) og Hargittai (2015) .
For en mer detaljert sammenligning av målene for sosiale undersøkelser og epidemiologisk forskning, se Keiding and Louis (2016) .
For mer om forsøk på å bruke Twitter til å Jungherr (2013) generaliseringer om velgere, spesielt saken fra 2009- Jungherr (2013) , se Jungherr (2013) og Jungherr (2015) . Etter arbeidet med Tumasjan et al. (2010) forskere rundt om i verden brukt mer avanserte metoder, som for eksempel bruk av sentimentanalyse for å skille mellom positive og negative nevner fra partiene, for å forbedre evnen til Twitter-data til å forutsi en rekke ulike typer valg (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Slik er Huberty (2015) oppsummert resultatene av disse forsøkene om å forutsi valg:
"Alle kjente prognosemetoder basert på sosiale medier har mislyktes når de er underlagt kravene til sanne fremtidsvalgte prognoser. Disse feilene synes å skyldes grunnleggende egenskaper av sosiale medier, snarere enn metodologiske eller algoritmiske vanskeligheter. Kort sagt, sosiale medier ikke, og sannsynligvis aldri vil, tilbyr et stabilt, upartisk, representativt bilde av velgerne; og bekvemmelighetsprøver av sosiale medier mangler tilstrekkelige data for å løse disse problemene etter hvert. "
I kapittel 3 skal jeg beskrive utvalg og estimering i mye større detalj. Selv om dataene ikke er representative, kan de under visse forhold vektes for å produsere gode estimater.
Systemdrift er svært vanskelig å se fra utsiden. Imidlertid har MovieLens-prosjektet (diskutert mer i kapittel 4) vært i mer enn 15 år av en akademisk forskergruppe. Dermed har de vært i stand til å dokumentere og dele informasjon om hvordan systemet har utviklet seg over tid, og hvordan dette kan påvirke analysen (Harper and Konstan 2015) .
En rekke lærde har fokusert på drift i Twitter: Liu, Kliman-Silver, and Mislove (2014) og Tufekci (2014) .
En tilnærming til å håndtere befolkningsdrift er å skape et panel av brukere, som gjør det mulig for forskere å studere de samme menneskene over tid, se Diaz et al. (2016) .
Jeg hørte først termen "algoritmisk forvirret" brukt av Jon Kleinberg i en snakk, men dessverre husker jeg ikke når eller hvor snakkene ble gitt. Første gang jeg så termen i trykk, var i Anderson et al. (2015) , som er en interessant diskusjon om hvordan algoritmer som brukes av datingsider kan komplisere forskernes evne til å bruke data fra disse nettstedene for å studere sosiale preferanser. Denne bekymringen ble reist av K. Lewis (2015a) svar på Anderson et al. (2014) .
I tillegg til Facebook, anbefaler Twitter også folk for brukere å følge basert på ideen om triadisk nedleggelse; se Su, Sharma, and Goel (2016) . Så nivået av triadisk lukning i Twitter er en kombinasjon av noen menneskelig tendens til triadisk lukning og noen algoritmisk tendens til å fremme triadisk lukning.
For mer om performativitet - spesielt ideen om at noen samfunnsvitenskapsteorier er "motorer ikke kameraer" (dvs. de former verden i stedet for bare å beskrive den) - se Mackenzie (2008) .
Statlige statistiske byråer ringer data rensing statistisk data redigering . De Waal, Puts, and Daas (2014) beskriver statistiske dataredigeringsteknikker utviklet for undersøkelsesdata og undersøker omfanget de gjelder for store datakilder, og Puts, Daas, and Waal (2015) presenterer noen av de samme ideene for et mer generelt publikum.
For en oversikt over sosiale bots, se Ferrara et al. (2016) . For noen eksempler på studier fokusert på å finne spam i Twitter, se Clark et al. (2016) og Chu et al. (2012) . Endelig Subrahmanian et al. (2016) beskriver resultatene av DARPA Twitter Bot Challenge, et massesamarbeid designet for å sammenligne tilnærminger for å oppdage bots på Twitter.
Ohm (2015) gjennomgår tidligere forskning på ideen om sensitiv informasjon og tilbyr en multifaktor test. De fire faktorene han foreslår er omfanget av skade, sannsynligheten for skade, tilstedeværelsen av et konfidensielt forhold, og om risikoen gjenspeiler majoritære bekymringer.
Farbers studie av drosjer i New York var basert på en tidligere studie av Camerer et al. (1997) som brukte tre forskjellige bekvemmelighetsprøver av papirtripsark. Denne tidligere studien viste at sjåfører syntes å være målmottakere: de jobbet mindre på dager hvor lønnene deres var høyere.
I etterfølgende arbeid har kong og kolleger videre utforsket online-sensur i Kina (King, Pan, and Roberts 2014, [@king_how_2016] ) . For en relatert tilnærming til måling av elektronisk censur i Kina, se Bamman, O'Connor, and Smith (2012) . For mer om statistiske metoder som den som ble brukt i King, Pan, and Roberts (2013) å estimere følelsen av de 11 millioner innleggene, se Hopkins and King (2010) . For mer om veiledet læring, se James et al. (2013) (mindre teknisk) og Hastie, Tibshirani, and Friedman (2009) (mer teknisk).
Forecasting er en stor del av industriell datavitenskap (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . En type prognose som ofte gjøres av sosiale forskere er demografisk prognose; se for eksempel Raftery et al. (2012) .
Google Fluetrender var ikke det første prosjektet for å bruke søkedata til nåutsatt influensautbredelse. Faktisk har forskere i USA (Polgreen et al. 2008; Ginsberg et al. 2009) og Sverige (Hulth, Rydevik, and Linde 2009) funnet at visse søkeord (f. Eks. "Influensa") forutsier nasjonal folkehelseovervåking data før den ble utgitt. Deretter har mange, mange andre prosjekter forsøkt å bruke digitale spordata for sykdomsovervåkning deteksjon; se Althouse et al. (2015) for en anmeldelse.
I tillegg til å bruke digitale spordata for å forutsi helseutfall, har det også vært en stor mengde arbeid ved hjelp av Twitter-data for å forutsi valgutfall; for vurderinger se Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kapittel 7) og Huberty (2015) . Nåkasting av økonomiske indikatorer, som bruttonasjonalprodukt (BNP), er også vanlig i sentralbankene, se Bańbura et al. (2013) . tabell 2.8 inneholder noen få eksempler på studier som bruker en slags digital spor for å forutsi en slags hendelse i verden.
Digitalt spor | Utfall | Sitering |
---|---|---|
Box office inntekter av filmer i USA | Asur and Huberman (2010) | |
Søke logger | Salg av filmer, musikk, bøker og videospill i USA | Goel et al. (2010) |
Dow Jones Industrial Average (amerikanske aksjemarkedet) | Bollen, Mao, and Zeng (2011) | |
Sosiale medier og søkelogger | Undersøkelser av investorstemning og aksjemarkeder i USA, Storbritannia, Canada og Kina | Mao et al. (2015) |
Søke logger | Utbredelse av Dengue Feber i Singapore og Bangkok | Althouse, Ng, and Cummings (2011) |
Endelig har Jon Kleinberg og kolleger (2015) påpekt at prognoseproblemer faller i to, subtilt forskjellige kategorier, og at samfunnsvitenskapsmenn har en tendens til å fokusere på en og ignorere den andre. Tenk deg en politimaker, jeg ringer henne Anna, som står overfor en tørke og må bestemme om du skal ansette en sjaman for å gjøre en regndans for å øke sjansen for regn. En annen policy maker, jeg ringer henne Betty, må bestemme om å ta en paraply til arbeid for å unngå å bli våt på vei hjem. Både Anna og Betty kan ta en bedre beslutning hvis de forstår været, men de trenger å vite forskjellige ting. Anna trenger å forstå om regndansen forårsaker regn. Betty, på den annen side, trenger ikke å forstå noe om årsakssammenheng; hun trenger bare en nøyaktig prognose. Sosialforskere fokuserer ofte på problemene som Anna-which Kleinberg og kollegaer kaller "regndanslignende" politiske problemer - fordi de involverer spørsmål om årsakssammenheng. Spørsmål som den som Betty-som Kleinberg og kolleger kaller "paraplylignende" politiske problemer - kan være ganske viktig også, men har fått mye mindre oppmerksomhet fra sosiale forskere.
Tidsskriftet PS Politisk Vitenskap hadde et symposium om store data, årsakssammenheng og formell teori, og Clark and Golder (2015) oppsummerer hvert bidrag. Journalen Proceedings of the National Academy of Sciences i USA hadde et symposium om årsakssammenheng og store data, og Shiffrin (2016) oppsummerer hvert bidrag. For maskininnlæringsmetoder som forsøker å oppdage naturlige eksperimenter inne i store datakilder, se Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , og Sharma, Hofman, and Watts (2016) .
Når det gjelder naturlige eksperimenter, gir Dunning (2012) en innledende boklengdsbehandling med mange eksempler. For et skeptisk syn på naturlige eksperimenter, se Rosenzweig and Wolpin (2000) (økonomi) eller Sekhon and Titiunik (2012) (statsvitenskap). Deaton (2010) og Heckman and Urzúa (2010) hevder at fokus på naturlige eksperimenter kan føre forskere til å fokusere på å estimere ubetydelige årsakseffekter; Imbens (2010) teller disse argumentene med et mer optimistisk syn på verdien av naturlige eksperimenter.
Når jeg beskriver hvordan en forsker kunne gå fra å estimere effekten av å bli utarbeidet til effekten av servering, beskriver jeg en teknikk som kalles instrumentelle variabler . Imbens and Rubin (2015) , i kapitlene 23 og 24, gir en introduksjon og bruker utkastet til lotteri som et eksempel. Effekten av militærtjeneste på komplikatorer blir noen ganger kalt gjennomsnittlig årsakssammenheng (CAcE) og noen ganger den lokale gjennomsnittlige behandlingseffekten (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , og Bollen (2012) tilbyr vurderinger av bruk av instrumentelle variabler i statsvitenskap, økonomi og sosiologi, og Sovey and Green (2011) gir en "leserens sjekkliste" for evaluere studier ved hjelp av instrumentelle variabler.
Det viser seg at utkastet til lotteriet i 1970 ikke var, faktisk ordentlig randomisert; Det var små avvik fra ren tilfeldighet (Fienberg 1971) . Berinsky and Chatfield (2015) hevder at denne lille avviket ikke er substansielt viktig og diskutere betydningen av riktig utført randomisering.
Når det gjelder samsvar, se Stuart (2010) for en optimistisk gjennomgang, og Sekhon (2009) for en pessimistisk gjennomgang. For mer om matching som en slags beskjæring, se Ho et al. (2007) . Å finne en enkelt perfekt kamp for hver person er ofte vanskelig, og dette introduserer en rekke kompleksiteter. For det første, når eksakte kamper ikke er tilgjengelige, må forskerne bestemme hvordan man skal måle avstanden mellom to enheter, og hvis en gitt avstand er nær nok. En annen kompleksitet oppstår hvis forskerne vil bruke flere kamper for hvert tilfelle i behandlingsgruppen, da dette kan føre til mer presise estimater. Begge disse problemene, så vel som andre, er beskrevet i detalj i kapittel 18 i Imbens and Rubin (2015) . Se også del II av ( ??? ) .
Se Dehejia and Wahba (1999) for et eksempel der matchende metoder var i stand til å produsere estimater som ligner dem fra et randomisert kontrollert eksperiment. Men se Arceneaux, Gerber, and Green (2006) og Arceneaux, Gerber, and Green (2010) for eksempler hvor samsvarende metoder ikke gjengittes for å reprodusere et eksperimentelt referansemål.
Rosenbaum (2015) og Hernán and Robins (2016) tilbyr andre råd for å finne nyttige sammenligninger innenfor store datakilder.