Denne delen er utformet for å bli brukt som en referanse, i stedet for å bli lest som en fortelling.
En slags observere at ikke er inkludert i dette kapittelet er etnografi. For mer om etnografi i digitale rom ser Boellstorff et al. (2012) , og for mer om etnografi i blandede digitale og fysiske mellomrom se Lane (2016) .
Når du er gjenbruk av data, er det to mentale triks som kan hjelpe deg å forstå de mulige problemer som kan oppstå. Først kan du prøve å forestille seg den ideelle datasettet for problemet ditt, og sammenligne det til datasettet som du bruker. Hvordan er de like og hvordan er de forskjellige? Hvis du ikke samle inn data selv, det er sannsynlig å være forskjellen mellom hva du ønsker og hva du har. Men, må du bestemme om disse forskjellene er mindre eller større.
For det andre, husk at noen opprettet og samlet inn data for en eller annen grunn. Du bør prøve å forstå deres resonnement. Denne slags omvendt-engineering kan hjelpe deg med å identifisere mulige problemer og skjevheter i dine repurposed data.
Det er ingen enkelt konsensus definisjon av "big data", men mange definisjoner synes å fokusere på tre Vs: (for eksempel volum, variasjon og hastighet Japec et al. (2015) ). Snarere enn å fokusere på egenskapene til data, fokuserer min definisjon mer om hvorfor dataene ble opprettet.
Min inkludering av offentlige administrative data i den kategorien av store data er litt uvanlig. Andre som har gjort dette tilfellet, inkluderer Legewie (2015) , Connelly et al. (2016) , og Einav and Levin (2014) . For mer om verdien av offentlige administrative data for forskning, se Card et al. (2010) , Taskforce (2012) , og Grusky, Smeeding, and Snipp (2015) .
For en utsikt over administrativ forskning fra innsiden av regjeringen statistisk system, spesielt US Census Bureau, se Jarmin and O'Hara (2016) . For en bok lengde behandling av administrative registre forskning ved Statistisk Sverige, se Wallgren and Wallgren (2007) .
I kapittelet, jeg kort sammenlignet en tradisjonell undersøkelse som General Social Survey (GSS) til en sosial media datakilde som for eksempel Twitter. For en grundig og god sammenligning mellom tradisjonelle spørreundersøkelser og sosiale medier data, se Schober et al. (2016) .
Disse 10 egenskapene til store data er blitt beskrevet i en rekke forskjellige måter ved en rekke forskjellige forfattere. Skriving som påvirket min tenkning på følgende problemstillinger: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , og Goldstone and Lupyan (2016) .
Gjennom dette kapittelet, har jeg brukt begrepet digitale spor, som jeg tror er relativt nøytral. Et annet populært begrep for digitale spor er digitale fotavtrykk (Golder and Macy 2014) , men som Hal Abelson, Ken Ledeen, og Harry Lewis (2008) påpeker, er et mer passende begrep sannsynligvis digitale fingeravtrykk. Når du oppretter fotavtrykk, er du klar over hva som skjer og dine fotspor kan generelt ikke spores tilbake til deg personlig. Det samme er ikke sant for dine digitale spor. Faktisk drar du spor hele tiden om du har svært lite kunnskap. Og selv om disse sporene ikke har ditt navn på dem, de kan ofte knyttes tilbake til deg. Med andre ord, de er mer som fingeravtrykk: usynlig og personlig identifiserbar.
Stor
For mer om hvorfor store datasett, gjengi statistiske tester problematisk, se Lin, Lucas, and Shmueli (2013) og McFarland and McFarland (2015) . Disse problemene bør føre forskerne å fokusere på praktisk betydning heller enn statistisk signifikans.
Alltid på
Når du vurderer alltid-på data, er det viktig å vurdere om du sammenligner de samme menneskene over tid, eller om du sammenligner noen endring gruppe mennesker; se for eksempel, Diaz et al. (2016) .
Ikke reaktiv
En klassisk bok om ikke-reaktive tiltak er Webb et al. (1966) . Eksemplene i boken pre-date den digitale tidsalder, men de er fortsatt opplysende. For eksempler på folk endrer sin atferd på grunn av tilstedeværelsen av masse overvåking, se Penney (2016) og Brayne (2014) .
ufullstendig
For mer om posten sammenhengen, se Dunn (1946) og Fellegi and Sunter (1969) (historical) og Larsen and Winkler (2014) (moderne). Ligner nærmet har også blitt utviklet i informatikk under navnene som data deduplisering, eksempel identifikasjon, navn matching, duplisere deteksjon, og duplisere rekord deteksjon (Elmagarmid, Ipeirotis, and Verykios 2007) . Det er også personvernet bevare tilnærminger for å spille inn kobling som ikke krever overføring av personopplysninger (Schnell 2013) . Facebook har også utviklet en fortsette å knytte sine poster å stemme atferd; Dette ble gjort for å evaluere et eksperiment som jeg skal fortelle deg om i kapittel 4 (Bond et al. 2012; Jones et al. 2013) .
For mer om begrepsvaliditet, se Shadish, Cook, and Campbell (2001) , kapittel 3.
Utilgjengelig
For mer om AOL søkelogg fiaskoen, se Ohm (2010) . Jeg tilbyr råd om å samarbeide med selskaper og regjeringer i kapittel 4 når jeg beskriver eksperimenter. En rekke forfattere har uttrykt bekymring for forskning som er avhengig av utilgjengelige data, se Huberman (2012) og boyd and Crawford (2012) .
En god måte for universitetsforskere til å erverve datatilgang er å jobbe i et firma som praktikant eller gjesteforsker. I tillegg til å aktivere datatilgang, vil denne prosessen også hjelpe forskeren å lære mer om hvordan dataene ble opprettet, noe som er viktig for analyse.
Non-representant
Non-representativitet er et stort problem for forskere og myndigheter som ønsker å uttale seg om en hel populasjon. Dette er mindre av bekymring for bedrifter som vanligvis fokusert på sine brukere. For mer om hvordan Statistikk Nederland vurderer utstedelse av ikke-representativitet av forretnings store data, se Buelens et al. (2014) .
I kapittel 3 vil jeg beskrive prøvetaking og estimering i mye større detalj. Selv om data er ikke-representative, under visse vilkår, kan de bli vektet for å produsere gode anslag.
drifting
System drift er svært vanskelig å se fra utsiden. Imidlertid har MovieLens prosjektet (omtalt mer i kapittel 4) er kjørt i mer enn 15 år med en akademisk forskningsgruppe. Derfor har de dokumentert og delt informasjon om måten at systemet har utviklet seg over tid og hvordan dette kan påvirke analysen (Harper and Konstan 2015) .
En rekke forskere har fokusert på drift i Twitter: Liu, Kliman-Silver, and Mislove (2014) og Tufekci (2014) .
algoritmisk vist
Første gang jeg hørte ordet "algoritmer til skamme" brukt av Jon Kleinberg i en tale. Hovedideen bak performativitet er at noen samfunnsvitenskapelige teorier er "motorer ikke kameraer" (Mackenzie 2008) . Det vil si de faktisk forme verden i stedet for bare å fange den.
Skitne
Statlige statistikkbyråer ringe data rengjøring, statistiske data redigering. De Waal, Puts, and Daas (2014) beskriver statistiske data redigering teknikker utviklet for måledata og undersøke i hvilken grad de gjelder for store datakilder, og Puts, Daas, and Waal (2015) presenterer noen av de samme ideene for et mer generelt publikum.
For noen eksempler på studier fokusert på spam i Twitter, Clark et al. (2016) og Chu et al. (2012) . Til slutt, Subrahmanian et al. (2016) beskriver resultatene av DARPA Twitter Bot Challenge.
Følsom
Ohm (2015) vurderinger tidligere forskning på ideen om sensitiv informasjon, og tilbyr en multi-faktor test. De fire faktorene han foreslår er: sannsynligheten for skade; sannsynlighet for skade; Tilstedeværelsen av en fortrolig forhold; og om risikoen reflektere majoritarian bekymringer.
Farber studie av drosjer i New York var basert på en tidligere studie av Camerer et al. (1997) som brukte tre forskjellige praktiske prøver av papir tur ark-papirskjemaer som brukes av sjåførene å ta turen starttid, sluttid, og fare. Denne tidligere studie fant at sjåførene virket å være målet erne: de jobbet mindre på dager hvor deres lønn var høyere.
Kossinets and Watts (2009) ble fokusert på opprinnelsen til homophily i sosiale nettverk. Se Wimmer and Lewis (2010) for en annen tilnærming til det samme problemet som bruker data fra Facebook.
I senere arbeid, har Kongen og kolleger videre utforsket online sensur i Kina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . For et beslektet tilnærming til måling av online sensur i Kina, se Bamman, O'Connor, and Smith (2012) . For mer om statistiske metoder som den som brukes i King, Pan, and Roberts (2013) for å estimere den oppfatningen av de 11 millioner innlegg, se Hopkins and King (2010) . For mer om veiledet læring, se James et al. (2013) (mindre teknisk) og Hastie, Tibshirani, and Friedman (2009) (mer teknisk).
Casting er en stor del av produksjonsdata vitenskap (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . En type prognoser som ofte gjøres av samfunnsforskere er demografiske prognoser, for eksempel Raftery et al. (2012) .
Googles influensastatistikk var ikke det første prosjektet til å bruke søkedata for å nowcast utbredelsen influensa. Faktisk, forskere i USA (Polgreen et al. 2008; Ginsberg et al. 2009) og Sverige (Hulth, Rydevik, and Linde 2009) har funnet at enkelte søkeord (for eksempel "influensa") spådd nasjonale folkehelseovervåking data før den ble utgitt. Deretter mange, mange andre prosjekter har forsøkt å bruke digitale spordata for sykdomsovervåking deteksjon, se Althouse et al. (2015) for en gjennomgang.
I tillegg til å bruke digitale spor data til å forutsi helseutfall, har det også vært en enorm mengde arbeid med Twitter data til å forutsi valg utfall; for se Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kap. 7), og Huberty (2015) .
Ved hjelp av søkedata for å forutsi forekomsten influensa og bruk av Twitter data til å forutsi valg er begge eksempler på bruk av noen form for digital spor å forutsi en slags hendelse i verden. Det et enormt antall studier som har denne generelle struktur. Tabell 2.5 inneholder noen andre eksempler.
Digital spor | Utfall | Sitering |
---|---|---|
Box office inntekter av filmer i USA | Asur and Huberman (2010) | |
søkelogger | Salg av filmer, musikk, bøker og videospill i USA | Goel et al. (2010) |
Dow Jones Industrial Average (amerikanske aksjemarkedet) | Bollen, Mao, and Zeng (2011) |
Tidsskriftet PS statsvitenskap hadde et symposium om stor data, kausal inferens, og formell teori, og Clark and Golder (2015) oppsummerer hvert bidrag. Tidsskriftet Proceedings of the National Academy of Sciences hadde et symposium om årsaks slutning og store data og Shiffrin (2016) oppsummerer hvert bidrag.
I form av naturlige eksperimenter, Dunning (2012) gir en utmerket bok lengde behandling. For mer om bruk av Vietnam utkastet lotteriet som en naturlig eksperiment, se Berinsky and Chatfield (2015) . For maskin læring tilnærminger som forsøker å automatisk oppdage naturlige eksperimenter inne av store datakilder, se Jensen et al. (2008) og Sharma, Hofman, and Watts (2015) .
I forhold til matching, for en optimistisk vurdering, se Stuart (2010) , og for en pessimistisk vurdering se Sekhon (2009) . For mer på matchende som en slags beskjæring, se Ho et al. (2007) . For bøker som gir gode behandlinger av matching, se Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , og Imbens and Rubin (2015) .