Dette afsnit er beregnet til at blive brugt som reference, i stedet for at blive læst som en fortælling.
En slags at observere, at der ikke er medtaget i dette kapitel er etnografi. For mere om etnografi i digitale rum se Boellstorff et al. (2012) , og for mere på etnografi i blandede digitale og fysiske rum ser Lane (2016) .
Når du nyorientering data, er der to mentale tricks, der kan hjælpe dig med at forstå de mulige problemer, du kan støde på. Først, kan du prøve at forestille sig den ideelle datasæt til dit problem og sammenligne det med det datasæt, som du bruger. Hvordan er de ens, og hvordan er de forskellige? Hvis du ikke samle dine data selv, der sandsynligvis vil være forskel på, hvad du vil, og hvad du har. Men, er du nødt til at beslutte, om disse forskelle er mindre eller større.
For det andet, husk at nogen oprettet og indsamlet dine data eller anden grund. Du bør forsøge at forstå deres ræsonnement. Denne form for reverse-engineering kan hjælpe dig med at identificere mulige problemer og skævheder i dine repurposed data.
Der er ingen enkelt konsensus definition af "big data", men mange definitioner synes at fokusere på tre Vs: (f.eks volumen, sort, og hastighed Japec et al. (2015) ). Snarere end at fokusere på de særlige kendetegn ved de data, min definition fokuserer mere på, hvorfor data blev oprettet.
Min inddragelse af offentlige administrative data inde i kategorien big data er en smule usædvanligt. Andre, der har gjort denne sag, omfatter Legewie (2015) , Connelly et al. (2016) , og Einav and Levin (2014) . For mere om værdien af offentlige administrative data til forskning, se Card et al. (2010) , Taskforce (2012) , og Grusky, Smeeding, and Snipp (2015) .
For en visning af administrativ forskning inde fra regeringen statistiske system, især US Census Bureau, se Jarmin and O'Hara (2016) . For en bog længde behandling af administrative registre forskning på Sveriges Statistik, se Wallgren and Wallgren (2007) .
I kapitlet, jeg kort sammenlignet en traditionel undersøgelse som General Social Survey (GSS) til en datakilde sociale medier såsom Twitter. For en grundig og omhyggelig sammenligning mellem traditionelle undersøgelser og sociale medier data, se Schober et al. (2016) .
Disse 10 karakteristika af store data er blevet beskrevet i en række forskellige måder ved en række forskellige forfattere. Skrivning der påvirkede mine tanker om disse spørgsmål er: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , og Goldstone and Lupyan (2016) .
I hele dette kapitel, har jeg brugt udtrykket digitale spor, som jeg mener er forholdsvis neutral. En anden populær betegnelse for digitale spor er digitale fodspor (Golder and Macy 2014) , men som Hal Abelson, Ken Ledeen, og Harry Lewis (2008) påpeger, en mere passende betegnelse er formentlig digitale fingeraftryk. Når du opretter fodspor, du er klar over, hvad der sker, og dine footprints kan generelt ikke spores tilbage til dig personligt. Det samme er ikke tilfældet for dine digitale spor. Faktisk er du efterlade spor hele tiden om, hvor du har meget lidt viden. Og selv om disse spor ikke har dit navn på dem, kan de ofte være knyttet tilbage til dig. Med andre ord, de er mere som fingeraftryk: usynlig og personligt identificerende.
Stor
For mere om, hvorfor store datasæt, gør statistiske tests problematisk, se Lin, Lucas, and Shmueli (2013) og McFarland and McFarland (2015) . Disse spørgsmål bør føre forskerne til at fokusere på praktisk betydning snarere end statistisk signifikans.
Altid på
Når man overvejer altid-på data, er det vigtigt at overveje, om du sammenligner de nøjagtige samme mennesker over tid, eller om du sammenligner nogle skiftende gruppe af mennesker; se for eksempel Diaz et al. (2016) .
Ikke-reaktivt
En klassisk bog om ikke-reaktive foranstaltninger er Webb et al. (1966) . Eksemplerne i bogen pre-date den digitale alder, men de er stadig lysende. For eksempler på mennesker, skiftende deres adfærd på grund af tilstedeværelsen af masse overvågning, se Penney (2016) og Brayne (2014) .
Ufuldstændig
For mere om rekord kobling, se Dunn (1946) og Fellegi and Sunter (1969) (historical) og Larsen and Winkler (2014) (moderne). Lignende nærmede er også blevet udviklet i datalogi under navnene såsom data deduplication, eksempelvis identifikation, navn matcher, duplikere afsløring, og duplikere rekord detektion (Elmagarmid, Ipeirotis, and Verykios 2007) . Der er også privatliv bevare tilgange til at registrere kobling, der ikke kræver transmission af personlige oplysninger (Schnell 2013) . Facebook har også udviklet en videre at forbinde deres poster til vælgeradfærd; dette blev gjort for at evaluere et eksperiment, som jeg vil fortælle dig om i kapitel 4 (Bond et al. 2012; Jones et al. 2013) .
For mere om konstruktion gyldighed, se Shadish, Cook, and Campbell (2001) , kapitel 3.
Utilgængelig
For mere om AOL søgning log fiaskoen, se Ohm (2010) . Jeg tilbyder rådgivning om partnering med virksomheder og regeringer i kapitel 4, når jeg beskriver eksperimenter. En række forfattere har udtrykt bekymring over forskning, der bygger på utilgængelige data, se Huberman (2012) og boyd and Crawford (2012) .
En god måde for universitetsforskere til at erhverve dataadgang er at arbejde i en virksomhed som praktikant eller gæsteforsker. Ud over at aktivere dataadgang, vil denne proces også hjælpe forskeren lære mere om, hvordan dataene blev skabt, hvilket er vigtigt for analyse.
Ikke-repræsentant
Ikke-repræsentativitet er et stort problem for forskere og regeringer, der ønsker at udtale sig om en hel befolkning. Dette er mindre bekymring for virksomheder, der typisk fokuseret på deres brugere. For mere om, hvordan Statistik Holland betragter spørgsmålet om ikke-repræsentativitet af business store data, se Buelens et al. (2014) .
I kapitel 3, vil jeg beskrive prøveudtagning og vurdering i langt mere detaljeret. Selvom data er ikke-repræsentative, under visse betingelser, kan de vægtes at producere gode skøn.
drifting
System drift er meget svært at se udefra. Imidlertid har projektet MovieLens (diskuteret mere i kapitel 4) kørt i mere end 15 år med en akademisk forskergruppe. Derfor har de dokumenteret og delte oplysninger om den måde, at systemet har udviklet sig over tid, og hvordan dette kan påvirke analyse (Harper and Konstan 2015) .
En række forskere har fokuseret på drift i Twitter: Liu, Kliman-Silver, and Mislove (2014) og Tufekci (2014) .
algoritmisk beskæmmet
Jeg første gang hørte udtrykket "algoritmisk forvirret", der anvendes af Jon Kleinberg i en tale. Hovedidéen bag performativitet er, at nogle samfundsvidenskabelige teorier er "motorer ikke kameraer" (Mackenzie 2008) . Det vil sige, de faktisk forme verden snarere end blot fange det.
Snavset
Statslige statistiske kontorer kalder data rengøring, statistiske data redigering. De Waal, Puts, and Daas (2014) beskriver statistiske data redigering teknikker udviklet for undersøgelsens data og undersøge, i hvilket omfang de finder anvendelse på store datakilder, og Puts, Daas, and Waal (2015) præsenterer nogle af de samme ideer til en mere generel publikum.
For nogle eksempler på undersøgelser fokuserede på spam i Twitter, Clark et al. (2016) og Chu et al. (2012) . Endelig Subrahmanian et al. (2016) beskriver resultaterne af DARPA Twitter Bot Challenge.
Følsom
Ohm (2015) Bedømmelser tidligere forskning på ideen om følsomme oplysninger og tilbyder en multi-faktor test. De fire faktorer, han foreslår, er: sandsynligheden for skade; sandsynlighed for skade; tilstedeværelsen af et fortroligt forhold; og om risikoen afspejle flertals bekymringer.
Farber undersøgelse af taxier i New York var baseret på en tidligere undersøgelse fra Camerer et al. (1997) , der brugte tre forskellige convenience prøver af papir tur ark-papir, som anvendes af bilister til at registrere tur starttid, sluttid og billetpris. Denne tidligere undersøgelse viste, at chauffører syntes at være mål lønmodtagere: de arbejdede mindre på dage, hvor deres løn var højere.
Kossinets and Watts (2009) var fokuseret på oprindelsen af homophily i sociale netværk. Se Wimmer and Lewis (2010) for en anden tilgang til det samme problem, som bruger data fra Facebook.
I efterfølgende arbejde, har kongen og kolleger nærmere online censur i Kina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . For en beslægtet tilgang til måling online censur i Kina, se Bamman, O'Connor, and Smith (2012) . For mere om statistiske metoder som den, der anvendes i King, Pan, and Roberts (2013) til at estimere den følelse af de 11 millioner poster, se Hopkins and King (2010) . For mere om overvåget indlæring, se James et al. (2013) (mindre teknisk) og Hastie, Tibshirani, and Friedman (2009) (mere teknisk).
Forecasting er en stor del af industriel data videnskab (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . En type prognoser, der er almindeligt udført af sociale forskere er demografisk prognose, for eksempel Raftery et al. (2012) .
Google Flu Trends var ikke det første projekt at bruge søgedata til nowcast forekomsten influenza. Faktisk forskere i USA (Polgreen et al. 2008; Ginsberg et al. 2009) og Sverige (Hulth, Rydevik, and Linde 2009) har fundet, at visse søgetermer (f.eks "influenza") forudsagde nationale offentlige helbredskontrol data, før det blev udgivet. Efterfølgende mange, mange andre projekter har forsøgt at bruge digitale spor data til påvisning sygdomsovervågning, se Althouse et al. (2015) for en gennemgang.
Ud over at bruge digitale spor til at forudsige sundhedsresultater, har der også været en enorm mængde af arbejde ved hjælp af Twitter-data til at forudsige resultater valg; til anmeldelser se Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), og Huberty (2015) .
Brug søgedata til at forudsige forekomsten influenza og bruge Twitter til at forudsige valget er begge eksempler på brug af en form for digital spor til at forudsige en form for begivenhed i verden. Der et enormt antal studier, der har denne generelle struktur. Tabel 2.5 indeholder et par andre eksempler.
Digital spor | Resultat | Citation |
---|---|---|
Box office omsætningen af film i USA | Asur and Huberman (2010) | |
Søg logs | Salg af film, musik, bøger og videospil i USA | Goel et al. (2010) |
Dow Jones Industrial Average (amerikanske aktiemarked) | Bollen, Mao, and Zeng (2011) |
Tidsskriftet PS Statskundskab havde et symposium om big data, kausal inferens, og formel teori, og Clark and Golder (2015) opsummerer de enkelte bidrag. Tidsskriftet Proceedings of National Academy of Sciences i USA havde et symposium om kausal inferens og store data, og Shiffrin (2016) opsummerer de enkelte bidrag.
I form af naturlige eksperimenter, Dunning (2012) giver en fremragende bog længde behandling. For mere om brug af Vietnam udkast lotteri som en naturlig eksperiment, se Berinsky and Chatfield (2015) . For machine learning tilgange, der forsøger at automatisk at opdage naturlige eksperimenter inde af store datakilder, se Jensen et al. (2008) og Sharma, Hofman, and Watts (2015) .
Med hensyn til matching, for en optimistisk gennemgang, se Stuart (2010) , og for en pessimistisk gennemgang se Sekhon (2009) . For mere på matchende som en slags beskæring, se Ho et al. (2007) . For bøger, der giver gode behandlinger af matching, se Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , og Imbens and Rubin (2015) .