En typ av att observera det som inte ingår i detta kapitel är etnografi. För mer om etnografi i digitala utrymmen, se Boellstorff et al. (2012) , och för mer om etnografi i blandade digitala och fysiska utrymmen, se Lane (2016) .
Det finns ingen ensam konsensusdefinition av "stora data", men många definitioner tycks fokusera på "3 Vs": volym, variation och hastighet (t.ex. Japec et al. (2015) ). Se De Mauro et al. (2015) för en översyn av definitioner.
Min inklusion av regeringens administrativa uppgifter i kategorin stora data är lite ovanlig, även om andra också har gjort det här fallet, inklusive Legewie (2015) , Connelly et al. (2016) och Einav and Levin (2014) . För mer om värdet av statliga administrativa data för forskning, se Card et al. (2010) , Adminstrative Data Taskforce (2012) och Grusky, Smeeding, and Snipp (2015) .
För en syn på administrativ forskning från statens statistiksystem, särskilt US Census Bureau, se Jarmin and O'Hara (2016) . För en boklängdsbehandling av statistikforskningen vid SCB, se Wallgren and Wallgren (2007) .
I kapitlet jämförde jag kortfattat en traditionell undersökning som General Social Survey (GSS) med en social media datakälla som Twitter. För en noggrann och noggrann jämförelse mellan traditionella undersökningar och sociala medier, se Schober et al. (2016) .
Dessa 10 egenskaper hos stora data har beskrivits på många olika sätt av en mängd olika författare. Skrivning som påverkat mitt tänkande på dessa problem inkluderar Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) och Goldstone and Lupyan (2016) .
Under hela detta kapitel har jag använt termen digitala spår , som jag tycker är relativt neutral. En annan populär term för digitala spår är digitala fotavtryck (Golder and Macy 2014) , men som Hal Abelson, Ken Ledeen och Harry Lewis (2008) påpekar, är en mer lämplig term sannolikt digitala fingeravtryck . När du skapar fotavtryck är du medveten om vad som händer och dina fotavtryck kan i allmänhet inte spåras till dig personligen. Samma sak gäller inte dina digitala spår. Faktum är att du lämnar spår hela tiden som du har mycket lite kunskap om. Och även om dessa spår inte har ditt namn på dem, kan de ofta kopplas tillbaka till dig. Med andra ord, de är mer som fingeravtryck: osynliga och personligt identifierande.
För mer om varför stora dataset gör statistiska test problematiska, se M. Lin, Lucas, and Shmueli (2013) och McFarland and McFarland (2015) . Dessa frågor borde leda forskare att fokusera på praktisk betydelse snarare än statistisk betydelse.
För mer om hur Raj Chetty och kollegor erhållit tillgång till skatteposter, se Mervis (2014) .
Stora dataset kan också skapa beräkningsproblem som vanligtvis inte överensstämmer med en enda dator. Därför sprider forskare som gör beräkningar på stora dataset ofta arbetet på många datorer, en process som ibland kallas parallell programmering . För en introduktion till parallell programmering, särskilt ett språk som heter Hadoop, se Vo and Silvia (2016) .
När du överväger alltid-på-data, är det viktigt att överväga om du jämför det exakta samma folket med tiden eller om du jämför vissa förändrade grupper av människor. se till exempel Diaz et al. (2016) .
En klassisk bok om icke-reaktiva åtgärder är Webb et al. (1966) . Exemplen i den här boken ligger före den digitala tiden, men de lyser fortfarande. För exempel på personer som ändrar sitt beteende på grund av förekomsten av massövervakning, se Penney (2016) och Brayne (2014) .
Reaktiviteten är nära relaterad till vad forskare kallar efterfråganeffekter (Orne 1962; Zizzo 2010) och Hawthorne-effekten (Adair 1984; Levitt and List 2011) .
För mer på rekordkoppling, se Dunn (1946) och Fellegi and Sunter (1969) (historia) och Larsen and Winkler (2014) (modern). Liknande tillvägagångssätt har också utvecklats inom datavetenskap med namn som dataduplikering, förekomstidentifiering, namnmatchning, duplicatdetektering och duplikatrekorddetektering (Elmagarmid, Ipeirotis, and Verykios 2007) . Det finns också sekretessbevarande tillvägagångssätt för att registrera länk som inte kräver överföring av personidentifierande uppgifter (Schnell 2013) . Facebook har också utvecklat en process för att länka sina dokument till röstbeteende. Detta gjordes för att utvärdera ett experiment som jag ska berätta om i kapitel 4 (Bond et al. 2012; Jones et al. 2013) .
För mer om konstruktiv validitet, se kapitel 3 i Shadish, Cook, and Campbell (2001) .
För mer information om AOL-sökloggdrasen, se Ohm (2010) . Jag ger råd om samverkan med företag och regeringar i kapitel 4 när jag beskriver experiment. Ett antal författare har uttryckt oro för forskning som bygger på otillgängliga data, se Huberman (2012) och boyd and Crawford (2012) .
Ett bra sätt för universitetsforskare att förvärva dataåtkomst är att arbeta på ett företag som praktikant eller gästforskare. Förutom att aktivera dataåtkomst, kommer denna process också hjälpa forskare lära sig mer om hur data skapades, vilket är viktigt för analys.
När det gäller att få tillgång till statliga data diskuterar Mervis (2014) hur Raj Chetty och kollegor erhållit tillgång till de skattposter som används i sin forskning om social rörlighet.
För mer om historien om "representativitet" som koncept, se Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) och Kruskal and Mosteller (1980) .
Mina sammanfattningar av Snöarbetet och Doll och Hills arbete var korta. För mer om Snows arbete med kolera, se Freedman (1991) . För mer om den brittiska doktorsstudien, se Doll et al. (2004) och Keating (2014) .
Många forskare kommer att bli förvånad över att även om Doll och Hill hade samlat in data från kvinnliga läkare och läkare under 35, använde de avsiktligt inte dessa uppgifter i sin första analys. Som de hävdade: "Eftersom lungcancer är relativt sällsynt hos kvinnor och män under 35 år är det osannolikt att användbara siffror kommer att erhållas i dessa grupper under några år framöver. I denna preliminära rapport har vi därför begränsat vår uppmärksamhet till män i åldern 35 år. " Rothman, Gallacher, and Hatch (2013) , som har den provocerande titeln" Varför representativitet bör undvikas ", göra ett mer allmänt argument för värdet av avsiktligt skapa icke representativa data.
Nonrepresentativeness är ett stort problem för forskare och regeringar som vill uttala sig om en hel befolkning. Detta är mindre av intresse för företag, som vanligtvis är inriktade på sina användare. För mer om hur Statistikcentralen anser frågan om icke-företrädande verksamhet stora data, se Buelens et al. (2014) .
För exempel på forskare som uttrycker oro för stora datakällors icke-representativa karaktär, se boyd and Crawford (2012) , K. Lewis (2015b) och Hargittai (2015) .
För en mer detaljerad jämförelse av målen för sociala undersökningar och epidemiologisk forskning, se Keiding and Louis (2016) .
För mer om försök att använda Twitter för att göra urval av generaliseringar om väljare, särskilt fallet från det tyska valet 2009, se Jungherr (2013) och Jungherr (2015) . Efter arbetet av Tumasjan et al. (2010) forskare runt om i världen använt mer avancerade metoder, till exempel genom att använda sentimentanalys för att skilja mellan parternas positiva och negativa anmärkningar, för att förbättra Twitter (Gayo-Avello 2013; Jungherr 2015, chap. 7.) förmåga att förutse olika typer av val (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Så här sammanfattade Huberty (2015) resultaten av dessa försök att förutse val:
"Alla kända prognosmetoder baserade på sociala medier har misslyckats när de utsätts för kraven på sanna framåtblickande valprognoser. Dessa fel verkar bero på grundläggande egenskaper hos sociala medier, snarare än metodologiska eller algoritmiska svårigheter. Kort sagt, sociala medier inte, och förmodligen aldrig kommer, erbjuda en stabil, opartisk, representativ bild av väljarna; och bekvämlighetsprover av sociala medier saknar tillräckligt med data för att lösa dessa problem efter hoc. "
I kapitel 3 beskriver jag provtagning och uppskattning i mycket större detalj. Även om data inte är representativa, kan de under vissa förutsättningar vägas för att ge goda uppskattningar.
Systemdrift är mycket svår att se från utsidan. MovieLens-projektet (diskuterat mer i kapitel 4) har dock drivits i mer än 15 år av en akademisk forskargrupp. Således har de kunnat dokumentera och dela information om hur systemet har utvecklats över tiden och hur det kan påverka analysen (Harper and Konstan 2015) .
Ett antal forskare har fokuserat på drift i Twitter: Liu, Kliman-Silver, and Mislove (2014) och Tufekci (2014) .
Ett sätt att hantera befolkningsdrift är att skapa en panel av användare, vilket gör det möjligt för forskare att studera samma personer över tiden, se Diaz et al. (2016) .
Jag hörde först termen "algoritmiskt förvirrad" som Jon Kleinberg använde i ett samtal, men jag kommer tyvärr inte ihåg när eller var talet gavs. Första gången jag såg termen i tryck var i Anderson et al. (2015) , som är en intressant diskussion om hur algoritmerna som används av datingsidor kan komplicera forskarnas förmåga att använda data från dessa webbplatser för att studera sociala preferenser. Denna oro uppstod av K. Lewis (2015a) svar på Anderson et al. (2014) .
Förutom Facebook, rekommenderar Twitter också folk för användare att följa med tanken på triadisk stängning. se Su, Sharma, and Goel (2016) . Så nivået av triadisk stängning i Twitter är en kombination av någon mänsklig tendens till triadisk stängning och viss algoritmisk tendens att främja triadisk stängning.
För mer om performativitet - i synnerhet idén om att vissa samhällsvetenskapsteorier är "motorer inte kameror" (dvs. de formar världen snarare än att bara beskriva det) - se Mackenzie (2008) .
Statliga statistikbyråer kallar data-städning statistisk data redigering . De Waal, Puts, and Daas (2014) beskriver statistiska dataredigeringsmetoder som utvecklats för undersökningsdata och undersöker i vilken omfattning de är tillämpliga på stora datakällor, och Puts, Daas, and Waal (2015) presenterar några av samma idéer för en mer allmän publik.
För en översikt över sociala bots, se Ferrara et al. (2016) . För några exempel på studier som är inriktade på att hitta spam i Twitter, se Clark et al. (2016) och Chu et al. (2012) . Slutligen, Subrahmanian et al. (2016) beskriver resultaten av DARPA Twitter Bot Challenge, ett masssamarbete som utformats för att jämföra metoder för att upptäcka bots på Twitter.
Ohm (2015) granskar tidigare forskning om idén om känslig information och erbjuder ett multifaktorprov. De fyra faktorer som han föreslår är skadans storlek, sannolikheten för skada, förekomsten av ett konfidentiellt förhållande och om risken speglar majoritära problem.
Farbers studie av taxibilar i New York baserades på en tidigare studie av Camerer et al. (1997) som använde tre olika bekvämlighetsprover av pappersresan. Denna tidigare studie visade att förare tycktes vara målmottagare: de arbetade mindre på dagar där deras löner var högre.
I efterföljande arbete har kung och kollegor undersökt ytterligare online censur i Kina (King, Pan, and Roberts 2014, [@king_how_2016] ) . För en relaterad metod att mäta online censur i Kina, se Bamman, O'Connor, and Smith (2012) . För mer om statistiska metoder som den som används i King, Pan, and Roberts (2013) att uppskatta känslan av de 11 miljoner inläggen, se Hopkins and King (2010) . För mer om övervakat lärande, se James et al. (2013) (mindre tekniskt) och Hastie, Tibshirani, and Friedman (2009) (mer teknisk).
Prognoser är en stor del av industriell datavetenskap (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . En typ av prognoser som vanligtvis görs av sociala forskare är demografisk prognoser. se till exempel Raftery et al. (2012) .
Googles influensatendenser var inte det första projektet för att använda sökdata till nuvarande influensautbredning. Faktum är att forskare i USA (Polgreen et al. 2008; Ginsberg et al. 2009) och Sverige (Hulth, Rydevik, and Linde 2009) har funnit att vissa söktermer (t.ex. "influensa") förutspådde nationell folkhälsoövervakning data innan den släpptes. Därefter har många många andra projekt försökt använda digitala spårdata för upptäckt av sjukdomsövervakning. se Althouse et al. (2015) för en översyn.
Förutom att använda digitala spårdata för att förutsäga hälsoutfall har det också funnits mycket arbete med Twitter-data för att förutse valresultat. för recensioner se Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kapitel 7) och Huberty (2015) . Nuvarande ekonomiska indikatorer, såsom bruttonationalprodukten (BNP), är också vanliga i centralbankerna, se Bańbura et al. (2013) . Tabell 2.8 innehåller några exempel på studier som använder någon form av digital spår för att förutse någon form av händelse i världen.
Digital spår | Resultat | Citat |
---|---|---|
Box office intäkter av filmer i USA | Asur and Huberman (2010) | |
Sök loggar | Försäljning av filmer, musik, böcker och videospel i USA | Goel et al. (2010) |
Dow Jones Industrial Average (amerikanska aktiemarknaden) | Bollen, Mao, and Zeng (2011) | |
Sociala medier och sökloggar | Undersökningar av investerarnas känslor och aktiemarknader i USA, Storbritannien, Kanada och Kina | Mao et al. (2015) |
Sök loggar | Förekomst av Dengue Feber i Singapore och Bangkok | Althouse, Ng, and Cummings (2011) |
Slutligen har Jon Kleinberg och kollegor (2015) påpekat att prognosproblemen faller i två, subtilt olika kategorier och att samhällsvetenskapare tenderar att fokusera på en och ignorera den andra. Föreställ dig en politiker, jag ringer henne Anna, som står inför en torka och måste bestämma om man ska hyra en shaman för att göra en regndans för att öka risken för regn. En annan policy maker, jag ringer henne Betty, måste bestämma om man ska ta ett paraply på jobbet för att undvika att bli våt på väg hem. Både Anna och Betty kan fatta ett bättre beslut om de förstår väder, men de behöver veta olika saker. Anna behöver förstå om regndansen orsakar regn. Betty, å andra sidan, behöver inte förstå någonting om orsakssamband. hon behöver bara en exakt prognos. Sociala forskare fokuserar ofta på problemen som Anna-which Kleinberg står inför och kollegor kallar "regndansliknande" politiska problem - för att de involverar frågor om orsakssamband. Frågor som Betty-som Kleinberg och kollegor kallar "paraplyliknande" politiska problem - kan också vara ganska viktiga, men har fått mycket mindre uppmärksamhet från sociala forskare.
Tidningen PS Political Science hade ett symposium om stora data, orsakssamband och formell teori, och Clark and Golder (2015) sammanfattar varje bidrag. Tidskriften Proceedings of the National Academy of Sciences i USA hade ett symposium om orsakssamband och stora data, och Shiffrin (2016) sammanfattar varje bidrag. För maskininlärningsmetoder som försöker automatiskt upptäcka naturliga experiment inom stora datakällor, se Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , och Sharma, Hofman, and Watts (2016) .
När det gäller naturliga experiment ger Dunning (2012) en inledande boklängdsbehandling med många exempel. För en skeptisk syn på naturliga experiment, se Rosenzweig and Wolpin (2000) (ekonomi) eller Sekhon and Titiunik (2012) (statsvetenskap). Deaton (2010) och Heckman and Urzúa (2010) hävdar att fokusering på naturliga experiment kan leda forskare att fokusera på att bedöma oväsentliga orsakseffekter. Imbens (2010) räknar dessa argument med en mer optimistisk syn på värdet av naturliga experiment.
När man beskriver hur en forskare kunde gå från att uppskatta effekten av att bli utarbetad för att fungera, beskrev jag en teknik som kallas instrumentella variabler . Imbens and Rubin (2015) , i sina kapitel 23 och 24, ger en introduktion och använder utkastet till lotteri som ett exempel. Effekten av militärtjänst på komplikatorer kallas ibland den genomsnittliga kausala effekten (CAcE) och ibland den lokala genomsnittliga behandlingseffekten (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) och Bollen (2012) erbjuder översyn av användningen av instrumentella variabler inom statsvetenskap, ekonomi och sociologi. Sovey and Green (2011) ger en läsarens checklista för utvärdera studier med hjälp av instrumentvariabler.
Det visar sig att utkastet till lotteriet från 1970 inte var riktigt slumpmässigt. Det var små avvikelser från ren slumpmässighet (Fienberg 1971) . Berinsky and Chatfield (2015) hävdar att denna lilla avvikelse inte är väsentligt viktig och diskutera vikten av ordentligt genomförd randomisering.
När det gäller matchning, se Stuart (2010) för en optimistisk översyn, och Sekhon (2009) för en pessimistisk granskning. För mer om matchning som ett slags beskärning, se Ho et al. (2007) . Att hitta en enda perfekt match för varje person är ofta svårt, och det här introducerar ett antal komplexiteter. För det första, när exakta matchningar inte är tillgängliga, måste forskare bestämma hur man mäter avståndet mellan två enheter och om ett visst avstånd är tillräckligt nära varandra. En andra komplexitet uppstår om forskare vill använda flera matchningar för varje fall i behandlingsgruppen, eftersom detta kan leda till mer exakta uppskattningar. Båda dessa frågor, liksom andra, beskrivs i detalj i kapitel 18 i Imbens and Rubin (2015) . Se även del II av ( ??? ) .
Se Dehejia and Wahba (1999) för ett exempel där matchande metoder kunde producera uppskattningar som liknar dem från ett randomiserat kontrollerat experiment. Men se Arceneaux, Gerber, and Green (2006) och Arceneaux, Gerber, and Green (2010) för exempel där matchande metoder misslyckades med att reproducera ett experimentellt riktmärke.
Rosenbaum (2015) och Hernán and Robins (2016) erbjuder andra råd för att upptäcka användbara jämförelser inom stora datakällor.