Detta avsnitt är utformat för att användas som en referens, i stället för att läsas som en berättelse.
En typ av observera som inte ingår i det här kapitlet är etnografi. För mer information om etnografi i digitala utrymmen se Boellstorff et al. (2012) , och för mer information om etnografi i blandade digitala och fysiska utrymmen se Lane (2016) .
När du återanvända data finns två mentala knep som kan hjälpa dig att förstå de eventuella problem som kan uppstå. Först kan du försöka föreställa sig den ideala dataset för ditt problem och jämföra det med datamängden som du använder. Hur är de lika och hur är de olika? Om du inte samla data själv, finns det sannolikt att vara skillnaden mellan vad du vill och vad du har. Men, måste du bestämma om dessa skillnader är mindre eller större.
För det andra, kom ihåg att någon skapat och samlat data av någon anledning. Du bör försöka att förstå deras resonemang. Denna typ av reverse-engineering kan hjälpa dig att identifiera eventuella problem och fördomar i din repurposed data.
Det finns ingen enskild konsensus definition av "big data", men många definitioner verkar fokusera på tre Vs: (t.ex. volym, variation och hastighet Japec et al. (2015) ). Snarare än att fokusera på egenskaperna hos data, fokuserar min definition mer om varför data skapades.
Min införande av statliga administrativa data i kategorin stora uppgifter är lite ovanligt. Andra som har gjort det här fallet, inkluderar Legewie (2015) , Connelly et al. (2016) , och Einav and Levin (2014) . För mer om värdet av statliga administrativa uppgifter för forskning, se Card et al. (2010) , Taskforce (2012) , och Grusky, Smeeding, and Snipp (2015) .
För en bild av administrativ forskning inifrån regeringen statistiksystemet, i synnerhet US Census Bureau, se Jarmin and O'Hara (2016) . För en bok längd behandling av administrativa register forskning vid SCB, se Wallgren and Wallgren (2007) .
I kapitlet, jag kort jämfört en traditionell undersökning såsom General Social Survey (GSS) till en sociala medier datakälla såsom Twitter. För en grundlig och noggrann jämförelse mellan traditionella undersökningar och sociala mediedata, se Schober et al. (2016) .
Dessa 10 egenskaper big data har beskrivits i en mängd olika sätt med en mängd olika författare. Skrift som påverkat mina tankar i dessa frågor är: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , och Goldstone and Lupyan (2016) .
I det här kapitlet, har jag använt begreppet digitala spår, som jag tycker är relativt neutral. En annan populär term för digitala spår är digitala fotspår (Golder and Macy 2014) , men som Hal Abelson, Ken Ledeen, och Harry Lewis (2008) påpekar, är en lämpligare term sannolikt digitala fingeravtryck. När du skapar fotspår, du är medveten om vad som händer och dina fotspår kan i allmänhet inte spåras till dig personligen. Detsamma är inte sant för dina digitala spår. I själva verket är du lämna spår hela tiden som ni har väldigt lite kunskap. Och även om dessa spår inte har ditt namn på dem, de kan ofta kopplas tillbaka till dig. Med andra ord, de är mer som fingeravtryck: osynlig och personligen identifiera.
Stor
För mer information om varför stora datamängder, göra statistiska tester problematisk, se Lin, Lucas, and Shmueli (2013) och McFarland and McFarland (2015) . Dessa frågor bör leda forskare att fokusera på praktisk betydelse snarare än statistisk signifikans.
Alltid på
När man överväger alltid-på data, är det viktigt att överväga om du jämför exakt samma personer över tid eller om du jämför några förändrade grupp människor; se till exempel, Diaz et al. (2016) .
Icke reaktiva
En klassisk bok om icke-reaktiva åtgärder är Webb et al. (1966) . Exemplen i boken antedatera den digitala tidsåldern, men de är fortfarande lysande. För exempel på människor ändra sitt beteende på grund av förekomsten av massövervakning, se Penney (2016) och Brayne (2014) .
Ofullständig
För mer information om rekord koppling, se Dunn (1946) och Fellegi and Sunter (1969) (historical) och Larsen and Winkler (2014) (modern). Liknande närmade har också utvecklats i datavetenskap under namnen såsom data deduplication, exempelvis identifiering, namn matchning, duplicera upptäckt, och duplicera rekord upptäckt (Elmagarmid, Ipeirotis, and Verykios 2007) . Det finns också privatliv bevara metoder för att spela in koppling som inte kräver överföring av personlig information (Schnell 2013) . Facebook har också utvecklat en fortsätt att länka sina register för att röstningsbeteende; Detta gjordes för att utvärdera ett experiment som jag ska berätta om i kapitel 4 (Bond et al. 2012; Jones et al. 2013) .
För mer information om konstruktionen giltighet, se Shadish, Cook, and Campbell (2001) , kapitel 3.
Otillgänglig
För mer information om AOL sökloggen debacle, se Ohm (2010) . Jag ge råd om att samarbeta med företag och regeringar i kapitel 4 när jag beskriver experiment. Ett antal författare har uttryckt oro över forskning som bygger på otillgängliga data, se Huberman (2012) och boyd and Crawford (2012) .
Ett bra sätt för universitetsforskare att förvärva dataåtkomst är att arbeta på ett företag som praktikant eller gästforskare. Förutom att aktivera dataåtkomst, kommer denna process också hjälpa forskare lära sig mer om hur data skapades, vilket är viktigt för analys.
Icke-representativt
Icke-representativitet är ett stort problem för forskare och myndigheter som vill göra påståenden om en hel population. Detta är mindre oro för företag som normalt är inriktade på sina användare. För mer information om hur statistik Nederländerna anser att frågan om icke-representativa affärs big data, se Buelens et al. (2014) .
I kapitel 3, ska jag beskriva provtagning och uppskattning i mycket större detalj. Även om uppgifterna är icke-representativa, under vissa förutsättningar, kan de vägas för att producera bra uppskattningar.
drifting
System drift är mycket svårt att se från utsidan. Däremot har projektet MovieLens (diskuteras mer i kapitel 4) körts i mer än 15 år av en akademisk forskargrupp. Därför har de dokumenterat och delad information om det sätt som systemet har utvecklats över tiden och hur detta kan påverka analys (Harper and Konstan 2015) .
Ett antal forskare har fokuserat på drift i Twitter: Liu, Kliman-Silver, and Mislove (2014) och Tufekci (2014) .
algoritm förväxlas
Jag först hörde begreppet "algoritm förväxlas" som används av Jon Kleinberg i ett tal. Huvudtanken bakom performativitet är att vissa teorier samhällsvetenskapliga är "motorer inte kameror" (Mackenzie 2008) . Det vill säga, de faktiskt forma världen snarare än bara fånga den.
Smutsig
Statliga statistikbyråer samtalsdata rengöring, statistiska uppgifter redigering. De Waal, Puts, and Daas (2014) beskriver statistiska uppgifter redigering tekniker som utvecklats för mätdata och undersöka i vilken utsträckning de är tillämpliga på stora datakällor, och Puts, Daas, and Waal (2015) presenterar några av samma idéer för en mer allmän publik.
För några exempel på studier fokuserade på skräppost i Twitter, Clark et al. (2016) och Chu et al. (2012) . Slutligen Subrahmanian et al. (2016) beskriver resultaten av DARPA Twitter Bot Challenge.
Känslig
Ohm (2015) recensioner tidigare forskning på idén av känslig information och erbjuder en multifaktortestet. De fyra faktorer som han föreslår är: sannolikheten för skada; sannolikheten för skada; Närvaron av ett förtroendeförhållande; och om risken spegla majoritets oro.
Farber studie av taxibilar i New York grundades på en tidigare studie av Camerer et al. (1997) som använde tre olika bekvämlighet prover av pappers resa ark-pappersblanketter som används av förare för att registrera resa starttid, sluttid, och pris. Denna tidigare studie visade att förarna verkade vara mål arbetare: de arbetade mindre på dagar där deras löner var högre.
Kossinets and Watts (2009) var inriktad på ursprunget till homophily i sociala nätverk. Se Wimmer and Lewis (2010) för en annan inställning till samma problem som använder data från Facebook.
I det fortsatta arbetet har kung och kollegor utforskas ytterligare nätet censur i Kina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . För en relaterad metod för att mäta nätet censur i Kina, se Bamman, O'Connor, and Smith (2012) . För mer information om statistiska metoder som den som används i King, Pan, and Roberts (2013) för att uppskatta känslan av de 11 miljoner inlägg, se Hopkins and King (2010) . För mer information om övervakad inlärning, se James et al. (2013) (mindre tekniskt) och Hastie, Tibshirani, and Friedman (2009) (mer teknisk).
Forecasting är en stor del av industriuppgifter vetenskap (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . En typ av prognoser som vanligtvis görs av sociala forskare är demografiska prognoser, till exempel Raftery et al. (2012) .
Google Flu Trends var inte det första projektet att använda sökdata att NowCast prevalens influensa. I själva verket, forskare i USA (Polgreen et al. 2008; Ginsberg et al. 2009) och Sverige (Hulth, Rydevik, and Linde 2009) har funnit att vissa söktermer (t.ex. "influensa") förutspådde nationell övervakning av folkhälsan data innan det släpptes. Därefter många, många andra projekt har försökt att använda digitala spårdata för sjukdomsövervakning upptäckt, se Althouse et al. (2015) för en översikt.
Förutom att använda digitala spårdata för att förutsäga hälsoresultat, har det också varit en enorm mängd arbete med Twitter uppgifter för att förutsäga valresultatet; för översikter se Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kap. 7), och Huberty (2015) .
Använda sökdata till att förutsäga förekomsten influensa och använder Twitter data för att förutsäga val är båda exempel på att använda någon form av digital spår att förutse någon form av händelse i världen. Det ett enormt antal studier som har denna allmänna struktur. Tabell 2.5 innehåller några andra exempel.
digitalt spår | Resultat | Citat |
---|---|---|
Box office inkomster filmer i USA | Asur and Huberman (2010) | |
sökloggar | Försäljningen av filmer, musik, böcker och videospel i USA | Goel et al. (2010) |
Dow Jones Industrial Average (amerikanska aktiemarknaden) | Bollen, Mao, and Zeng (2011) |
Tidskriften PS statsvetenskap hade ett symposium om stora datamängder, orsaks slutledning, och formell teori, och Clark and Golder (2015) sammanfattar varje bidrag. Journal Proceedings of the National Academy of Sciences hade ett symposium om orsaks slutledning och stora uppgifter, och Shiffrin (2016) sammanfattar varje bidrag.
När det gäller naturliga experiment, Dunning (2012) ger en utmärkt behandling bok längd. För mer information om att använda Vietnam utkast lotteri som ett naturligt experiment, se Berinsky and Chatfield (2015) . För maskininlärning metoder som försöker att automatiskt upptäcka naturliga experiment inne i stora datakällor, se Jensen et al. (2008) och Sharma, Hofman, and Watts (2015) .
I termer av matchning, för en optimistisk översikt se Stuart (2010) , och för en pessimistisk översikt se Sekhon (2009) . För mer information om matchning som ett slags beskärning, se Ho et al. (2007) . För böcker som ger utmärkta behandlingar matchnings, se Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , och Imbens and Rubin (2015) .