Stora datakällor kan laddas med skräp och spam.
Vissa forskare tror att stora datakällor, särskilt onlinekällor, är orörda eftersom de samlas automatiskt. Faktum är att personer som har arbetat med stora datakällor vet att de ofta är smutsiga . Det innebär att de ofta innehåller data som inte speglar verkliga åtgärder av intresse för forskare. De flesta samhällsforskare är redan bekanta med processen att städa storskaliga sociala undersökningsdata, men rengöring av stora datakällor verkar vara svårare. Jag tror att den ultimata källan till denna svårighet är att många av dessa stora datakällor aldrig var avsedda att användas för forskning, så att de inte samlas in, lagras och dokumenteras på ett sätt som underlättar dataskydd.
Farorna med smutsiga digitala spårdata illustreras av Back och kollegas (2010) studie av det emotionella svaret på attackerna den 11 september 2001, som jag kort sagt nämnde tidigare i kapitlet. Forskare studerar vanligtvis svaret på tragiska händelser med hjälp av retrospektiv data som samlats in över månader eller till och med år. Men Back och kollegor hittade en kontinuerlig källa till digitala spår - de tidsbestämda, automatiskt inspelade meddelandena från 85.000 amerikanska personsökare - och det gjorde det möjligt för dem att studera emotionellt svar på en mycket finare tidsskala. De skapade en minut för minut emotionell tidslinje den 11 september genom att koda känslomässiga innehållet i personsökarens meddelanden med andelen ord relaterade till (1) sorgsenhet (t.ex. "gråt" och "sorg"), (2) ångest ( till exempel "orolig" och "rädd") och (3) ilska (t ex "hat" och "kritisk"). De fann att sorg och ångest svängde hela dagen utan ett starkt mönster, men att det var en slående ökning av ilska under hela dagen. Den här undersökningen verkar vara en underbar illustration av kraften hos alltid-på datakällor: om traditionella datakällor hade använts hade det varit omöjligt att få en sådan högupplösningstidslinje för det omedelbara svaret på en oväntad händelse.
Bara ett år senare tittade Cynthia Pury (2011) noggrant på dataen. Hon upptäckte att ett stort antal av de förmodligen arga meddelandena genererades av en enda personsökare och de var alla identiska. Här är vad de förmodligen arga meddelandena sa:
"Omstart NT maskin [namn] i skåp [namn] på [plats]: Kritisk: [datum och tid]"
Dessa meddelanden var märkta arg eftersom de innehöll ordet "CRITICAL", vilket i allmänhet kan indikera ilska men i det här fallet inte. Att ta bort meddelanden som genereras av den här automatiserade personsökaren eliminerar helt den uppenbara ökningen av ilska under dagen (figur 2.4). Med andra ord var huvudresultatet i Back, Küfner, and Egloff (2010) en artefakt av en personsökare. Som det här exemplet illustrerar, har relativt enkel analys av relativt komplexa och röriga data potential att gå allvarligt fel.
Medan smutsiga data som skapats oavsiktligt - som det är från en högljudd personsökare - kan detekteras av en rimligt noggrann forskare, finns det också några onlinesystem som lockar avsiktliga spammare. Dessa spammare genererar faktiskt falska data, och-ofta motiverade av vinstarbete mycket svårt att hålla deras spamming dolda. Den politiska aktiviteten på Twitter verkar till exempel innehålla åtminstone någon rimligt sofistikerad skräppost, där vissa politiska orsaker avsiktligt görs för att se mer populär ut än de faktiskt är (Ratkiewicz et al. 2011) . Tyvärr kan det vara ganska svårt att ta bort denna avsiktliga skräppost.
Naturligtvis kan vad som anses vara smutsiga uppgifter delvis bero på forskningsfrågan. Till exempel skapas många redigeringar av Wikipedia med automatiska bots (Geiger 2014) . Om du är intresserad av Wikipedias ekologi, är dessa bot-skapade ändringar viktiga. Men om du är intresserad av hur människor bidrar till Wikipedia, ska de bot-skapade ändringarna uteslutas.
Det finns ingen enskild statistisk teknik eller tillvägagångssätt som kan säkerställa att du har rengjort dina smutsiga data tillräckligt. I slutändan tycker jag att det bästa sättet att undvika att bli lurad av smutsiga data är att förstå så mycket som möjligt om hur dina data skapades.