Stora datakällor kan laddas med skräp och spam.
Vissa forskare tror att stora datakällor, särskilt de från källor på nätet, är orörda eftersom de samlas automatiskt. Faktum är att människor som har arbetat med stora datakällor vet att de är ofta smutsiga. Det vill säga, de innehåller ofta uppgifter som inte återspeglar verkliga åtgärder är av intresse för forskare. Många samhällsvetare är redan bekant med processen för rengöring storskalig social undersökning uppgifter, men rengöring stora datakällor är svårare för två skäl: 1) de inte har skapats av forskare för forskare och 2) forskare i allmänhet har mindre förståelse för hur de skapades.
Farorna med smutsiga digital spårdata illustreras av Tillbaka och kollegor " (2010) studie av känslomässig reaktion på attackerna den 11 september, 2001. Forskare studerar typiskt svar på tragiska händelser med retrospektiva data som samlats in under månader eller år. Men, tillbaka och kollegor fann en ständig källa till digital spår the tidsstämplade automatiskt inspelade meddelanden från 85.000 amerikanska personsökare-och detta gjorde det möjligt för forskare att studera känslomässig reaktion på en mycket finare tid. Tillbaka och kollegor skapade en minut-för-minut emotionella tidslinje den 11 september genom att koda det känslomässiga innehållet i personsökare meddelanden av andelen ord relaterade till (1) sorg (t.ex. gråt, sorg), (2) ångest (t.ex. orolig, rädd), och (3) ilska (t.ex. hat, kritisk). De fann att sorg och ångest fluktuerade under hela dagen utan en stark mönster, men att det fanns en slående ökning av ilska under hela dagen. Denna forskning verkar vara en underbar illustration av kraften i ständig datakällor: användning av standardmetoder det skulle vara omöjligt att ha en så hög upplösning tidslinje av den omedelbara svar på en oväntad händelse.
Bara ett år senare, dock Cynthia Pury (2011) tittat på data mer noggrant. Hon upptäckte att ett stort antal av de förment arg meddelanden genererades genom en enda personsökare och de var alla identiska. Här är vad de förment arga meddelanden sa:
"Omstart NT maskin [namn] i skåp [namn] på [plats]: Kritisk: [datum och tid]"
Dessa meddelanden märktes arg eftersom de ingår ordet "kritisk", som i allmänhet kan tyda på ilska, men inte i detta fall. Ta bort de meddelanden som genereras av denna enda automatiserad personsökare helt eliminerar den synbara ökningen i ilska under loppet av dagen (Figur 2.2). Med andra ord, det huvudsakliga resultatet i Back, Küfner, and Egloff (2010) var en artefakt av en personsökare. Som detta exempel visar, har relativt enkel analys av relativt komplexa och rörigt uppgifter potential att gå allvarligt fel.
Även smutsiga data som skapas oavsiktligt-till exempel från en bullriga personsökare-kan detekteras genom en någorlunda noggrann forskare, det finns också några online-system som lockar avsikt spammare. Dessa spammare aktivt genererar falska uppgifter och-ofta motiveras av vinst arbetar mycket hårt för att hålla spam dold. Till exempel, politisk aktivitet på Twitter verkar åtminstone en del tämligen sofistikerade spam, varigenom vissa politiska orsaker avsiktligt göras för att se mer populär än de faktiska är (Ratkiewicz et al. 2011) . Forskare som arbetar med data som kan innehålla avsikt spam står inför utmaningen att övertyga sin publik att de har upptäcks och tas bort relevant spam.
Slutligen, vad som anses smutsiga uppgifter kan bero på ett subtilt sätt på dina frågeställningar. Till exempel är många ändringar till Wikipedia skapad av automatiserade robotar (Geiger 2014) . Om du är intresserad av ekologi Wikipedia, då dessa robotar är viktiga. Men om du är intresserad av hur människor bidrar till Wikipedia, dessa ändringar som gjorts av dessa robotar bör uteslutas.
De bästa sätten att undvika att bli lurad av smutsiga data för att förstå hur data skapades för att utföra enkla undersökande analys, såsom att göra enkla scatter tomter.