Big datakilder kan belastes med junk og spam.
Nogle forskere mener, at store datakilder, især onlinekilder, er uberørte, fordi de indsamles automatisk. Faktisk kan folk, der har arbejdet med store datakilder, vide, at de ofte er beskidte . Det vil sige, at de ofte indeholder data, der ikke afspejler reelle aktioner af interesse for forskere. De fleste socialforskere er allerede bekendt med processen med rensning af store sociale undersøgelsesdata, men rengøring af store datakilder synes at være vanskeligere. Jeg synes, at den ultimative kilde til denne vanskelighed er, at mange af disse store datakilder aldrig var beregnet til at blive anvendt til forskning, og derfor bliver de ikke indsamlet, opbevaret og dokumenteret på en måde, der letter datarensning.
Farerne ved beskidte digitale spordata er illustreret af Back and colleagues ' (2010) undersøgelse af det emotionelle svar på angrebene den 11. september 2001, som jeg kort nævnt tidligere i kapitlet. Forskere studerer typisk svaret på tragiske hændelser ved hjælp af retrospektive data indsamlet i løbet af måneder eller endda år. Men tilbage og kolleger fandt en stadig kilde til digitale spor - de timestampede, automatisk indspillede meddelelser fra 85.000 amerikanske personsøgere - og det gjorde det muligt for dem at studere følelsesmæssigt respons på en meget finere tidsskala. De skabte en minut for minut følelsesmæssig tidslinje den 11. september ved at kodere det følelsesmæssige indhold af personsøgerne med procentdelen af ord relateret til (1) tristhed (fx "grædende" og "sorg"), (2) angst ( fx "bekymret" og "frygtelig") og (3) vrede (fx "had" og "kritisk"). De fandt, at sorg og angst svingede hele dagen uden et stærkt mønster, men at der var en slående stigning i vrede hele dagen. Denne forskning synes at være en vidunderlig illustration af kraften til altid-on-datakilder: Hvis der var brugt traditionelle datakilder, ville det være umuligt at opnå en sådan høj opløsningstidslinje for det øjeblikkelige svar på en uventet begivenhed.
Bare et år senere kiggede Cynthia Pury (2011) på dataene mere omhyggeligt. Hun opdagede, at et stort antal af de angiveligt vrede budskaber blev genereret af en enkelt personsøger, og de var alle identiske. Her er hvad de angiveligt vrede budskaber sagde:
"Reboot NT maskine [navn] i kabinet [navn] på [sted]: Kritisk: [dato og tid]"
Disse meddelelser blev mærket vred, fordi de indeholdt ordet "CRITICAL", som generelt kan angive vrede, men i dette tilfælde gør det ikke. Fjernelse af meddelelser, der genereres af denne enkelt automatiserede personsøger, eliminerer fuldstændigt den tilsyneladende stigning i vrede i løbet af dagen (figur 2.4). Med andre ord var hovedresultatet i Back, Küfner, and Egloff (2010) en artefakt af en personsøger. Som dette eksempel illustrerer, har relativt enkel analyse af relativt komplekse og rodet data potentialet til at gå alvorligt forkert.
Mens beskidte data, der er skabt utilsigtet - som f.eks. Fra en støjende personsøger - kan detekteres af en forholdsvis forsigtig forsker, er der også nogle online-systemer, der tiltrækker forsætlige spammere. Disse spammere genererer aktivt falske data, og de er ofte motiverede af profitarbejde meget svært at holde deres spamming skjult. For eksempel synes politisk aktivitet på Twitter at indeholde i det mindste nogle rimeligt sofistikerede spam, hvorved nogle politiske årsager forsætligt gøres til at se mere populære ud end de rent faktisk er (Ratkiewicz et al. 2011) . Desværre kan det være ret svært at fjerne denne forsætlige spam.
Det er selvfølgelig noget, der betragtes som beskidte data, der kan afhænge af forskningsspørgsmålet. For eksempel er mange redigeringer til Wikipedia oprettet af automatiserede bots (Geiger 2014) . Hvis du er interesseret i Wikipedias økologi, er disse bot-skabte redigeringer vigtige. Men hvis du er interesseret i, hvordan mennesker bidrager til Wikipedia, skal de bot-oprettede redigeringer udelukkes.
Der er ingen enkelt statistisk teknik eller tilgang, der kan sikre, at du har renset dine snavsede data tilstrækkeligt. Til sidst tror jeg, at den bedste måde at undgå at blive narret af beskidte data, er at forstå så meget som muligt om, hvordan dine data blev oprettet.