2.3.2.6 Dirty

Big datakilder kan belastes med junk og spam.

Nogle forskere mener, at store datakilder, især dem fra online-kilder, er uberørt fordi de indsamles automatisk. Faktisk folk, der har arbejdet med store datakilder ved, at de ofte beskidt. Det vil sige, de omfatter ofte oplysninger, der ikke afspejler reelle foranstaltninger af interesse for forskere. Mange samfundsforskere er allerede bekendt med processen med at rense storstilet social undersøgelse af data, men rengøring store datakilder er vanskeligere af to grunde: 1) de var ikke skabt af forskere for forskere og 2) forskere generelt har mindre forståelse af, hvordan de blev skabt.

Farerne ved beskidte digitale spor data er illustreret ved Back og kolleger « (2010) undersøgelse af den følelsesmæssige reaktion på angrebene den 11. september 2001. Forskere typisk studere reaktion på tragiske begivenheder ved hjælp retrospektive data indsamlet over måneder eller endda år. Men, tilbage og kolleger fandt en altid-on kilde til digitale spor-the tidsstemplet, automatisk optagede beskeder fra 85.000 amerikanske personsøgere-og dette gjorde det muligt for forskerne at studere følelsesmæssig reaktion på en meget finere tidshorisont. Tilbage og kolleger skabte et minut-for-minut følelsesmæssige tidslinje den 11. september ved kodning den følelsesmæssige indhold af pager meddelelser ved den procentdel af ord relateret til (1) sorg (fx gråd, sorg), (2) angst (f.eks bekymret, bange), og (3) vrede (f.eks, had, kritisk). De fandt, at tristhed og angst svingede hele dagen uden en stærk mønster, men at der var en slående stigning i vrede hele dagen. Denne forskning ser ud til at være en vidunderlig illustration af magt altid-på datakilder: ved hjælp af standard metoder, det ville være umuligt at have sådan en høj opløsning tidslinje for umiddelbar reaktion på en uventet begivenhed.

Blot et år senere, men Cynthia Pury (2011) så på de data, mere omhyggeligt. Hun opdagede, at en stor del af de angiveligt vrede meddelelser blev frembragt af en enkelt personsøger og de var alle identiske. Her er, hvad de angiveligt vrede beskeder sagde:

"Reboot NT maskine [navn] i kabinet [navn] på [sted]: Kritisk: [dato og tid]"

Disse meddelelser blev mærket vrede, fordi de indeholdt ordet "kritiske", som generelt kan indikere vrede, men ikke i dette tilfælde. Fjernelse af meddelelser, der genereres af denne fælles elektronisk pager helt fjerner den tilsyneladende stigning i vrede i løbet af dagen (Figur 2.2). Med andre ord, det vigtigste resultat på Back, Küfner, and Egloff (2010) var en artefakt af en personsøger. Som dette eksempel illustrerer forholdsvis enkel analyse af relativt komplekse og rodet data har potentiale til at gå alvorligt galt.

Figur 2.2: Anslået tendenser i vrede i løbet den 11. september 2001, hvori den 85.000 amerikanske personsøgere (Tilbage, Kufner, og Egloff 2010; Pury 2011; Back, Kufner, og Egloff 2011). Oprindeligt Tilbage, Kufner, og Egloff (2010) rapporterede et mønster af stigende vrede hele dagen. Men de fleste af disse åbenbare vrede budskaber blev genereret af en enkelt personsøger, der gentagne gange sendt ud følgende meddelelse: Reboot NT maskine [navn] i kabinet [navn] på [sted]: Kritisk: [dato og tid]. Med dette budskab fjernet, den tilsyneladende stigning i vrede forsvinder (Pury 2011; Back, Kufner, og Egloff 2011). Dette tal er en gengivelse af figur 1B i Pury (2011).

Figur 2.2: Anslået tendenser i vrede i løbet den 11. september 2001, hvori den 85.000 amerikanske personsøgere (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Oprindeligt Back, Küfner, and Egloff (2010) rapporterede et mønster af stigende vrede hele dagen. Men de fleste af disse åbenbare vrede budskaber blev genereret af en enkelt personsøger, der gentagne gange sendt ud følgende meddelelse: "Reboot NT maskine [navn] i kabinet [navn] på [sted]: Kritisk: [dato og tid]". Med dette budskab fjernet, den tilsyneladende stigning i vrede forsvinder (Pury 2011; Back, Küfner, and Egloff 2011) . Dette tal er en gengivelse af figur 1B i Pury (2011) .

Mens beskidte data, der skabes utilsigtet-såsom fra en støjende personsøger-kan påvises ved en rimelig omhyggelig forsker, der er også nogle online-systemer, der tiltrækker forsætlige spammere. Disse spammere genererer aktivt falske data, og-ofte motiveret af profit-arbejde meget hårdt for at holde deres spamming skjult. For eksempel, politisk aktivitet på Twitter synes at omfatte i det mindste nogle rimeligt avancerede spam, hvorved nogle politiske årsager er vilje er gjort til at se mere populære end de faktiske er (Ratkiewicz et al. 2011) . Forskere, der arbejder med data, der kan indeholde forsætlig spam står over for udfordringen at overbevise deres publikum, at de har opdaget og fjernet relevant spam.

Endelig hvad der anses for snavsede data kan stole på subtile måder på dine forskningsspørgsmål. For eksempel er mange redigeringer af Wikipedia skabt af automatiserede bots (Geiger 2014) . Hvis du er interesseret i økologi Wikipedia, så disse bots er vigtige. Men, hvis du er interesseret i, hvordan mennesker bidrager til Wikipedia, disse ændringer foretaget af disse bots bør udelukkes.

De bedste måder at undgå at blive snydt af beskidte data at forstå, hvordan dine data blev skabt for at udføre simple eksplorativ analyse, såsom at gøre simple scatter plots.