2.3.2.6 Smutsig

Stora datakällor kan laddas med skräp och spam.

Vissa forskare tror att stora datakällor, särskilt de från källor på nätet, är orörda eftersom de samlas automatiskt. Faktum är att människor som har arbetat med stora datakällor vet att de är ofta smutsiga. Det vill säga, de innehåller ofta uppgifter som inte återspeglar verkliga åtgärder är av intresse för forskare. Många samhällsvetare är redan bekant med processen för rengöring storskalig social undersökning uppgifter, men rengöring stora datakällor är svårare för två skäl: 1) de inte har skapats av forskare för forskare och 2) forskare i allmänhet har mindre förståelse för hur de skapades.

Farorna med smutsiga digital spårdata illustreras av Tillbaka och kollegor " (2010) studie av känslomässig reaktion på attackerna den 11 september, 2001. Forskare studerar typiskt svar på tragiska händelser med retrospektiva data som samlats in under månader eller år. Men, tillbaka och kollegor fann en ständig källa till digital spår the tidsstämplade automatiskt inspelade meddelanden från 85.000 amerikanska personsökare-och detta gjorde det möjligt för forskare att studera känslomässig reaktion på en mycket finare tid. Tillbaka och kollegor skapade en minut-för-minut emotionella tidslinje den 11 september genom att koda det känslomässiga innehållet i personsökare meddelanden av andelen ord relaterade till (1) sorg (t.ex. gråt, sorg), (2) ångest (t.ex. orolig, rädd), och (3) ilska (t.ex. hat, kritisk). De fann att sorg och ångest fluktuerade under hela dagen utan en stark mönster, men att det fanns en slående ökning av ilska under hela dagen. Denna forskning verkar vara en underbar illustration av kraften i ständig datakällor: användning av standardmetoder det skulle vara omöjligt att ha en så hög upplösning tidslinje av den omedelbara svar på en oväntad händelse.

Bara ett år senare, dock Cynthia Pury (2011) tittat på data mer noggrant. Hon upptäckte att ett stort antal av de förment arg meddelanden genererades genom en enda personsökare och de var alla identiska. Här är vad de förment arga meddelanden sa:

"Omstart NT maskin [namn] i skåp [namn] på [plats]: Kritisk: [datum och tid]"

Dessa meddelanden märktes arg eftersom de ingår ordet "kritisk", som i allmänhet kan tyda på ilska, men inte i detta fall. Ta bort de meddelanden som genereras av denna enda automatiserad personsökare helt eliminerar den synbara ökningen i ilska under loppet av dagen (Figur 2.2). Med andra ord, det huvudsakliga resultatet i Back, Küfner, and Egloff (2010) var en artefakt av en personsökare. Som detta exempel visar, har relativt enkel analys av relativt komplexa och rörigt uppgifter potential att gå allvarligt fel.

Figur 2.2: Beräknade trender i ilska under loppet av September 11, 2001 baserat på 85.000 amerikanska personsökare (Back, Küfner och Egloff 2010, Pury 2011, Back, Küfner och Egloff 2011). Ursprungligen, Back, Küfner och Egloff (2010) rapporterade ett mönster av ökande ilska under dagen. Men de flesta av dessa uppenbara arga meddelanden som genereras av en enda personsökare som upprepade gånger skickas ut följande meddelande: Starta NT maskin [namn] i skåp [namn] på [plats]: Kritisk: [datum och tid]. Med detta meddelandet bort, försvinner den skenbara ökningen av ilska (Pury 2011, Back, Küfner och Egloff 2011). Denna figur är en reproduktion av figur 1B i Pury (2011).

Figur 2.2: Beräknade trender i ilska under loppet av September 11, 2001 baserat på 85.000 amerikanska personsökare (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Ursprungligen, Back, Küfner, and Egloff (2010) rapporterade ett mönster av ökande ilska under dagen. Men de flesta av dessa uppenbara arga meddelanden som genereras av en enda personsökare som upprepade gånger skickas ut följande meddelande: "Reboot NT maskin [namn] i skåp [namn] på [plats]: Kritisk: [datum och tid]". Med detta meddelandet bort, försvinner den skenbara ökningen av ilska (Pury 2011; Back, Küfner, and Egloff 2011) . Denna figur är en reproduktion av figur 1B i Pury (2011) .

Även smutsiga data som skapas oavsiktligt-till exempel från en bullriga personsökare-kan detekteras genom en någorlunda noggrann forskare, det finns också några online-system som lockar avsikt spammare. Dessa spammare aktivt genererar falska uppgifter och-ofta motiveras av vinst arbetar mycket hårt för att hålla spam dold. Till exempel, politisk aktivitet på Twitter verkar åtminstone en del tämligen sofistikerade spam, varigenom vissa politiska orsaker avsiktligt göras för att se mer populär än de faktiska är (Ratkiewicz et al. 2011) . Forskare som arbetar med data som kan innehålla avsikt spam står inför utmaningen att övertyga sin publik att de har upptäcks och tas bort relevant spam.

Slutligen, vad som anses smutsiga uppgifter kan bero på ett subtilt sätt på dina frågeställningar. Till exempel är många ändringar till Wikipedia skapad av automatiserade robotar (Geiger 2014) . Om du är intresserad av ekologi Wikipedia, då dessa robotar är viktiga. Men om du är intresserad av hur människor bidrar till Wikipedia, dessa ändringar som gjorts av dessa robotar bör uteslutas.

De bästa sätten att undvika att bli lurad av smutsiga data för att förstå hur data skapades för att utföra enkla undersökande analys, såsom att göra enkla scatter tomter.