2.3.2.6 Dirty

Store datakilder kan være lastet med søppel og spam.

Noen forskere mener at store datakilder, særlig de fra elektroniske kilder, er perfekt fordi de samles automatisk. Faktisk, folk som har jobbet med store datakilder vet at de er ofte skitne. Det vil si at de inneholder ofte data som ikke gjenspeiler virkelige handlinger av interesse for forskere. Mange samfunnsvitere er allerede kjent med prosessen med å rense store sosiale undersøkelsen data, men rengjøring av store datakilder er vanskeligere for to grunner: 1) de ikke ble skapt av forskere for forskere og 2) forskere generelt har mindre forståelse for hvordan de ble opprettet.

Farene ved skitne digital spordata er illustrert av Back og kollegaer (2010) studie av emosjonell respons til angrepene 11. september 2001. Forskere vanligvis studere responsen til tragiske hendelser ved hjelp av retrospektive data samlet inn over måneder eller år. Men, Back og kolleger fant en alltid-på kilden til digital spor-the timestamped, automatisk innspilte meldinger fra 85.000 amerikanske søkere-og dette aktivert forskerne å studere følelsesmessig reaksjon på en mye finere tidsskala. Tilbake og kolleger skapt et minutt-for-minutt emosjonelle tidslinje 11. september ved koding det emosjonelle innholdet i personsøkermeldinger etter andelen av ord knyttet til (1) tristhet (f.eks, gråt, sorg), (2) angst (for eksempel bekymret, engstelig), og (3) sinne (f.eks, hat, kritisk). De fant at tristhet og angst svingt utover dagen uten en sterk mønster, men at det var en slående økning i sinne i løpet av dagen. Denne forskningen ser ut til å være en flott illustrasjon av kraften av alltid-på datakilder: ved hjelp av standardmetoder det ville være umulig å ha en så høy oppløsning tidslinje av den umiddelbare reaksjon på en uventet hendelse.

Bare ett år senere, men Cynthia Pury (2011) sett på data mer nøye. Hun oppdaget at et stort antall av de tilsynelatende sinte meldingene ble generert av en enkelt personsøker, og de var alle identiske. Her er hva de tilsynelatende sinte meldinger sa:

"Reboot NT maskin [navn] i skapet [name] på [sted]: KRITISK: [dato og klokkeslett]"

Disse meldingene ble merket sinte fordi de inkluderte ordet "kritisk", som kan vanligvis indikere sinne, men ikke i dette tilfellet. Fjerne meldinger generert av denne ene automatiserte personsøker eliminerer den tilsynelatende økningen i sinne i løpet av dagen (figur 2.2). Med andre ord, det viktigste resultatet i Back, Küfner, and Egloff (2010) var en gjenstand av en personsøker. Som dette eksemplet viser, forholdsvis enkel analyse av forholdsvis kompliserte og rotete data har potensial til å gå alvorlig feil.

Figur 2.2: Estimert trender i sinne i løpet av den 11 september 2001 basert på 85.000 amerikanske personsøkere (Back, Küfner, og Egloff 2010, Pury 2011, Back, Küfner, og Egloff 2011). Opprinnelig Back, Küfner, og Egloff (2010) rapporterte et mønster av økende sinne i løpet av dagen. Men de fleste av disse tilsynelatende sinte meldinger som ble generert av en enkelt personsøker som gjentatte ganger sendt ut følgende melding: Reboot NT maskin [navn] i skapet [name] på [sted]: KRITISK: [dato og klokkeslett]. Med denne meldingen fjernet, den tilsynelatende økningen i sinne forsvinner (Pury 2011; Back, Küfner, og Egloff 2011). Dette tallet er en reproduksjon av figur 1B i Pury (2011).

Figur 2.2: Estimert trender i sinne i løpet av den 11 september 2001 basert på 85.000 amerikanske personsøkere (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Opprinnelig Back, Küfner, and Egloff (2010) rapporterte et mønster av økende sinne i løpet av dagen. Men de fleste av disse tilsynelatende sinte meldinger som ble generert av en enkelt personsøker som gjentatte ganger sendt ut følgende melding: "Reboot NT maskin [navn] i skapet [name] på [sted]: KRITISK: [dato og klokkeslett]". Med denne meldingen fjernet, den tilsynelatende økningen i sinne forsvinner (Pury 2011; Back, Küfner, and Egloff 2011) . Dette tallet er en reproduksjon av figur 1B i Pury (2011) .

Mens skitne data som er opprettet utilsiktet, for eksempel fra en støyende personsøker-kan oppdages ved en rimelig forsiktig forsker, er det også noen elektroniske systemer som tiltrekker tilsiktet spammere. Disse spammere aktivt generere falske data og-ofte motivert av profitt-jobber veldig hardt for å holde sine spamming skjult. For eksempel, politisk aktivitet på Twitter ser ut til å inneholde minst noen rimelig sofistikert spam, der noen politiske årsaker er bevisst gjort for å se mer populær enn de faktiske er (Ratkiewicz et al. 2011) . Forskere som arbeider med data som kan inneholde tilsiktet spam står overfor utfordringen med å overbevise sitt publikum om at de har oppdaget og fjernet relevant spam.

Til slutt, hva som anses skitne data kan stole på subtile måter på dine problemstillinger. For eksempel er mange endringer til Wikipedia skapt av automatiserte roboter (Geiger 2014) . Hvis du er interessert i økologi av Wikipedia, da disse botene er viktig. Men, hvis du er interessert i hvordan mennesker bidra til Wikipedia, disse endringene gjort av disse botene skal utelukkes.

De beste måtene å unngå å bli lurt av skitne data er å forstå hvordan dataene ble opprettet for å utføre enkle undersøkende analyse, som for eksempel å gjøre enkle spredningsplott.