2.3.2.6 Dirty

Big data bronnen kan worden geladen met rommel en spam.

Sommige onderzoekers geloven dat big data bronnen, met name uit online bronnen, zijn smetteloos omdat ze automatisch worden verzameld. In feite, mensen die hebben gewerkt met grote gegevensbronnen weten dat ze vaak vies. Dat wil zeggen, ze bevatten vaak gegevens die niet weerspiegelen echte acties van belang zijn voor onderzoekers. Veel sociale wetenschappers zijn al vertrouwd met het proces van het schoonmaken van grootschalige sociale survey data, maar het schoonmaken van big data bronnen wordt het moeilijker om twee redenen: 1) zij werden niet gemaakt door onderzoekers voor onderzoekers en 2) onderzoekers hebben over het algemeen minder begrip van hoe ze zijn gemaakt.

De gevaren van vuile digitale trace data worden geïllustreerd door Back en collega's (2010) studie van de emotionele reactie op de aanslagen van 11 september 2001. De onderzoekers meestal de reactie op de tragische gebeurtenissen met behulp van retrospectieve data verzameld gedurende maanden of zelfs jaren te bestuderen. Maar, Back en collega's vinden een always-on bron van digitale sporen-de tijdstempel, automatisch opgeslagen berichten van 85.000 Amerikaanse pagers-en dit konden de onderzoekers om emotionele reactie op een veel fijnere termijn te bestuderen. Back en collega's creëerde een minuut tot minuut emotionele tijdlijn van 11 september door het coderen van de emotionele inhoud van de pager berichten door het percentage woorden met betrekking tot (1) verdriet (bv, huilen, verdriet), (2) angst (bv bezorgd, angstig), en (3), woede (bijv, haat, kritisch). Zij vonden dat verdriet en angst fluctueerde gedurende de dag zonder sterke patroon, maar dat er een opmerkelijke toename in woede gedurende de dag. Dit onderzoek lijkt een prachtige illustratie van de kracht van de altijd ingeschakelde gegevensbronnen zijn: gebruik van standaard werkwijzen het niet mogelijk om een ​​dergelijke hoge-resolutie tijdlijn van de onmiddellijke reactie op een onverwachte gebeurtenis zou hebben.

Slechts een jaar later, echter, Cynthia Pury (2011) gekeken naar de gegevens zorgvuldiger. Ze ontdekten dat een groot aantal van de zogenaamd boos boodschappen werden gegenereerd door een pager en ze waren identiek. Hier is wat die zogenaamd boos berichten zei:

"Reboot NT machine [naam] in het kabinet [naam] te [plaats]: Kritiek: [Datum en tijd]"

Deze berichten werden gemerkt boos omdat ze het woord "kritiek", die over het algemeen woede kunnen wijzen, maar niet in dit geval opgenomen. de berichten die door deze enkele geautomatiseerde pager verwijderen elimineert deze toename in woede de loop van de dag (figuur 2,2). Met andere woorden, het belangrijkste resultaat Back, Küfner, and Egloff (2010) was een artefact van een pager. Zoals dit voorbeeld illustreert, relatief eenvoudige analyse van relatief complexe en rommelige data heeft het potentieel ernstig mis te gaan.

Figuur 2.2: Geschatte trends in woede over de loop van 11 september 2001 op basis van 85.000 Amerikaanse pagers (Back, Küfner en Egloff 2010; Pury 2011; Back, Küfner en Egloff 2011). Oorspronkelijk Back, Küfner en Egloff (2010) rapporteerde een patroon van toenemende woede gedurende de dag. Echter, de meeste van deze schijnbare boze berichten werden gegenereerd door een enkele pager die herhaaldelijk stuurde het volgende bericht: Reboot NT machine [naam] in het kabinet [naam] te [plaats]: Kritiek: [Datum en tijd]. Met dit bericht verwijderd, de schijnbare toename in woede verdwijnt (Pury 2011; Back, Küfner en Egloff 2011). Deze figuur is een weergave van figuur 1B Pury (2011).

Figuur 2.2: Geschatte trends in woede over de loop van 11 september 2001 op basis van 85.000 Amerikaanse pagers (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Oorspronkelijk Back, Küfner, and Egloff (2010) rapporteerde een patroon van toenemende woede gedurende de dag. Echter, de meeste van deze schijnbare boze berichten werden gegenereerd door een enkele pager die herhaaldelijk stuurde het volgende bericht: "Reboot NT machine [naam] in het kabinet [naam] te [plaats]: Kritiek: [Datum en tijd]". Met dit bericht verwijderd, de schijnbare toename in woede verdwijnt (Pury 2011; Back, Küfner, and Egloff 2011) . Deze figuur is een weergave van figuur 1B Pury (2011) .

Terwijl verkeerde gegevens die gecreëerd onbedoeld-zoals van een luidruchtige pager-kan langs een redelijk zorgvuldig onderzoeker worden gedetecteerd, zijn er ook een aantal online systemen die opzettelijke spammers trekken. Deze spammers actief genereren van valse gegevens, en vaak ingegeven door winstbejag-werken heel hard om hun spam verborgen. Bijvoorbeeld, politieke activiteit op Twitter lijkt tenminste enige redelijk geavanceerde spam, waarbij bepaalde politieke oorzaken opzet gemaakt populairder dan daadwerkelijk moeten kijken omvatten (Ratkiewicz et al. 2011) . Onderzoekers werken met gegevens die opzettelijk spam kan bevatten voor de uitdaging van het overtuigen van hun publiek dat ze hebben ontdekt en verwijderd relevante spam.

Tot slot, wat wordt beschouwd als vuil data kunt vertrouwen op een subtiele manier op uw onderzoeksvragen. Bijvoorbeeld, zijn veel wijzigingen in Wikipedia door geautomatiseerde bots (Geiger 2014) . Bent u geïnteresseerd in de ecologie van Wikipedia zijn, dan zijn deze bots zijn belangrijk. Maar, als je geïnteresseerd bent in hoe mensen bijdragen aan Wikipedia zijn, deze bewerkingen gemaakt door deze bots moet worden uitgesloten.

De beste manieren om te voorkomen dat voor de gek gehouden door vuile gegevens om te begrijpen hoe uw gegevens zijn gemaakt om eenvoudige verkennende analyse uit te voeren, zoals het maken van eenvoudige scatter plots.