Big data bronnen kan worden geladen met rommel en spam.
Sommige onderzoekers geloven dat big data-bronnen, met name online bronnen, onberispelijk zijn omdat ze automatisch worden verzameld. In feite weten mensen die met big data hebben gewerkt dat ze vaak vies zijn . Dat wil zeggen dat ze vaak gegevens bevatten die geen afspiegeling zijn van echte acties die van belang zijn voor onderzoekers. De meeste sociale wetenschappers zijn al bekend met het proces van het opschonen van grootschalige gegevens uit sociale enquêtes, maar het schoonmaken van big data-bronnen lijkt moeilijker. Ik denk dat de ultieme bron van deze moeilijkheid is dat veel van deze big data-bronnen nooit bedoeld waren om te worden gebruikt voor onderzoek, en daarom worden ze niet verzameld, opgeslagen en gedocumenteerd op een manier die het opschonen van gegevens vergemakkelijkt.
De gevaren van vuile digitale traceergegevens worden geïllustreerd door Back en het onderzoek van collega's (2010) naar de emotionele reactie op de aanslagen van 11 september 2001, die ik eerder kort in het hoofdstuk heb genoemd. Onderzoekers bestuderen doorgaans de reactie op tragische gebeurtenissen met behulp van retrospectieve gegevens die gedurende maanden of zelfs jaren zijn verzameld. Maar Back en collega's vonden een altijd aanwezige bron van digitale sporen - de tijdgestempelde, automatisch opgenomen berichten van 85.000 Amerikaanse pagers - en dit stelde hen in staat om emotionele reacties te bestuderen op een veel fijner tijdschema. Ze creëerden een minuut-tot-minuut emotionele tijdlijn van 11 september door de emotionele inhoud van de pagerberichten te coderen met het percentage woorden gerelateerd aan (1) verdriet (bijv. "Huilen" en "verdriet"), (2) angstgevoelens ( bijvoorbeeld "bezorgd" en "angstig"), en (3) woede (bijv. "haat" en "kritiek"). Ze ontdekten dat verdriet en angst de hele dag fluctueerden zonder een sterk patroon, maar dat er gedurende de dag een opvallende toename van woede was. Dit onderzoek lijkt een prachtige illustratie te zijn van de kracht van altijd beschikbare gegevensbronnen: als traditionele gegevensbronnen zijn gebruikt, zou het onmogelijk zijn geweest om een dergelijke hoge resolutie-tijdlijn te krijgen van de onmiddellijke reactie op een onverwachte gebeurtenis.
Maar een jaar later keek Cynthia Pury (2011) de gegevens beter na. Ze ontdekte dat een groot aantal van de zogenaamd boze berichten werd gegenereerd door een enkele pieper en ze waren allemaal identiek. Hier is wat die zogenaamd boze berichten zeiden:
"Reboot NT machine [naam] in het kabinet [naam] te [plaats]: Kritiek: [Datum en tijd]"
Deze berichten werden als boos gemarkeerd omdat ze het woord "CRITICAL" bevatten, wat over het algemeen op woede kan duiden, maar in dit geval niet. Het verwijderen van de berichten gegenereerd door deze enkele automatische pager elimineert volledig de schijnbare toename van woede in de loop van de dag (figuur 2.4). Met andere woorden, het belangrijkste resultaat in Back, Küfner, and Egloff (2010) was een artefact van één pieper. Zoals dit voorbeeld illustreert, heeft relatief eenvoudige analyse van relatief complexe en rommelige gegevens het potentieel om serieus verkeerd te gaan.
Hoewel vuile gegevens die onopzettelijk zijn gemaakt, zoals die van een luidruchtige pieper, kunnen worden gedetecteerd door een redelijk zorgvuldige onderzoeker, zijn er ook enkele online systemen die opzettelijke spammers aantrekken. Deze spammers genereren actief valse gegevens en - vaak gemotiveerd door winst - werken heel hard om hun spamming verborgen te houden. Politieke activiteit op Twitter lijkt bijvoorbeeld op zijn minst enige redelijk geavanceerde spam te bevatten, waarbij sommige politieke oorzaken opzettelijk worden gemaakt om er populairder uit te zien dan ze in werkelijkheid zijn (Ratkiewicz et al. 2011) . Helaas kan het verwijderen van deze opzettelijke spam behoorlijk moeilijk zijn.
Uiteraard kunnen wat als vuile gegevens wordt beschouwd, gedeeltelijk afhankelijk zijn van de onderzoeksvraag. Veel bewerkingen op Wikipedia worden bijvoorbeeld gemaakt door geautomatiseerde bots (Geiger 2014) . Als je geïnteresseerd bent in de ecologie van Wikipedia, dan zijn deze door bot gemaakte bewerkingen belangrijk. Maar als je geïnteresseerd bent in hoe mensen bijdragen aan Wikipedia, dan moeten de door de gebruiker gemaakte bewerkingen worden uitgesloten.
Er is geen enkele statistische techniek of benadering die ervoor kan zorgen dat u uw vuile gegevens voldoende hebt opgeschoond. Uiteindelijk denk ik dat de beste manier om te voorkomen dat je voor de gek wordt gehouden door vuile gegevens, is om zoveel mogelijk te begrijpen hoe je gegevens zijn gemaakt.