2.3.2.6 Schmutzige

Große Datenquellen können mit Junk - und Spam geladen werden.

Einige Forscher glauben, dass große Datenquellen, vor allem diejenigen, die aus Online-Quellen, unberührte sind, weil sie automatisch gesammelt werden. In der Tat, Menschen , die mit großen Datenquellen gearbeitet haben , wissen , dass sie häufig verschmutzt sind. Das heißt, sie häufig Daten enthalten, die nicht wirklich von Maßnahmen im Interesse der Forscher reflektieren sie. Viele Sozialwissenschaftler sind bereits mit dem Prozess vertraut großen sozialen Umfragedaten der Reinigung, aber große Datenquellen Reinigung wird dadurch erschwert, aus zwei Gründen: 1) sie wurden von den Forschern für Forscher nicht erstellt, und 2) Forscher im Allgemeinen weniger Verständnis haben, wie sie erstellt wurden.

Die Gefahren der schmutzigen digitalen Trace - Daten dargestellt sind von Back und Kollegen (2010) mit retrospektiven Daten gesammelt über Monate oder sogar Jahre Studium der emotionalen Reaktion auf die Anschläge vom 11. September 2001. Die Forscher der Regel die Antwort auf tragische Ereignisse studieren. Aber zurück und Kollegen fanden eine Always-On-Quelle digitaler Spuren-the timestamped, automatisch aufgezeichneten Nachrichten von 85.000 amerikanischen Pagern-und diese konnten die Forscher emotionale Reaktion auf eine viel feinere Zeitplan zu studieren. Zurück und Kollegen erstellt eine von Minute zu Minute emotionale Zeitleiste des 11. September durch Codieren der emotionalen Inhalt der Pager-Nachrichten durch den Prozentsatz der Wörter im Zusammenhang mit (1) Traurigkeit (zB Weinen, Trauer), (2) Angst (zB besorgt, ängstlich), und (3) Zorn (zB Hass, kritisch). Sie fanden heraus, dass Traurigkeit und Angst den ganzen Tag schwankte ohne eine starke Muster, aber dass es eine auffällige Zunahme der Wut im Laufe des Tages. Diese Forschung scheint eine wunderbare Darstellung der Macht der Always-On-Datenquellen zu sein: Standardverfahren es unmöglich wäre, eine solche hochauflösenden Zeitleiste der unmittelbare Reaktion auf ein unerwartetes Ereignis zu haben.

Nur ein Jahr später jedoch Cynthia Pury (2011) sah sich die Daten genauer. Sie entdeckt, dass eine große Anzahl der angeblich wütend Nachrichten durch einen einzelnen Rufempfänger erzeugt wurden, und sie waren alle identisch. Hier ist, was diese angeblich böse Nachrichten sagte:

"Reboot NT-Maschine [Name] im Schrank [name] in [Ort]: KRITISCH: [Datum und Uhrzeit]"

Diese Meldungen wurden beschriftet wütend, weil sie das Wort "critical" enthalten, die im allgemeinen Zorn kann darauf hindeuten, aber nicht in diesem Fall. Das Entfernen der Nachrichten dieses einzigen automatisierten Pager erzeugt vollständig eliminiert die scheinbare Zunahme der Wut über den Verlauf des Tages (Abbildung 2.2). Mit anderen Worten, das Hauptergebnis Back, Küfner, and Egloff (2010) war ein Artefakt von einem Pager. Wie dieses Beispiel, relativ einfache Analyse von relativ komplex und chaotisch Daten illustriert hat das Potenzial, ernsthaft schief gehen.

Abbildung 2.2: Geschätzte Trends im Zorn über den Verlauf 11. September 2001 auf Basis von 85.000 amerikanischen Pagern (Back, Küfner und Egloff 2010; Pury 2011; Back, Küfner und Egloff 2011). Ursprünglich, Rücken, Küfner und Egloff (2010) berichtet, ein Muster Wut im Laufe des Tages zu erhöhen. die meisten dieser offensichtlich wütend Nachrichten wurden jedoch von einem einzigen Pager erzeugt, die wiederholt die folgende Meldung gesendet: Reboot NT-Maschine [Name] im Schrank [name] in [Ort]: KRITISCH: [Datum und Uhrzeit]. Mit dieser Nachricht entfernt, verschwindet die scheinbare Zunahme der Wut (Pury 2011; Back, Küfner und Egloff 2011). Diese Figur ist eine Wiedergabe von 1B in Pury (2011).

Abbildung 2.2: Geschätzte Trends im Zorn über den Verlauf 11. September 2001 auf Basis von 85.000 amerikanischen Pagern (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Ursprünglich Back, Küfner, and Egloff (2010) berichtet , ein Muster Wut im Laufe des Tages zu erhöhen. die meisten dieser offensichtlich wütend Nachrichten wurden jedoch von einem einzigen Pager erzeugt, die wiederholt die folgende Meldung gesendet: "Reboot NT-Maschine [Name] im Schrank [name] in [Ort]: KRITISCH: [Datum und Uhrzeit]". Mit dieser Nachricht entfernt, verschwindet die scheinbare Zunahme der Wut (Pury 2011; Back, Küfner, and Egloff 2011) . Diese Figur ist eine Wiedergabe von 1B in Pury (2011) .

Während schmutzigen Daten, die unabsichtlich-wie von einem lauten erstellt Pager-kann durch eine einigermaßen sorgfältig Forscher festgestellt werden, gibt es auch einige Online-Systeme, die vorsätzlich begangen Spammer anziehen. Diese Spammer generieren aktiv gefälschte Daten und-oft motiviert durch Gewinn Arbeit sehr schwer zu halten ihre Spamming verborgen. Zum Beispiel scheint politische Aktivität auf Twitter zumindest einige recht anspruchsvolle Spam umfassen, wobei einige politische Ursachen bewusst gemacht werden immer beliebter aussehen als sie tatsächlich sind (Ratkiewicz et al. 2011) . Forscher mit Daten arbeiten, die absichtlich Spam enthalten vor der Herausforderung, ihr Publikum zu überzeugen, dass sie erkannt haben und entfernt relevanten Spam.

Schließlich, was schmutzig Daten betrachtet wird, kann auf subtile Weise auf Ihre Forschungsfragen abhängen. Zum Beispiel sind viele Änderungen an Wikipedia werden durch automatisierte Bots erstellt (Geiger 2014) . Wenn Sie in der Ökologie von Wikipedia interessiert sind, dann sind diese Bots wichtig. Aber, wenn Sie interessiert sind, wie Menschen tragen zu Wikipedia, diese durch diese Bots gemacht Änderungen sollten ausgeschlossen werden.

Die besten Möglichkeiten, werden getäuscht zu vermeiden, indem schmutzige Daten zu verstehen, wie Sie Ihre Daten einfach explorative Analyse auszuführen erstellt wurden, wie zum Beispiel die Herstellung einfacher Streudiagramme.