Auch wenn es chaotisch sein kann, kann angereichert fragen mächtig sein.
Ein anderer Ansatz mit der Unvollständigkeit der digitalen Trace - Daten zu tun ist , sie zu bereichern direkt mit Umfragedaten, ein Prozess, ich angereichert fragen nennen werde. Ein Beispiel von angereichertem Vorstellung ist die Studie von Burke and Kraut (2014) , die ich zuvor beschrieben im Kapitel (Abschnitt 3.2), ob die Interaktion auf Facebook erhöht Freundschaft Stärke. In diesem Fall Burke und Kraut kombiniert Umfragedaten mit Facebook Log-Daten.
Die Einstellung, die Burke und Kraut wurden in der Arbeit, bedeutete jedoch, dass sie nicht mit zwei großen Problemen zu kämpfen hatte, die Forscher bereichert fragen Gesicht zu tun. Zunächst verbindet tatsächlich die Datensätze-einen Prozess namens Record Linkage zusammen, die Anpassung eines Datensatzes in einen Datensatz mit dem entsprechenden Datensatz in der anderen Daten - Set-kann schwierig und fehleranfällig sein (wir ein Beispiel für dieses Problem siehe unten ). Das zweite Hauptproblem von angereichertem Vorstellung ist, dass die Qualität der digitalen Spuren häufig schwierig sein wird, für die Forscher zu beurteilen. Beispielsweise manchmal ein Vorgang, bei dem es gesammelt wird, ist proprietär und könnte auf viele der geschilderten Probleme in Kapitel 2. Mit anderen Worten, angereichert geforderten fehleranfällige Verbindung von Erhebungen Black-Box-Datenquellen unbekannter beinhalten wird häufig anfällig Qualität. Trotz der Bedenken , dass diese beiden Probleme einzuführen, ist es möglich , wichtige Forschung mit dieser Strategie durchzuführen , wie von Stephen Ansolabehere und Eitan Hersh demonstriert wurde (2012) in ihrer Forschung über die Abstimmungsmuster in den USA. Es lohnt sich, über diese Studie im Detail zu gehen, weil viele der Strategien, die Ansolabehere und Hersh wird in anderen Anwendungen von angereichertem fragen nützlich sein entwickelt.
Die Wahlbeteiligung war Gegenstand intensiver Forschung in der Politikwissenschaft gewesen, und in der Vergangenheit Forscher verstehen, wer wählt, und warum hat in der Regel auf der Analyse der Umfragedaten basiert. Die Abstimmung in den USA, jedoch ist ein ungewöhnliches Verhalten, dass die Regierung Aufzeichnungen, ob jeder Bürger gestimmt hat (natürlich die Regierung nicht erfaßt werden, die jeder Bürger Stimmen). Seit vielen Jahren waren diese staatlichen Abstimmungsunterlagen auf Papier Formen, in verschiedenen lokalen Regierungsstellen im ganzen Land verstreut. Dies machte es schwierig, aber nicht unmöglich, für Politologen , ein vollständiges Bild der Wähler zu haben und zu vergleichen , was die Menschen in Umfragen sagen über ihren tatsächlichen Abstimmungsverhalten der Abstimmung (Ansolabehere and Hersh 2012) .
Aber jetzt diese Abstimmung Aufzeichnungen digitalisiert wurden, und eine Reihe von privaten Unternehmen haben systematisch gesammelt und fusionierte diese Abstimmungsprotokolle umfassende Dateien Master Abstimmung zu erzeugen, die das Abstimmungsverhalten aller Amerikaner aufzunehmen. Ansolabehere und Hersh eine Partnerschaft mit einem dieser Unternehmen-Catalist LCC-um ihre Master-Voting-Datei zu verwenden, um ein besseres Bild von den Wählern helfen, zu entwickeln. Ferner kann, da es auf digitalen Aufzeichnungen gesammelt und kuratiert von einem Unternehmen verlassen, bot es eine Reihe von Vorteilen im Vergleich zu früheren Bemühungen von Forschern, die ohne die Hilfe von Unternehmen und unter Verwendung von analogen Aufzeichnungen gemacht worden war.
Wie viele der digitalen Spur Quellen in Kapitel 2, hat der Catalist Stammdatei enthalten nicht viel von der demographischen, Einstellungs- und Verhaltensinformationen, die Ansolabehere und Hersh benötigt. Zusätzlich zu diesen Informationen waren Ansolabehere und Hersh besonders daran interessiert, berichtet das Wahlverhalten zu validierten Abstimmungsverhalten zu vergleichen (dh die Informationen in der Catalist Datenbank). So sammelten die Forscher die Daten, die sie im Rahmen des Cooperative Kongresswahlstudie (CCES), eine große soziale Umfrage wollten. Als nächstes gab die Forscher Catalist diese Daten und Catalist gaben die Forscher eine fusionierte Datendatei sichern, die Abstimmungsverhalten validiert enthalten (von Catalist), der selbst berichteten Wahlverhalten (von CCES) und die Demographie und die Einstellung der Befragten (von CCES ). Mit anderen Worten, Ansolabehere und Hersh bereichert die Abstimmungsdaten mit Befragungsdaten und die resultierende zusammengefügte Datei ermöglicht es ihnen, etwas zu tun, die weder Datei einzeln aktiviert.
Durch die Anreicherung kam die Catalist Stammdaten-Datei mit Umfragedaten, Ansolabehere und Hersh auf drei wichtige Schlussfolgerungen. Zunächst über Berichterstattung der Abstimmung ist weit verbreitet: Fast die Hälfte der Nicht-Wähler Abstimmung berichtet. Oder eine andere Möglichkeit, es zu betrachten ist, wenn jemand Abstimmung berichtet, gibt es nur eine 80% ige Chance, dass sie tatsächlich gewählt. Zweitens über Berichterstattung ist nicht zufällig; Über Berichterstattung ist häufiger bei hohem Einkommen, gut ausgebildete, Partisanen, die in öffentlichen Angelegenheiten beschäftigt sind. Mit anderen Worten, wer die Menschen sind am ehesten zu stimmen auch am ehesten über Abstimmung zu liegen. Drittens, und am kritischsten, da der systematische Charakter der Über Berichterstattung, die tatsächlichen Unterschiede zwischen den Wählern und Nichtwähler sind kleiner, als sie gerade aus Umfragen erscheinen. So sind zum Beispiel solche mit einem Bachelor-Abschluss etwa 22 Prozentpunkte wahrscheinlicher Abstimmung zu berichten, sind aber nur 10 Prozentpunkte eher auf tatsächliche Abstimmung. Weiterhin bestehende ressourcenbasierten Theorien der Abstimmung sind viel besser bei der Vorhersage, die Abstimmung als Stimmen berichten empirische Befund, die tatsächlich, die für neue Theorien nennt Abstimmung zu verstehen und vorherzusagen.
Aber, wie viel sollten wir diese Ergebnisse vertrauen? Denken Sie daran, diese Ergebnisse sind abhängig von fehleranfällige Verknüpfung zu Black-Box-Daten mit unbekannten Mengen an Fehler. Genauer gesagt, sind die Ergebnisse Scharnier auf zwei Schlüsselschritte: die Umfragedaten zu seinem Master Daten-Datei zu verknüpfen 1) die Fähigkeit von Catalist zu vielen unterschiedlichen Datenquellen kombinieren, um eine genaue Master Daten-Datei und 2) die Fähigkeit von Catalist zu erzeugen. Jeder dieser Schritte ist ziemlich schwierig und Fehler bei beiden Schritt könnten Forscher zu falschen Schlüssen führen. Allerdings sind sowohl die Datenverarbeitung und Anpassung entscheidend für den Fortbestand der Catalist als Unternehmen, so dass es Ressourcen bei der Lösung dieser Probleme zu investieren, oft auf einer Skala, die keine individuelle akademische Forscher oder Forschergruppe mithalten können. In der weiteren Lektüre am Ende des Kapitels beschreibe ich diese Probleme im Detail und wie Ansolabehere und Hersh das Vertrauen in ihre Ergebnisse. Obwohl diese Einzelheiten zu dieser Studie spezifisch sind, der ähnliche Fragen werden diese für andere Forscher entstehen zu wollen Black-Box-Quellen digitale Trace-Daten zu verknüpfen.
Was sind die allgemeinen Lehren Forscher aus dieser Studie ziehen können? Erstens gibt es einen enormen Wert von digitalen Spuren mit Befragungsdaten zu bereichern. Zweitens, auch wenn diese aggregiert, kommerziellen Datenquellen sollten nicht "Ground Truth" in Betracht gezogen werden, in einigen Fällen können sie nützlich sein. In der Tat ist es am besten, diese Datenquellen nicht auf die absolute Wahrheit zu vergleichen (von denen sie immer zu kurz). Vielmehr ist es besser, sie zu anderen verfügbaren Datenquellen zu vergleichen, die immer Fehler auch haben.