2.3.2.1 Unvollständige

Egal , wie "groß" Ihre "Big Data" ist es wahrscheinlich nicht über die Informationen , die Sie wollen.

Die meisten großen Datenquellen sind unvollständig, in dem Sinne , dass sie nicht über die Informationen , die Sie für Ihre Forschung wollen. Dies ist ein gemeinsames Merkmal der Daten, die für andere Zwecke als Forschung geschaffen wurden. Viele Sozialwissenschaftler haben bereits die Erfahrung im Umgang mit der Unvollständigkeit, wie eine bestehende Erhebung hatte, die nicht die Frage fragte man wollte. Leider neigen die Probleme der Unvollständigkeit in großen Daten extremer zu sein. Nach meiner Erfahrung, neigt große Daten drei Arten von Informationen, die für Sozialforschung zu fehlen: Demografie, Verhalten auf anderen Plattformen und Daten theoretische Konstrukte zu operationalisieren.

Alle drei dieser Formen der Unvollständigkeit in einer Studie von Gueorgi Kossinets und Duncan Watts dargestellt (2006) über die Entwicklung des sozialen Netzwerks an einer Universität. Kossinets und Watts begann mit den E-Mail-Protokolle von der Universität, die über präzise Informationen hatte, die E-Mails an wen zu welchem ​​Zeitpunkt gesendet (die Forscher keinen Zugang auf den Inhalt der E-Mails). Diese E-Mail-Aufzeichnungen klingen wie eine erstaunliche Daten-Set, aber sie sind-trotz ihrer Größe und Granularität-grundlegend unvollständig. Zum Beispiel umfassen die E-Mail-Protokolle keine Daten über die demographischen Merkmale der Studenten, wie Geschlecht und Alter. die E-Mail-Protokolle enthalten keine Informationen über die Kommunikation über andere Medien, wie Telefonanrufe, SMS oder face-to-face-Gespräche Ferner. Schließlich kommen die E-Mail-Protokolle nicht direkt Informationen über Beziehungen umfassen, die theoretischen Konstrukte in vielen bestehenden Theorien. Später in diesem Kapitel, wenn ich über Forschungsstrategien sprechen, werden Sie sehen, wie Kossinets und Watts diese Probleme gelöst.

Von den drei Arten von Unvollständigkeit, ist das Problem der unvollständigen Daten zu operationalisieren theoretischen Konstrukte das härteste, zu lösen und in meiner Erfahrung ist es oft versehentlich von Daten Wissenschaftler übersehen. Grob gesagt, sind theoretische Konstrukte abstrakte Ideen , die Sozialwissenschaftler studieren, aber leider können diese Konstrukte nicht immer eindeutig definiert und gemessen werden. Zum Beispiel stellen wir uns vor den scheinbar einfachen Anspruch auf empirisch zu testen versucht, die Menschen, die intelligenter sind, mehr Geld zu verdienen. Um diesen Anspruch zu testen Sie müssten zu messen "Intelligenz". Aber, was ist Intelligenz? Zum Beispiel Gardner (2011) argumentiert , dass es tatsächlich acht verschiedene Formen der Intelligenz sind. Und gibt es Verfahren, die genau eine dieser Formen der Intelligenz messen könnte? Trotz der enormen Mengen an Arbeit von Psychologen, noch diese Fragen gibt es keine eindeutigen Antworten. Somit kann auch ein relativ einfaches Anspruch-Leute , die intelligenter sind verdienen mehr Geld kann hart sein , empirisch zu beurteilen , da es schwierig sein kann , theoretische Konstrukte in Daten zu operationalisieren. Andere Beispiele für theoretische Konstrukte , die wichtig sind , aber schwer zu operationalisieren "Normen" umfassen "Sozialkapital" und "Demokratie" . Die Sozialwissenschaftler nennen das Spiel zwischen theoretischen Konstrukte und Daten Konstruktvalidität (Cronbach and Meehl 1955) . Und da diese Liste von Konstrukten schon sagt, Konstruktvalidität ein Problem ist, dass Sozialwissenschaftler mit für eine sehr lange Zeit zu kämpfen haben, auch wenn sie mit Daten gearbeitet, die für die Zwecke der Forschung gesammelt. Bei der Arbeit mit Daten für Zwecke erhoben , ausgenommen Forschung, sind die Probleme der Konstruktvalidität noch schwieriger (Lazer 2015) .

Wenn Sie eine wissenschaftliche Arbeit lesen, eine schnelle und nützliche Art und Weise zu beurteilen, Bedenken hinsichtlich der Konstruktvalidität ist die Hauptanspruch in dem Papier zu nehmen, die in der Regel in Bezug auf die Konstrukte exprimiert wird, und erneut zum Ausdruck bringen es in Bezug auf die verwendeten Daten. Betrachten wir zum Beispiel zwei hypothetische Studien, die zeigen, behaupten, dass mehr intelligente Menschen mehr Geld zu verdienen:

  • Studie 1: Menschen , die auf dem besten Raven Progressive Matrices Test ein gut untersuchtes Test der analytischen Intelligenz punkten (Carpenter, Just, and Shell 1990) -haben höher berichtete Einkommen auf ihre Steuererklärung
  • Studie 2: Menschen auf Twitter, die mehr verwendet Worte sind eher Luxusmarken zu erwähnen,

In beiden Fällen konnten die Forscher behaupten, dass sie gezeigt haben, dass mehr intelligente Menschen mehr Geld verdienen. Aber in der ersten Studie werden die theoretischen Konstrukte auch durch die Daten operationalisierten, und in der zweiten sind sie nicht. Ferner kann, wie dieses Beispiel zeigt, nicht mehr Daten nicht automatisch Probleme mit Konstruktvalidität lösen. Sie sollten die Ergebnisse der Studie 2 zweifeln, ob es eine Million Tweets, eine Milliarde Tweets beteiligt sind, oder eine Billion Tweets. Für die Forscher mit der Idee der Konstruktvalidität nicht vertraut, Tabelle 2.2 enthält einige Beispiele für Studien, die theoretischen Konstrukte unter Verwendung von digitalen Trace-Daten operationalisiert haben.

Tabelle 2.2: Beispiele für digitale Spuren, die als Maß für die abstraktere theoretische Konzepte verwendet werden. Sozialwissenschaftler nennen das Spiel Konstruktvalidität und es ist eine große Herausforderung bei der Verwendung von großen Datenquellen für Sozialforschung (Lazer 2015) .
Digitale Spur theoretisches Konstrukt Zitat
E-Mail-Protokolle von einer Universität (Meta-Daten nur) Soziale Beziehungen Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Social-Media-Beiträge auf Weibo Gesellschaftliches Engagement Zhang (2016)
E-Mail-Protokolle von einer Firma (Meta-Daten und dem vollständigen Text) Kulturform in einer Organisation Goldberg et al. (2015)

Obwohl das Problem der unvollständigen Daten für die Operationalisierung theoretischen Konstrukte ist ziemlich schwer zu lösen, gibt es drei gemeinsame Lösungen für das Problem der unvollständigen demografische Informationen und unvollständiger Informationen über das Verhalten auf anderen Plattformen. Die erste ist, um tatsächlich die Daten sammeln Sie benötigen; Ich werde Sie ein Beispiel erzählen in Kapitel 3, wenn ich Sie Umfragen sagen. Leider ist diese Art der Datenerfassung nicht immer möglich. Die zweite Haupt Lösung ist zu tun , was Daten Wissenschaftler Benutzer-Attribut Inferenz nennen und welche Sozialwissenschaftler Anrechnungs nennen. Bei diesem Ansatz verwenden die Forscher die Informationen, die sie auf einige Leute haben Attribute anderer Menschen zu schließen. Die dritte mögliche Lösung die eine, die von Kossinets und Watts-war mehrere Datenquellen zu kombinieren. Dieser Vorgang wird manchmal Verschmelzung oder Record Linkage genannt. Meine Lieblingsmetapher für diesen Prozess wurde im ersten Absatz des ersten Papier jemals geschrieben auf Record Linkage vorgeschlagen (Dunn 1946) :

"Jede Person in der Welt schafft ein Buch des Lebens. Dieses Buch beginnt mit der Geburt und endet mit dem Tod. Die Seiten sind aus Aufzeichnungen der Hauptereignisse im Leben gemacht. Record Linkage ist der Name für den Prozess gegeben von den Seiten dieses Buches in ein Volumen der Montage. "

Diese Passage wurde 1946 geschrieben, und zu dieser Zeit waren die Menschen zu denken, dass das Buch des Lebens könnte wichtige Ereignisse im Leben wie Geburt, Heirat, Scheidung und Tod führen. Aber jetzt, dass so viele Informationen über Personen aufgezeichnet wird, kann das Buch des Lebens könnte ein unglaublich detailliertes Portrait, wenn diese verschiedenen Seiten (dh unsere digitalen Spuren) sein, miteinander verbunden sein. Das Buch des Lebens könnte eine große Ressource für Forscher sein. Aber könnte das Buch des Lebens auch eine Datenbank des Verderbens genannt werden (Ohm 2010) , die für alle Arten von unethische Zwecke verwendet werden könnten, wie mehr weiter unten beschrieben , wenn ich über die Sensibilität der Informationen sprechen unterhalb von großen Datenquellen gesammelt und in Kapitel 6 (Ethik).