Verstärkte Abfrage unter Verwendung eines Vorhersagemodells, um Umfragedaten von wenigen Personen mit einer großen Datenquelle von vielen Personen zu kombinieren.
Eine andere Art und Weise Erhebung und große Datenquellen zu kombinieren , ist ein Prozess, den ich verstärkt fragen nennen werde. Bei der verstärkten Fragestellung verwendet ein Forscher ein Vorhersagemodell, um eine kleine Menge an Umfragedaten mit einer großen Datenquelle zu kombinieren, um Schätzungen in einer Größenordnung oder Granularität zu erstellen, die mit keiner der beiden Datenquellen individuell möglich wäre. Ein wichtiges Beispiel für die verstärkte Nachfrage ist die Arbeit von Joshua Blumenstock, der Daten sammeln wollte, die die Entwicklung in armen Ländern unterstützen könnten. In der Vergangenheit mussten Forscher, die solche Daten sammelten, im Allgemeinen einen von zwei Ansätzen wählen: Stichprobenerhebungen oder Volkszählungen. Stichprobenerhebungen, bei denen Forscher eine kleine Anzahl von Personen befragen, können flexibel, zeitnah und relativ billig sein. Da diese Erhebungen jedoch auf einer Stichprobe basieren, sind sie oft in ihrer Auflösung begrenzt. Bei einer Stichprobenerhebung sind Schätzungen zu bestimmten geografischen Regionen oder bestimmten demografischen Gruppen oft schwierig. Auf der anderen Seite versuchen Volkszählungen, alle zu interviewen, und so können sie verwendet werden, um Schätzungen für kleine geographische Regionen oder demographische Gruppen zu erstellen. Aber Volkszählungen sind im Allgemeinen teuer, eng gefasst (sie enthalten nur eine kleine Anzahl von Fragen) und nicht rechtzeitig (sie erfolgen nach einem festen Zeitplan, wie etwa alle 10 Jahre) (Kish 1979) . Anstatt mit Stichprobenerhebungen oder Volkszählungen herumzuhängen, stellen Sie sich vor, wenn Forscher die besten Eigenschaften beider kombinieren könnten. Stellen Sie sich vor, Forscher könnten jeden Tag jede Frage an jede Person stellen. Offensichtlich ist diese allgegenwärtige, ständig stattfindende Umfrage eine Art sozialwissenschaftliche Fantasie. Aber es scheint , dass wir beginnen , kann dies auf eine Annäherung der Umfrage Fragen aus einer kleinen Anzahl von Menschen mit digitalen Spuren von vielen Menschen zu verbinden.
Die Recherchen von Blumenstock begannen mit der Zusammenarbeit mit dem größten Mobilfunkanbieter in Ruanda, und das Unternehmen lieferte zwischen 2005 und 2009 anonymisierte Transaktionsdaten von etwa 1,5 Millionen Kunden. Diese Datensätze enthielten Informationen über jeden Anruf und jede SMS, wie die Startzeit und Dauer und ungefähre geografische Position des Anrufers und Empfängers. Bevor ich über die statistischen Probleme spreche, ist es wichtig, darauf hinzuweisen, dass dieser erste Schritt für viele Forscher einer der schwierigsten sein kann. Wie ich in Kapitel 2 beschrieben habe, sind die meisten großen Datenquellen für Forscher nicht zugänglich . Insbesondere Telefon-Metadaten sind besonders unzugänglich, weil sie grundsätzlich nicht anonymisierbar sind und mit ziemlicher Sicherheit Informationen enthalten, die von den Teilnehmern als sensibel (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . In diesem speziellen Fall waren die Forscher vorsichtig, um die Daten zu schützen, und ihre Arbeit wurde von einer dritten Partei (dh ihrem IRB) überwacht. Ich werde auf diese ethischen Fragen in Kapitel 6 näher eingehen.
Blumenstock war daran interessiert, Wohlstand und Wohlstand zu messen. Aber diese Eigenschaften sind nicht direkt in den Anrufaufzeichnungen. Mit anderen Worten, diese Anrufaufzeichnungen sind für diese Untersuchung unvollständig - ein gemeinsames Merkmal großer Datenquellen, das in Kapitel 2 ausführlich besprochen wurde. Es ist jedoch wahrscheinlich, dass die Anrufaufzeichnungen wahrscheinlich Informationen enthalten, die indirekt Informationen über Vermögen und Daten liefern könnten Wohlbefinden. Angesichts dieser Möglichkeit fragte Blumenstock, ob es möglich sei, ein maschinelles Lernmodell zu trainieren, um vorherzusagen, wie jemand auf einer Umfrage basierend auf seinen Anrufaufzeichnungen reagieren wird. Wenn dies möglich wäre, könnte Blumenstock mit diesem Modell die Umfrageantworten aller 1,5 Millionen Kunden vorhersagen.
Um ein solches Modell zu bauen und zu trainieren, riefen Blumenstock und wissenschaftliche Mitarbeiter des Kigali Institute of Science and Technology eine Stichprobe von etwa tausend Kunden an. Die Forscher erläuterten den Teilnehmern die Ziele des Projekts, baten um ihre Zustimmung, die Umfrageantworten mit den Anruflisten zu verknüpfen, und stellten ihnen dann eine Reihe von Fragen, um ihren Wohlstand und ihr Wohlergehen zu messen, wie "Besitzen Sie eine Radio? "und" Besitzen Sie ein Fahrrad? "(siehe Abbildung 3.14 für eine unvollständige Liste). Alle Teilnehmer der Umfrage wurden finanziell entlohnt.
Als nächstes verwendete Blumenstock ein zweistufiges Verfahren, das beim maschinellen Lernen üblich ist: Feature-Engineering gefolgt von überwachtem Lernen. Zunächst wandelte Blumenstock im Schritt des Feature-Engineerings für jeden, der interviewt wurde, die Anruflisten in eine Reihe von Eigenschaften für jede Person um; Datenwissenschaftler könnten diese Merkmale "Merkmale" nennen, und Sozialwissenschaftler würden sie "Variablen" nennen. Für jede Person beispielsweise berechnete Blumenstock die Gesamtzahl der Tage mit Aktivität, die Anzahl der verschiedenen Personen, mit denen eine Person in Kontakt stand Geldbetrag für die Sendezeit und so weiter. Entscheidend ist, dass gutes Feature-Engineering Kenntnisse über die Forschungsumgebung erfordert. Wenn es beispielsweise wichtig ist, zwischen Inlands- und Auslandsgesprächen zu unterscheiden (wir könnten erwarten, dass Personen, die international als reicher gelten), dann muss dies im Feature-Engineering-Schritt erfolgen. Ein Forscher mit wenig Verständnis für Ruanda könnte dieses Merkmal nicht enthalten, und dann würde die Vorhersageleistung des Modells leiden.
Als Nächstes entwickelte Blumenstock im überwachten Lernschritt ein Modell, um die Umfrageantwort für jede Person basierend auf ihren Merkmalen vorherzusagen. In diesem Fall verwendete Blumenstock logistische Regression, aber er hätte eine Vielzahl anderer statistischer oder maschineller Lernmethoden verwenden können.
Wie gut hat es funktioniert? War Blumenstock in der Lage, Antworten auf Umfragefragen wie "Besitzen Sie ein Radio?" Und "Besitzen Sie ein Fahrrad?" Mit Funktionen aus Anruflisten vorauszusagen? Um die Leistung seines Vorhersagemodells zu bewerten, nutzte Blumenstock die Kreuzvalidierung , eine Technik, die üblicherweise in der Datenwissenschaft, aber selten in der Sozialwissenschaft verwendet wird. Das Ziel der Kreuzvalidierung besteht darin, eine faire Bewertung der Vorhersageleistung eines Modells zu liefern, indem es trainiert und an verschiedenen Datenuntergruppen getestet wird. Insbesondere hat Blumenstock seine Daten in 10 Stücke von jeweils 100 Personen aufgeteilt. Dann verwendete er neun der Brocken, um sein Modell zu trainieren, und die Vorhersagefähigkeit des trainierten Modells wurde auf dem verbleibenden Brocken bewertet. Er wiederholte diesen Vorgang zehnmal - jeder Datenblock erhielt eine Umdrehung als Validierungsdaten - und mittelte die Ergebnisse.
Die Genauigkeit der Vorhersagen war für einige Merkmale hoch (Abbildung 3.14); Zum Beispiel könnte Blumenstock mit 97,6% Genauigkeit voraussagen, wenn jemand ein Radio besitzt. Dies mag beeindruckend klingen, aber es ist immer wichtig, eine komplexe Vorhersagemethode mit einer einfachen Alternative zu vergleichen. In diesem Fall besteht eine einfache Alternative darin, vorherzusagen, dass jeder die allgemeinste Antwort geben wird. Zum Beispiel gaben 97,3% der Befragten an, ein Radio zu besitzen. Wenn Blumenstock vorhergesagt hätte, dass jeder ein Radio besitzen würde, hätte er eine Genauigkeit von 97,3% erreicht, was der Leistung seines komplexeren Verfahrens überraschend ähnlich ist (97,6% Genauigkeit). . Mit anderen Worten, all die ausgefallenen Daten und die Modellierung erhöhten die Genauigkeit der Vorhersage von 97,3% auf 97,6%. Bei anderen Fragen wie "Besitzen Sie ein Fahrrad?" Verbesserten sich die Vorhersagen jedoch von 54,4% auf 67,6%. Allgemeiner ausgedrückt zeigt Abbildung 3.15, dass sich Blumenstock bei einigen Merkmalen nicht weit über die einfache Baseline-Vorhersage hinaus verbesserte, sondern bei anderen Merkmalen eine Verbesserung zeigte. Wenn Sie nur diese Ergebnisse betrachten, denken Sie vielleicht nicht, dass dieser Ansatz besonders vielversprechend ist.
Doch nur ein Jahr später veröffentlichten Blumenstock und zwei Kollegen - Gabriel Cadamuro und Robert On - einen Artikel in Science mit wesentlich besseren Ergebnissen (Blumenstock, Cadamuro, and On 2015) . Es gab zwei wesentliche technische Gründe für diese Verbesserung: (1) Sie verwendeten ausgeklügeltere Methoden (dh einen neuen Ansatz für das Feature-Engineering und ein ausgefeilteres Modell zur Vorhersage von Antworten von Merkmalen) und (2), anstatt zu versuchen, Antworten auf Individuen abzuleiten Umfragefragen (zB "Besitzen Sie ein Radio?"), versuchten sie, auf einen zusammengesetzten Vermögensindex zu schließen. Diese technischen Verbesserungen haben dazu geführt, dass sie Rufdatensätze sinnvoll nutzen können, um Wohlstand für die Personen in ihrer Stichprobe vorherzusagen.
Die Vorhersage des Personenreichtums in der Stichprobe war jedoch nicht das ultimative Ziel der Forschung. Denken Sie daran, dass das ultimative Ziel darin bestand, einige der besten Merkmale von Stichprobenerhebungen und Volkszählungen zu kombinieren, um genaue, hochauflösende Schätzungen der Armut in Entwicklungsländern zu erstellen. Um ihre Fähigkeit zu bewerten, dieses Ziel zu erreichen, haben Blumenstock und Kollegen ihr Modell und ihre Daten verwendet, um den Reichtum aller 1,5 Millionen Menschen in den Anruflisten vorherzusagen. Und sie nutzten die in den Anruflisten eingebetteten Geodaten (um zu erinnern, dass die Daten den Standort des nächstgelegenen Mobilfunkmastes für jeden Anruf enthielten), um den ungefähren Wohnort jeder Person zu schätzen (Abbildung 3.17). Aus diesen beiden Schätzungen schufen Blumenstock und seine Kollegen eine Schätzung der geografischen Verteilung des Abonnentenvermögens bei extrem feiner räumlicher Granularität. Zum Beispiel könnten sie den durchschnittlichen Wohlstand in jeder der 2148 Zellen Ruandas (die kleinste Verwaltungseinheit des Landes) schätzen.
Wie gut stimmten diese Schätzungen mit dem tatsächlichen Armutsniveau in diesen Regionen überein? Bevor ich diese Frage beantworte, möchte ich betonen, dass es viele Gründe gibt, skeptisch zu sein. Zum Beispiel war die Fähigkeit, Vorhersagen auf individueller Ebene zu treffen, ziemlich laut (Abbildung 3.17). Und, was vielleicht noch wichtiger ist: Menschen mit Mobiltelefonen unterscheiden sich systematisch von Menschen ohne Mobiltelefon. So könnten Blumenstock und Kollegen unter den Arten von Deckungsfehlern leiden, die die 1936 Literary Digest- Umfrage, die ich zuvor beschrieben hatte, verzerrten.
Um einen Eindruck von der Qualität ihrer Schätzungen zu bekommen, mussten Blumenstock und Kollegen sie mit etwas anderem vergleichen. Glücklicherweise führte eine andere Gruppe von Forschern um die gleiche Zeit wie ihre Studie eine traditionellere soziale Umfrage in Ruanda durch. Diese andere Umfrage, die Teil des weithin beachteten Demography and Health Survey-Programms war, hatte ein großes Budget und verwendete hochwertige, traditionelle Methoden. Daher könnten die Schätzungen aus dem Demographic and Health Survey vernünftigerweise als Goldstandardschätzungen betrachtet werden. Wenn die beiden Schätzungen verglichen wurden, waren sie ziemlich ähnlich (Abbildung 3.17). Mit anderen Worten, durch die Kombination einer kleinen Anzahl von Umfragedaten mit den Anruflisten konnten Blumenstock und Kollegen ähnliche Schätzungen wie bei Goldstandard-Ansätzen erstellen.
Ein Skeptiker könnte diese Ergebnisse als eine Enttäuschung sehen. Eine Möglichkeit, sie zu betrachten, ist, dass Blumenstock und Kollegen mit Big Data und maschinellem Lernen Schätzungen liefern konnten, die durch bereits existierende Methoden zuverlässiger gemacht werden konnten. Aber ich denke nicht, dass dies aus zwei Gründen der richtige Weg ist, über diese Studie nachzudenken. Erstens waren die Schätzungen von Blumenstock und Kollegen etwa 10-mal schneller und 50-mal billiger (wenn Kosten in Form variabler Kosten gemessen werden). Wie ich bereits in diesem Kapitel dargelegt habe, ignorieren Forscher Kosten auf eigene Gefahr. In diesem Fall, zum Beispiel, bedeutet der drastische Rückgang der Kosten, dass diese Art von Umfrage jeden Monat durchgeführt werden könnte, anstatt viele Jahre zu laufen - wie es für Demographic and Health Surveys Standard ist -, was zahlreiche Vorteile für Forscher und Politik bieten würde Macher. Der zweite Grund, den Skeptiker nicht zu berücksichtigen, ist, dass diese Studie ein Grundrezept liefert, das auf viele verschiedene Forschungssituationen zugeschnitten werden kann. Dieses Rezept hat nur zwei Zutaten und zwei Schritte. Die Zutaten sind (1) eine große Datenquelle, die breit ist, aber dünn (dh, es hat viele Leute, aber nicht die Informationen, die Sie über jede Person brauchen) und (2) eine Umfrage, die schmal ist aber dick (dh es hat nur ein paar Leute, aber es hat die Informationen, die Sie über diese Leute brauchen). Diese Zutaten werden dann in zwei Schritten kombiniert. Erstellen Sie zuerst für die Personen in beiden Datenquellen ein maschinelles Lernmodell, das die große Datenquelle zur Vorhersage von Umfrageantworten verwendet. Verwenden Sie als Nächstes dieses Modell, um die Umfrageantworten aller Personen in der Big Data-Quelle zu imputieren. Wenn Sie also eine Frage haben, die Sie vielen Leuten stellen möchten, suchen Sie nach einer großen Datenquelle von diesen Leuten, die möglicherweise verwendet werden, um ihre Antwort vorherzusagen, selbst wenn Sie sich nicht für die große Datenquelle interessieren . Das heißt, Blumenstock und Kollegen kümmerten sich nicht um Anruflisten; Sie kümmerten sich nur um Anruflisten, weil sie verwendet werden könnten, um Umfrageantworten vorherzusagen, die ihnen wichtig waren. Dieses Merkmal - nur indirektes Interesse an der großen Datenquelle - macht das verstärkte Fragen anders als das eingebettete Fragen, das ich zuvor beschrieben habe.
Zusammenfassend kombinierte der Stockstor-Ansatz von Blumenstock die Erhebungsdaten mit einer großen Datenquelle, um Schätzungen zu liefern, die mit denen einer Goldstandard-Umfrage vergleichbar sind. Dieses spezielle Beispiel verdeutlicht auch einige der Kompromisse zwischen amplifizierten Anfragen und traditionellen Erhebungsmethoden. Die amplifizierten Schätzungen waren zeitnäher, wesentlich billiger und präziser. Auf der anderen Seite gibt es für diese Art von verstärktem Fragen noch keine starke theoretische Grundlage. Dieses einzelne Beispiel zeigt nicht, wann dieser Ansatz funktionieren wird und wann nicht, und Forscher, die diesen Ansatz verwenden, müssen besonders besorgt sein über mögliche Verzerrungen, die dadurch verursacht werden, wer in ihre große Datenquelle eingeschlossen ist und wer nicht. Darüber hinaus hat der Ansatz der verstärkten Fragestellung noch keine gute Möglichkeit, die Unsicherheit um seine Schätzungen herum zu quantifizieren. Glücklicherweise hat die erweiterte Fragestellung tiefe Verbindungen zu drei großen Bereichen in der Statistik - kleinräumige Schätzung (Rao and Molina 2015) , Imputation (Rubin 2004) und modellbasierte Nachschichtung (die wiederum eng mit Herrn P. verbunden ist). die Methode, die ich früher im Kapitel beschrieben habe (Little 1993) . Aufgrund dieser tiefen Verbindungen erwarte ich, dass viele der methodischen Grundlagen des verstärkten Fragens bald verbessert werden.
Der Vergleich von Blumenstocks erstem und zweitem Versuch zeigt auch eine wichtige Lektion über die Sozialforschung im digitalen Zeitalter: Der Anfang ist nicht das Ende. Das heißt, oft wird der erste Ansatz nicht der beste sein, aber wenn Forscher weiterarbeiten, können die Dinge besser werden. Bei der Bewertung neuer Ansätze für die Sozialforschung im digitalen Zeitalter ist es generell wichtig, zwei unterschiedliche Bewertungen vorzunehmen: (1) Wie gut funktioniert das jetzt? und (2) Wie gut wird dies in Zukunft funktionieren, wenn sich die Datenlandschaft ändert und Forscher dem Problem mehr Aufmerksamkeit widmen? Obwohl Forscher darauf trainiert sind, die erste Art von Bewertung durchzuführen, ist die zweite oft wichtiger.