3.6.1 Amplified fragen

Diese Übersetzung wurde von einem Computer erstellt. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.6.1 Amplified fragen

Sein können Ihre Umfrage auf digitale Spuren verknüpfen wie zu fragen , jeder Ihre Fragen zu allen Zeiten.

Vorstellung kommt in der Regel in zwei Hauptkategorien: Stichprobenerhebungen und Zählungen. Stichprobenerhebungen, wo es eine kleine Anzahl von Menschen zugreifen können flexibel, zeitnah und relativ billig sein. Jedoch Stichprobenerhebungen, weil sie auf einer Probe basieren, werden oft in ihrer Auflösung begrenzt; mit einer Stichprobenerhebung, ist es oft schwer, Schätzungen über bestimmte geografische Regionen oder für bestimmte Bevölkerungsgruppen zu machen. Volkszählungen, auf der anderen Seite versuchen, alle in der Bevölkerung zu befragen. Sie haben eine große Auflösung, aber sie sind in der Regel teuer, schmal im Fokus (sie enthalten nur eine geringe Anzahl von Fragen), und nicht rechtzeitig (sie nach einem festen Zeitplan geschehen, wie etwa alle 10 Jahre) (Kish 1979) . Nun stell dir vor, wenn Forscher die besten Eigenschaften von Stichprobenerhebungen und Volkszählungen kombinieren können; vorstellen, wenn die Forscher jede Frage an jeden jeden Tag fragen konnte.

Offensichtlich ist diese ständige, allgegenwärtig, Always-On-Umfrage ist eine Art Sozialwissenschaft Phantasie. Aber es scheint, dass wir beginnen , kann dies auf eine Annäherung der Umfrage Fragen aus einer kleinen Anzahl von Menschen mit digitalen Spuren von vielen Menschen zu verbinden. Ich nenne diese Art der Kombination zu fragen verstärkt. Wenn gut gemacht, es könnte uns helfen Schätzung liefert, die mehr sind lokal (für kleinere geografische Gebiete), körniger (für bestimmte Bevölkerungsgruppen), und zum richtigen Zeitpunkt.

Ein Beispiel für eine verstärkte Vorstellung kommt aus der Arbeit von Joshua Blumenstock, der wollte, um Daten zu sammeln, die Führung Entwicklung in armen Ländern helfen würde. Genauer gesagt, wollte Blumenstock, ein System zu messen Reichtum und Wohlbefinden, die die Vollständigkeit einer Zählung mit der Flexibilität und Frequenz einer Umfrage kombiniert zu schaffen (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . In der Tat habe ich bereits beschrieben, Blumenwerk kurz in Kapitel 1.

Um zu beginnen, eine Partnerschaft Blumen mit dem größten Mobilfunkanbieter in Ruanda. Das Unternehmen legte ihm anonymisierten Transaktionsaufzeichnungen von etwa 1,5 Millionen Kunden abdeckt Verhalten von 2005 und 2009. Die Protokolle enthalten Informationen über jeden Anruf und SMS wie die Startzeit, die Dauer und die ungefähre geographische Standort des Anrufers und dem Empfänger. Bevor wir reden über die statistischen Fragen beginnen, ist es erwähnenswert, dass dieser erste Schritt einer der härtesten sein kann. Wie in Kapitel 2 beschrieben, die meisten digitalen Trace - Daten ist nicht zugänglich Forscher. Und, sind viele Unternehmen zu Recht zögern, ihre Daten zu teilen, weil es privat ist; das ist ihre Kunden wahrscheinlich nicht erwarten, dass ihre Aufzeichnungen Shared-in werden Massen mit Forschern. In diesem Fall nahm die Forscher vorsichtig vor, um die Daten und ihre Arbeit zu anonymisieren wurde von einem Dritt (dh ihre IRB) beaufsichtigt. Aber trotz dieser Bemühungen sind diese Daten wohl noch erkennbar und sie enthalten wahrscheinlich sensible Informationen (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ich werde in Kapitel 6 auf diese ethische Frage zurückzukehren.

Daran erinnern, dass Blumen interessierte sich für Reichtum zu messen und das Wohlbefinden. Aber sind diese Merkmale nicht direkt in den Anrufaufzeichnungen. Mit anderen Worten, diese Anrufaufzeichnungen unvollständig für diese Untersuchung ab , ein gemeinsames Merkmal der digitalen Spuren, die im Detail in Kapitel wurde 2. Aber, so scheint es wahrscheinlich , dass die Anrufaufzeichnungen wahrscheinlich einige Informationen über Reichtum und Wohlbefinden. Also, ein Weg, Blumen die Frage zu stellen sein könnte: Ist es möglich, vorherzusagen, wie jemand zu einer Umfrage auf der Grundlage ihrer digitalen Trace-Daten reagieren wird? Wenn ja, dann durch ein paar Leute fragen, können wir die Antworten von allen anderen erraten.

Um zu beurteilen, empirisch dies, Blumenstock und wissenschaftliche Mitarbeiter von Kigali Institute of Science and Technology genannt eine Probe von etwa tausend Mobilfunkkunden. Die Forscher erklärten, die Ziele des Projekts an die Teilnehmer, bat um ihre Zustimmung, die Antworten auf die Anrufdatensätze zu verbinden, und dann fragte sie, eine Reihe von Fragen, ihren Reichtum und Wohlbefinden zu messen, wie "Besitzen Sie ein Radio? "und" Haben Sie ein Fahrrad besitzen? "(siehe 3.11 für eine Teilliste Abbildung). Alle Teilnehmer der Umfrage wurden finanziell entschädigt.

Als nächstes verwendet ein Blumenstock zweistufigen Verfahren gemeinsam in Daten Wissenschaft: Feature-Engineering durch überwachtes Lernen gefolgt. Zuerst wird in der Feature - Engineering Schritt für alle , die interviewt wurde, umgewandelt Blumen die Anrufaufzeichnungen in eine Reihe von Merkmalen über jede Person; Daten Wissenschaftler könnten diese Eigenschaften "Features" und Sozialwissenschaftler sie nennen würde nennen "Variablen". Zum Beispiel, für jede Person, Blumengesamtzahl der Tage mit Aktivität berechnet, die Anzahl der verschiedenen Personen eine Person in Kontakt gewesen ist, die Menge Geld auf airtime ausgegeben, und so weiter. Entscheidend ist, Engineering gute Funktion erfordert die Kenntnis der Forschung Einstellung. Zum Beispiel, wenn es wichtig ist, zwischen nationalen und internationalen Anrufe zu unterscheiden (wir könnten die Menschen erwarten, die international nennen reicheren zu sein), dann muss dies auf der Feature-Engineering Schritt erfolgen. Ein Forscher mit wenig Verständnis für Ruanda könnte nicht dieses Feature enthalten, und dann wird die prädiktive Leistung des Modells leiden.

Als nächstes gebaut im betreuten Lernschritt, Blumenstock eines statistischen Modells der Umfrage Antwort für jede Person , die auf ihre Funktionen basierend vorhersagen. In diesem Fall verwendet Blumen logistische Regression mit 10-facher Kreuzvalidierung, aber er konnte eine Vielzahl von anderen statistischen oder maschinellen Lernens Ansätze verwendet haben.

Wie gut hat es funktioniert? War Blumen der Lage, Antworten auf Fragen vorhersagen zu überblicken wie "Besitzen Sie ein Radio?" Und "Besitzen Sie ein Fahrrad?" Mit Funktionen von Anrufdatensätzen abgeleitet? Sort of. Die Genauigkeit der Vorhersagen waren hoch für einige Züge (Abbildung 3.11). Aber es ist immer wichtig, ein komplexes Vorhersageverfahren gegen eine einfache Alternative zu vergleichen. In diesem Fall ist eine einfache Alternative zu prognostizieren, dass jeder die häufigste Antwort geben wird. Zum Beispiel berichtete 97,3% ein Radio besitzen, so dass, wenn Blumenvorausgesagt hatte, dass jeder Bericht würde ein Radio zu besitzen er eine Genauigkeit von 97,3% gehabt hätte, die zur Erfüllung seiner komplexeren Verfahren überraschend ähnlich ist (97,6% Genauigkeit). Mit anderen Worten, alle Phantasie Daten und Modellierung erhöht die Genauigkeit der Vorhersage von 97,3% auf 97,6%. Bei anderen Fragen wie "Haben Sie ein Fahrrad besitzen?", Verbessert die Prognosen von 54,4% auf 67,6%. Allgemeiner gesagt, für Abbildung 3.12 zeigt einige Züge Blumen darüber hinaus nicht viel verbessern nur die einfache Basis Vorhersage zu machen, aber das ist für andere Züge einige Verbesserungen gab.

Abbildung 3.11: Predictive Genauigkeit für statistische Modell mit Anrufaufzeichnungen geschult. Die Ergebnisse aus Tabelle 2 von Blumenstock (2014) .

Abbildung 3.12: Vergleich der Vorhersagegenauigkeit für statistische Modell mit Anrufaufzeichnungen geschult, um einfache Basis Vorhersage. Die Punkte werden leicht jittered Überschneidungen zu vermeiden; siehe Tabelle 2 von Blumenstock (2014) für genaue Werte.

An dieser Stelle werden Sie vielleicht denken , dass diese Ergebnisse ein wenig enttäuschend, aber nur ein Jahr später, Blumenstock und zwei Kollegen-Gabriel Cadamuro und Robert On-veröffentlichte ein Papier in der Wissenschaft mit wesentlich besseren Ergebnissen (Blumenstock, Cadamuro, and On 2015) . Es gab zwei wichtigsten technischen Gründe für die Verbesserung: 1) sie anspruchsvollere Methoden verwendet (dh ein neuer Ansatz Feature-Engineering und ein anspruchsvolleres maschinelles Lernen Modell) und 2) anstatt zu versuchen, Antworten auf individuelle Fragen Umfrage zu schließen (zB "Hast du ein Radio besitzen?"), versuchten sie, einen zusammengesetzten Index Reichtum zu schließen.

Blumenstock und Kollegen gezeigt, um die Leistung ihrer Ansatz in zweierlei Hinsicht. Zunächst fanden sie, dass für die Menschen in ihrer Stichprobe, sie einen ziemlich guten Job der Vorhersage ihres Vermögens von Anrufaufzeichnungen (Abbildung 3.14) tun könnte. Zweitens, und das immer wichtiger, Blumen und Kollegen zeigten, dass ihre Verfahren qualitativ hochwertige Schätzungen der geographischen Verteilung des Reichtums in Ruanda produzieren könnte. Genauer gesagt, nutzten sie ihre Maschine Lernmodell, das auf ihre Probe von etwa 1.000 Menschen ausgebildet wurde, den Reichtum aller 1,5 Millionen Menschen in den Anrufaufzeichnungen zu prognostizieren. Ferner wird bei den in den Anrufdaten eingebettet Erdbeobachtungsdaten (man erinnere sich, dass die Verbindungsdaten für jeden Anruf die Position der nächstgelegenen Zelle Turm umfasst), konnten die Forscher die ungefähre Wohnort der einzelnen Person zu schätzen. Die Zusammenstellung dieser beiden Schätzungen erzeugt die Forschung eine Schätzung der geographischen Verteilung von Teilnehmer Reichtum an extrem feinen räumlichen Granularität. Zum Beispiel könnten sie den durchschnittlichen Wohlstand in jeder 2148 Zellen Ruandas schätzen (die kleinste Verwaltungseinheit im Land). Diese vorhergesagten Reichtum Werte waren so granular sie waren schwer zu überprüfen. Also, aggregiert die Forscher ihre Ergebnisse Schätzungen der durchschnittlichen Vermögen von 30 Bezirken Ruanda zu erzeugen. Diese Distriktebene Schätzungen waren stark im Zusammenhang mit den Schätzungen aus einem Goldstandard traditionellen Umfrage, die ruandische demographischen Umfrage (Abbildung 3.14). Obwohl die Schätzungen aus den beiden Quellen ähnlich waren, waren die Schätzungen von Blumenstock und Kollegen etwa 50-mal billiger und 10-mal schneller (wenn in den Kosten in Bezug auf die variablen Kosten gemessen). Dieser dramatische Rückgang der Kosten bedeutet, dass anstatt alle paar Jahre als laufen wird für demografische and Health Surveys-the Hybrid aus kleinen Umfrage kombiniert mit großen digitalen Trace-Daten-Standard könnte jeden Monat durchgeführt werden.

Abbildung 3.13: Schematische Darstellung der Blumenstock, Cadamuro und On (2015). Gesprächsdaten von der Telefongesellschaft wurde für jede Person mit einer Zeile zu einer Matrix umgewandelt und eine Spalte für jedes Merkmal (das heißt, Variable). Als nächstes bauten die Forscher eine überwachte Lernmodell der Antworten auf die Umfrage von der Person, die von Feature-Matrix zu prognostizieren. Dann wurde die überwachten Lernmodell verwendet, um die Antworten auf die Umfrage für alle zu zurechnen. Im Wesentlichen haben die Forscher die Antworten von über tausend Menschen den Reichtum von etwa einer Million Menschen zu zurechnen. Auch schätzten die Forscher die ungefähre Wohnort für alle 1,5 Millionen Menschen auf der Grundlage der Orte ihrer Anrufe. Wenn diese beiden Schätzungen kombinierten die geschätzte Reichtum und die geschätzte Wohnsitz-die Ergebnisse waren ähnlich wie die Schätzungen aus der demographischen Umfrage, einem Gold-Standard der traditionellen Umfrage (Abbildung 3.14).

Abbildung 3.13: Schematische Darstellung der Blumenstock, Cadamuro, and On (2015) . Gesprächsdaten von der Telefongesellschaft wurde für jede Person mit einer Zeile zu einer Matrix umgewandelt und eine Spalte für jedes Merkmal (dh Variable). Als nächstes bauten die Forscher eine überwachte Lernmodell der Antworten auf die Umfrage von der Person, die von Feature-Matrix zu prognostizieren. Dann wurde die überwachten Lernmodell verwendet, um die Antworten auf die Umfrage für alle zu zurechnen. Im Wesentlichen haben die Forscher die Antworten von über tausend Menschen den Reichtum von etwa einer Million Menschen zu zurechnen. Auch schätzten die Forscher die ungefähre Wohnort für alle 1,5 Millionen Menschen auf der Grundlage der Orte ihrer Anrufe. Wenn diese beiden Schätzungen kombinierten die geschätzte Reichtum und die geschätzte Wohnsitz-die Ergebnisse waren ähnlich wie die Schätzungen aus der demographischen Umfrage, einem Gold-Standard der traditionellen Umfrage (Abbildung 3.14).

Abbildung 3.14: Ergebnisse von Blumenstock, Cadamuro und On (2015). Auf der individuellen Ebene waren die Forscher in der Lage, eine angemessene Arbeit zu tun bei jemandem zu Reichtum aus ihren Anrufaufzeichnungen vorherzusagen. Die Schätzungen der Distriktebene Wohlstand, die auf individueller Ebene Schätzungen des Reichtums und der Wohnsitz-Basis der Ergebnisse wurden, waren ähnlich wie Ergebnisse aus der Demographic and Health Survey, einer Gold-Standard der traditionellen Umfrage.

Abbildung 3.14: Ergebnisse von Blumenstock, Cadamuro, and On (2015) . Auf der individuellen Ebene waren die Forscher in der Lage, eine angemessene Arbeit zu tun bei jemandem zu Reichtum aus ihren Anrufaufzeichnungen vorherzusagen. Die Schätzungen der Distriktebene Wohlstand, die auf individueller Ebene Schätzungen des Reichtums und der Wohnsitz-Basis der Ergebnisse wurden, waren ähnlich wie Ergebnisse aus der Demographic and Health Survey, einer Gold-Standard der traditionellen Umfrage.

Abschließend Ansatz kombiniert Umfragedaten mit digitalen Trace-Daten zu fragen, Blumen die amplifizierte Schätzungen vergleichbar mit Gold-Standard-Umfrage Schätzungen produzieren. Dieses Beispiel verdeutlicht auch einige der Kompromisse zwischen verstärkt Bitten und traditionellen Erhebungsmethoden. Zunächst waren die verstärkten fragen Schätzungen mehr rechtzeitig, wesentlich billiger und körnig. Aber auf der anderen Seite wird zu diesem Zeitpunkt gibt es keine starke theoretische Grundlage für diese Art von amplifizierten fragen. Das heißt, das ein Beispiel zeigt nicht, wenn es und wird funktionieren, wenn es nicht. Ferner muss das verstärkte fragen Ansatz noch nicht gute Möglichkeiten haben zu Unsicherheit um seine Schätzungen beziffern. Allerdings verstärkt fragen tiefen Verbindungen zu drei große Bereiche in der Statistik-Modell-basierten Post Schichtung hat (Little 1993) , Anrechnungs (Rubin 2004) und kleinflächigen Schätzung (Rao and Molina 2015) -und so erwarte ich , dass der Fortschritt wird schnell sein.

Amplified Vorstellung folgt ein Grundrezept, die auf Ihre Situation zugeschnitten werden können. Es gibt zwei Bestandteile und zwei Schritten. Die beiden Bestandteile sind: 1) eine digitale Spur Datenmenge, die breit ist aber dünn (das heißt, es viele Menschen hat, aber nicht die Informationen, die Sie über die einzelnen Personen müssen) und 2) eine Umfrage, die schmal ist, aber dick (das heißt, es hat nur ein paar Leute, aber es hat die Informationen, die Sie über diese Leute benötigen). Dann gibt es zwei Schritte. Erstens, für die Menschen in beiden Datenquellen, den Aufbau eines maschinellen Lernmodell, das digitale Trace-Daten verwendet Umfrageantworten zu prognostizieren. Als nächstes benutzen dieses Modell für maschinelles Lernen die Umfrageantworten von jeder in den digitalen Trace-Daten zu zurechnen. Wenn also es gibt einige Frage, die Sie zu viele Leute fragen wollen, suchen Sie nach digitalen Trace-Daten von den Menschen, die verwendet werden könnten, ihre Antwort zu prognostizieren.

Blumenstock des ersten und zweiten Versuch, das Problem Vergleich zeigt auch eine wichtige Lektion über den Übergang von der zweiten Ära dritten Ära Ansätze der Forschung zu überblicken: der Anfang ist nicht das Ende. Das heißt, viele Male, der erste Ansatz wird nicht die beste sein, aber wenn die Forscher Arbeits weiter, können die Dinge besser werden. Allgemeiner gesagt, wenn im digitalen Zeitalter neue Ansätze zur Sozialforschung Evaluierung ist es wichtig, zwei verschiedene Auswertungen zu machen: 1), wie gut diese Arbeit jetzt tut und 2) wie gut denken Sie, dies in der Zukunft als die Datenlandschaft funktionieren könnte Änderungen und als Forscher widmen, um dem Problem mehr Aufmerksamkeit. Obwohl, sind darauf trainiert, die Forscher die erste Art der Auswertung zu machen (wie gut ist dieses Stück der Forschung), ist die zweite oft wichtiger.