Amplificato chiedendo di utilizzare un modello predittivo per combinare dati di sondaggi da poche persone con una grande fonte di dati da molte persone.
Un modo diverso di combinare sondaggi e grandi fonti di dati è un processo che chiamerò domanda amplificata . Nella domanda amplificata, un ricercatore utilizza un modello predittivo per combinare una piccola quantità di dati di indagine con una grande fonte di dati al fine di produrre stime su una scala o granularità che non sarebbe possibile con entrambe le fonti di dati individualmente. Un importante esempio di richiesta amplificata viene dal lavoro di Joshua Blumenstock, che voleva raccogliere dati che potessero aiutare a guidare lo sviluppo nei paesi poveri. In passato, i ricercatori che raccoglievano questo tipo di dati generalmente dovevano adottare uno dei due approcci: sondaggi campione o censimenti. Indagini campionarie, in cui i ricercatori intervistano un piccolo numero di persone, possono essere flessibili, puntuali e relativamente economici. Tuttavia, questi sondaggi, poiché sono basati su un campione, sono spesso limitati nella loro risoluzione. Con un sondaggio di esempio, è spesso difficile fare stime su specifiche regioni geografiche o per specifici gruppi demografici. I censori, d'altra parte, tentano di intervistare tutti, e quindi possono essere usati per produrre stime per piccole regioni geografiche o gruppi demografici. Ma i censimenti sono generalmente costosi, ristretti (includono solo un piccolo numero di domande) e non tempestivi (si verificano su un programma fisso, come ogni 10 anni) (Kish 1979) . Piuttosto che rimanere bloccati con sondaggi campione o censimenti, immagina se i ricercatori potessero combinare le migliori caratteristiche di entrambi. Immagina se i ricercatori potessero fare ogni domanda ad ogni persona ogni giorno. Ovviamente, questo sondaggio onnipresente e onnipresente è una specie di fantasia delle scienze sociali. Ma sembra che possiamo cominciare ad approssimare questo combinando le domande del sondaggio di un piccolo numero di persone con tracce digitali di molte persone.
La ricerca di Blumenstock è iniziata quando ha collaborato con il più grande fornitore di telefonia mobile in Ruanda e la società ha fornito registrazioni delle transazioni anonime da circa 1,5 milioni di clienti tra il 2005 e il 2009. Questi record contenevano informazioni su ogni chiamata e messaggio di testo, come l'ora di inizio, durata e approssimativa posizione geografica del chiamante e del destinatario. Prima di parlare dei problemi statistici, vale la pena sottolineare che questo primo passo potrebbe essere uno dei più difficili per molti ricercatori. Come ho descritto nel capitolo 2, la maggior parte delle fonti di dati di grandi dimensioni sono inaccessibili ai ricercatori. I metadati telefonici, in particolare, sono particolarmente inaccessibili perché è praticamente impossibile anonimizzare e quasi certamente contiene informazioni che i partecipanti considererebbero sensibili (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . In questo caso particolare, i ricercatori sono stati attenti a proteggere i dati e il loro lavoro è stato supervisionato da una terza parte (cioè il loro IRB). Tornerò su questi temi etici in modo più dettagliato nel capitolo 6.
Blumenstock era interessato a misurare la ricchezza e il benessere. Ma questi tratti non sono direttamente nei registri delle chiamate. In altre parole, questi record di chiamate sono incompleti per questa ricerca, una caratteristica comune delle grandi fonti di dati che è stata discussa in dettaglio nel capitolo 2. Tuttavia, sembra probabile che i record di chiamata abbiano probabilmente alcune informazioni che potrebbero indirettamente fornire informazioni sulla ricchezza e benessere. Data questa possibilità, Blumenstock ha chiesto se fosse possibile addestrare un modello di apprendimento automatico per prevedere come qualcuno risponderà a un sondaggio in base ai record delle chiamate. Se ciò fosse possibile, Blumenstock potrebbe utilizzare questo modello per prevedere le risposte al sondaggio di tutti i 1,5 milioni di clienti.
Per costruire e addestrare un tale modello, Blumenstock e gli assistenti di ricerca dell'Istituto di scienza e tecnologia di Kigali hanno definito un campione casuale di circa un migliaio di clienti. I ricercatori hanno spiegato gli obiettivi del progetto ai partecipanti, hanno chiesto il loro consenso per collegare le risposte del sondaggio alle registrazioni delle chiamate, e poi hanno posto loro una serie di domande per misurare la loro ricchezza e il loro benessere, ad esempio "Possiedi un radio? "e" Possiedi una bicicletta? "(vedi figura 3.14 per una lista parziale). Tutti i partecipanti al sondaggio sono stati risarciti finanziariamente.
Successivamente, Blumenstock ha utilizzato una procedura in due fasi comune nell'apprendimento automatico: ingegneria delle funzionalità seguita da apprendimento supervisionato. Innanzitutto, nel passaggio dell'ingegneria delle funzionalità , per tutti quelli che sono stati intervistati, Blumenstock ha convertito i record delle chiamate in una serie di caratteristiche relative a ciascuna persona; gli scienziati di dati potrebbero chiamare queste caratteristiche "caratteristiche" e gli scienziati sociali le chiamerebbero "variabili". Ad esempio, per ogni persona, Blumenstock ha calcolato il numero totale di giorni di attività, il numero di persone distinte con cui una persona è stata in contatto, il quantità di denaro speso per il tempo di trasmissione, e così via. In termini critici, una buona ingegnerizzazione delle funzionalità richiede la conoscenza del contesto di ricerca. Ad esempio, se è importante distinguere tra chiamate nazionali e internazionali (potremmo aspettarci che le persone che chiamano a livello internazionale siano più ricche), allora questo deve essere fatto nella fase di ingegnerizzazione delle funzionalità. Un ricercatore con poca conoscenza del Ruanda potrebbe non includere questa caratteristica, e quindi la prestazione predittiva del modello ne risentirebbe.
Successivamente, nella fase di apprendimento supervisionato , Blumenstock ha creato un modello per prevedere la risposta al sondaggio per ciascuna persona in base alle sue caratteristiche. In questo caso, Blumenstock usava la regressione logistica, ma poteva usare una varietà di altri approcci statistici o di apprendimento automatico.
Quindi, quanto bene ha funzionato? Blumenstock era in grado di prevedere le risposte alle domande del sondaggio come "Possiedi una radio?" E "Possiedi una bicicletta?" Utilizzando funzioni derivate dai registri delle chiamate? Per valutare le prestazioni del suo modello predittivo, Blumenstock utilizzava la convalida incrociata , una tecnica comunemente usata nella scienza dei dati ma raramente nelle scienze sociali. L'obiettivo della convalida incrociata è quello di fornire una valutazione equa delle prestazioni predittive di un modello addestrandolo e verificandolo su diversi sottoinsiemi di dati. In particolare, Blumenstock ha suddiviso i suoi dati in 10 blocchi da 100 persone ciascuno. Quindi, ha usato nove dei pezzi per addestrare il suo modello, e la performance predittiva del modello addestrato è stata valutata sul pezzo rimanente. Ha ripetuto questa procedura 10 volte - con ogni pezzo di dati che ha ottenuto un turno come dati di convalida - e ha calcolato la media dei risultati.
L'accuratezza delle previsioni era alta per alcuni tratti (figura 3.14); ad esempio, Blumenstock potrebbe prevedere con una precisione del 97,6% se qualcuno possedeva una radio. Ciò potrebbe sembrare impressionante, ma è sempre importante confrontare un metodo di predizione complesso con un'alternativa semplice. In questo caso, una semplice alternativa è quella di prevedere che tutti daranno la risposta più comune. Ad esempio, il 97,3% degli intervistati ha dichiarato di possedere una radio, quindi se Blumenstock avesse predetto che tutti avrebbero riferito di possedere una radio avrebbe avuto un'accuratezza del 97,3%, che è sorprendentemente simile alle prestazioni della sua procedura più complessa (accuratezza del 97,6%) . In altre parole, tutti i dati di fantasia e la modellazione hanno aumentato la precisione della previsione dal 97,3% al 97,6%. Tuttavia, per altre domande, come "Possiedi una bicicletta?", Le previsioni sono migliorate dal 54,4% al 67,6%. Più in generale, la figura 3.15 mostra che per alcuni tratti Blumenstock non è migliorato molto oltre la semplice previsione di base, ma che per altri tratti ci sono stati dei miglioramenti. Guardando solo questi risultati, tuttavia, potreste non pensare che questo approccio sia particolarmente promettente.
Tuttavia, solo un anno dopo, Blumenstock e due colleghi, Gabriel Cadamuro e Robert On, hanno pubblicato un articolo su Science con risultati sostanzialmente migliori (Blumenstock, Cadamuro, and On 2015) . C'erano due ragioni tecniche principali per questo miglioramento: (1) hanno usato metodi più sofisticati (cioè un nuovo approccio all'ingegnerizzazione delle caratteristiche e un modello più sofisticato per prevedere le risposte dalle caratteristiche) e (2) piuttosto che tentare di dedurre le risposte ai singoli domande del sondaggio (ad esempio "Possiedi una radio?"), hanno tentato di dedurre un indice di ricchezza composito. Questi miglioramenti tecnici significavano che potevano fare un lavoro ragionevole usando i record delle chiamate per prevedere la ricchezza per le persone nel loro campione.
Prevedere la ricchezza delle persone nel campione, tuttavia, non era l'obiettivo finale della ricerca. Ricorda che l'obiettivo finale era quello di combinare alcune delle migliori caratteristiche delle indagini campionarie e dei censimenti per produrre stime accurate e ad alta risoluzione della povertà nei paesi in via di sviluppo. Per valutare la loro capacità di raggiungere questo obiettivo, Blumenstock e colleghi hanno utilizzato il loro modello e i loro dati per prevedere la ricchezza di tutti i 1,5 milioni di persone nei registri delle chiamate. E hanno usato le informazioni geospaziali incorporate nelle registrazioni delle chiamate (ricorda che i dati includevano la posizione della torre cellulare più vicina per ogni chiamata) per stimare il luogo approssimativo di residenza di ogni persona (figura 3.17). Mettendo insieme queste due stime, Blumenstock e colleghi hanno prodotto una stima della distribuzione geografica della ricchezza dell'abbonato a granularità spaziale estremamente sottile. Ad esempio, potrebbero stimare la ricchezza media in ciascuna delle 2.148 celle del Ruanda (la più piccola unità amministrativa del paese).
Quanto bene queste stime sono state all'altezza del livello reale di povertà in queste regioni? Prima di rispondere a questa domanda, voglio sottolineare il fatto che ci sono molte ragioni per essere scettici. Ad esempio, la possibilità di effettuare previsioni a livello individuale era piuttosto rumorosa (figura 3.17). E, forse ancora più importante, le persone con i telefoni cellulari potrebbero essere sistematicamente diverse da persone senza telefoni cellulari. Quindi, Blumenstock e colleghi potrebbero soffrire dei tipi di errori di copertura che hanno influenzato il sondaggio del Literary Digest del 1936 che ho descritto in precedenza.
Per avere un'idea della qualità delle loro stime, Blumenstock e colleghi dovevano confrontarli con qualcos'altro. Fortunatamente, nello stesso periodo del loro studio, un altro gruppo di ricercatori stava conducendo un sondaggio sociale più tradizionale in Ruanda. Quest'altro sondaggio, che faceva parte del programma Demographic and Health Survey, ampiamente rispettato, aveva un ampio budget e utilizzava metodi tradizionali di alta qualità. Pertanto, le stime dell'Indagine demografica e sulla salute potrebbero essere ragionevolmente considerate stime basate sull'oro. Quando le due stime sono state confrontate, erano abbastanza simili (figura 3.17). In altre parole, combinando una piccola quantità di dati del sondaggio con i record delle chiamate, Blumenstock e colleghi sono stati in grado di produrre stime comparabili a quelle degli approcci basati su gold standard.
Uno scettico potrebbe vedere questi risultati come una delusione. Dopotutto, un modo di vederli è dire che usando i big data e l'apprendimento automatico, Blumenstock e colleghi sono stati in grado di produrre stime che potrebbero essere rese più affidabili con metodi già esistenti. Ma non penso che sia il modo giusto di pensare a questo studio per due ragioni. In primo luogo, le stime di Blumenstock e colleghi erano circa 10 volte più veloci e 50 volte più economiche (quando il costo è misurato in termini di costi variabili). Come ho sostenuto in precedenza in questo capitolo, i ricercatori ignorano il costo a loro rischio e pericolo. In questo caso, ad esempio, la drastica diminuzione dei costi significa che anziché eseguire ogni pochi anni, come è normale per le indagini demografiche e sanitarie, questo tipo di sondaggio potrebbe essere eseguito ogni mese, il che fornirebbe numerosi vantaggi per i ricercatori e la politica maker. La seconda ragione per non prendere in considerazione lo scettico è che questo studio fornisce una ricetta di base che può essere adattata a molte diverse situazioni di ricerca. Questa ricetta ha solo due ingredienti e due passaggi. Gli ingredienti sono (1) una grande fonte di dati ampia ma sottile (cioè, ha molte persone ma non le informazioni di cui hai bisogno su ciascuna persona) e (2) un sondaggio stretto ma spesso (cioè, ha solo poche persone, ma ha le informazioni che ti servono su quelle persone). Questi ingredienti sono quindi combinati in due fasi. Innanzitutto, per le persone in entrambe le origini dati, crea un modello di apprendimento automatico che utilizza la grande fonte di dati per prevedere le risposte del sondaggio. Successivamente, usa quel modello per imputare le risposte del sondaggio di tutti gli utenti della grande fonte di dati. Quindi, se c'è qualche domanda che vuoi chiedere a molte persone, cerca una grande fonte di dati da quelle persone che potrebbero essere usate per prevedere la loro risposta, anche se non ti interessa la grande fonte di dati . Cioè, Blumenstock e colleghi non si preoccupavano intrinsecamente dei registri delle chiamate; si prendevano cura solo dei registri delle chiamate perché potevano essere usati per prevedere le risposte del sondaggio a cui tenevano. Questa caratteristica, solo interesse indiretto nei confronti della grande fonte di dati, rende la richiesta amplificata diversa dalla richiesta incorporata, che ho descritto in precedenza.
In conclusione, l'approccio di richiesta amplificato di Blumenstock ha combinato i dati dell'indagine con una grande fonte di dati per produrre stime comparabili a quelle di un sondaggio sull'oro standard. Questo esempio particolare chiarisce anche alcuni dei compromessi tra il metodo di richiesta amplificato e quello tradizionale. Le stime di richiesta amplificate erano più tempestive, sostanzialmente più economiche e più granulari. Ma, d'altra parte, non c'è ancora una forte base teorica per questo tipo di domanda amplificata. Questo singolo esempio non mostra quando questo approccio funzionerà e quando non lo farà, e i ricercatori che utilizzano questo approccio devono essere particolarmente preoccupati dei possibili pregiudizi causati da chi è incluso - e chi non è incluso - nella loro grande fonte di dati. Inoltre, l'approccio di richiesta amplificato non ha ancora buoni modi per quantificare l'incertezza attorno alle sue stime. Fortunatamente, la domanda amplificata ha profonde connessioni a tre grandi aree nella stima delle statistiche: piccola area (Rao and Molina 2015) , imputazione (Rubin 2004) e post-stratificazione basata su modelli (che è strettamente correlata al signor P., il metodo che ho descritto in precedenza nel capitolo) (Little 1993) . A causa di queste profonde connessioni, mi aspetto che molti dei fondamenti metodologici della domanda amplificata saranno presto migliorati.
Infine, il confronto tra il primo e il secondo tentativo di Blumenstock illustra una lezione importante sulla ricerca sociale dell'era digitale: l'inizio non è la fine. Cioè, molte volte, il primo approccio non sarà il migliore, ma se i ricercatori continuano a lavorare, le cose possono migliorare. Più in generale, quando si valutano i nuovi approcci alla ricerca sociale nell'era digitale, è importante fare due distinte valutazioni: (1) Quanto bene funziona ora? e (2) Quanto bene funzionerà in futuro quando il panorama dei dati cambierà e i ricercatori dedicheranno maggiore attenzione al problema? Sebbene i ricercatori siano addestrati a fare il primo tipo di valutazione, il secondo è spesso più importante.