Amplified requesting using a predictive model to combine data from some people with a large data source from many people.
Una manera diversa di cunghjuntà l'indagine è e grande fonti di dati hè un prucessu chì aghju chjamatu amplificate dumandendu . In amplified request, un investigatore utilizeghja un mudellu predittore per combine una quantità petite di data di a storia cù una biga fonte di dati per a pruduzzioni estimi à una scala o granuletà chì ùn sianu micca pussibuli cun una fonte di dati individually. Un esempiu impurtante di dumanda amplifikata veni da u travagliu di Joshua Blumenstock, chì vulia recopilarie dati chì puderanu aiutà à guidari l'evoluzione in paesi poviri. In u passatu, i circhieri chì cullittinu di sta tipu di dati avianu generalmente di piglià unu di dui approcqui: esempii di suntupi o censensi. I tistimonii di mostra, induve i furzeru entrevista per un pocu nimu di pirsuni, pò esse fiasche, puntuale è pocu prezzu. Invece, sti recrucii, perchè sò basati nantu à una mostra, sò spessu limitati in a so risoluzione. Cù un esiste illustratu, hè spessu difficili fà estimi nantu à e geografichi spicìfici o di gruppi demografichi specifichi. Census, per un'antra cuntrollà, tentativu di entrevista per tutti, è cusì ponu esse adupratu per pruduce estimi per i regioni geografichi o gruppi demografichi. Ma i censins sò generale ghjustificammi, ristrettu in u focu (inclettenu micca un pocu nummiru di dumande), è micca puntualmenti (succerenu nantu à un schedariu fissa, cum'è ogni 10 anni) (Kish 1979) . Invece di stata presa cù studii di mostra o censine, imagine si i circh merchants puderanu combine e caratteristiche caratteristiche di i dui. Imagine si i ricchieri puderanu dumandà ogni dumanda à ogni persona ogni ghjornu. Ovviamente, questa ubiquitous, sempre-on survey hè un tipu di fantasía di scienza suciali. Ma pare chì ci pudemu cumencià per appruntà questu questu cuncertazioni di e indagine di un poghju di persone cù traccia di numarosi persone.
A ricerca di Blumenstock hà iniziatu quandu accumpagna cù u più grande prupietariu telefunicu in Rwanda, è a cumpagnia offra tracci di transazzione anonimizada di circa 1,5 è millioni di Clienti annantu à l'annu 2005 è 2009. Eccu recordi cuntinia infurmazioni nantu à ogni messageria è di testu, cum'è u tempu d'inizione, durata , è a locu geugrafica appuntu di u chjamante è u ricivatore. Prima di parlà di e duminii statistici, vale nutà chì stu primu passu pò esse unu di i più duru per parechji studiaturi. Cumu l'avete scrittu in u capu 2, a più grande fonti di dati sò inaccessibili per i ricchieri. A metametta telefona, in particulare, hè particularmente inaccessibile perchè hè funzionalmente impossibile per anonimizza è quasi cunzunantimenti cuntene l'informazioni chì i participanti sianu cunziddiranu sensittivi (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . In questu casu particulari, i circunsidenti eranu attenti à prutezzione di e dati è i so travagliu hè statu guvernatu da un terzu (ie, u so IRB). Turnaraghju questa misione etica in più dittu in u capitulu 6.
Blumenstock era interessatu à misurà e ricchezza è benessiri. Ma questi tratti ùn sò micca direttamente in i schedarii di chjamati. In autri vocabuli, i chjamati i ricordi sò micca cumpretu per sta ricerca-una funzione cumuni di e grande fonti di dati chì anu discuttu in dettu à u capitu 2. Conveda chì parechje prublema chì l'invintata chjamate hà prublemente una certa informazioni chì puderia indirettu infurmazioni nantu à a ricchezza è benessiri. In vista di sta pussibilità, Blumenstock hà dumandatu se esse possibili à furmà un mudellu di furmazione di mudellu per prevene cusì chì qualcunu risponde à una inspettione in basa à i so registri di chjamate. Se chistu era pussibule, allura Blumenstock puderia usà stu mudellu per predichjà a risposta di l'encuesta di i 1.5 million client.
Per custruisce è furmà un mudellu such, Blumenstock è assistenti di ricerca da l'Istitutu di Scienze è Tecnologia di Kigali chjamatu unu specie aleatorio di circa un milla di clienti. I urdinatore anu spiegatu i ghjochi di u prugettu à i participanti, dumandenu u so accunsentu per vincularà e risposti di l'istruzzioni à l'annunzii di u chjamatu, è dopu li deve dumande una seria di quistioni per misurà a so ricchezza è benessiri, cum'è "E vostre radiu? "è" Avete propiu una bicicletta? "(vede a Figura 3.14 per una lista parziale). Tutti i participanti in l'istima eranu cumpinseri finanzjaramente.
Appressu, Blumenstock hà avutu un prucessu di duie passaghju cumuni in l'impiegazione in macchine: funziunalità di l'ingenieria seguita da u studiu tutale. Prima, in u passu di l' ingenieria di funziona , per tutti chì era entrevista, Blumenstock hà cunvertisce u repertoriu di messa in un settore di caratteristiche di ogni persona; i scientifichi di u dati puderanu chjamate questi caratteristiche "funzioni" è i scientifichi sucietinii ciamarru "variàbili". Per esempiu, per ogni persone, Blumenstock hà calculatu u numaru tutale di ghjorni cù attività, u numaru di distinguiti persone chì una persona hè stata in cuntattu cù u quantità di soldi spent in airtime, è cusì. A critica, l'articuli di bonu funziunalità precisa cunniscenza di l'insemi di ricerca. Per esempiu, si hè impurtante distinguish entre u telefonu internaziunale è internaziunale (puderebbe aspittà chì e persone chì chjamanu internaziunale per esse richeranu), dinò deve esse fatta à u passu di l'engineering engineering. Un investigatore cù pocu cumprinsu di Rwanda ùn pudia micca includeu sta funziona, e poi l'esprissioni predittore di u mudellu soffrinu.
In seguitu, in u passatu di furmazione tutale , Blumenstock hà custruitu un mudellu per predichjà a risposta di l'encore per ogni persone nantu à i so funziunalità. In questu casu, Blumenstock hà fattu a regressione logistica, ma puderia avè utilizzatu una varietà di altre struzzioni statistici o di imprenze di machine.
E quantu beni travaglia? Era Blumenstock hà capaci di pridicà e risposte à i mediate nantu à una storia, cum'è "Ùn possite una radiu?" È "Sò propiu una bicyclette?" Per e funziunalità derivate da i registri di chjamate? Per evaluà l'esercitu di u mudellu predictivo, Blumenstock utilizzava a validazione cruz , una tecnica cummercia in a ciencia di data ma raramenti in a scienza suciali. L'ugettu di a validazione cruz hè di furnisce una valutazione valuta di u funziunamentu predituenti di un mudellu aghjustatu è pruvate nant'à i sottuvisei di dati. In particulare, Blumenstock split his data in 10 tbrunelli di 100 persone. Allora, hà utilizatu novi di i scorci per furmà u so mudellu, è u prugettu predittore di u mudellu furmatu hè stata evaluata annantu à u restu chunk. Hà ripetitu questu prucessu 10 volte- cù ogni zuccadoru di dati hannu acquistatu unu turnu cum'è i dati di validazione, è avè a misura di risultati.
L'accurata di e predizioni hè alta per parechji trait (figura 3.14); per esempiu, Blumenstock hà avutu preditu cù un 97.6% di precisione se qualcuna pussidia un radiu. Questu pò esse impressesimu, ma hè sempri impurtante paragunate un metudu di predicta cumplessu cù un alternativu simplice. In questu casu, una alternativa simpatica hè di predizioni chì tutti daranu a risposta più cumuni. Per esempiu, u 97.3% di i rispondenti cuntonu chì eranu propiu un radio, perchè se Blumenstock avia avutu chì tutti avianu da esse dumandatu una radiu, avissi avutu una precisione di u 97,3%, chì hè surprisingly similar à l'u cumpletu di u so prucessu più cumplessu (97,6% di accurazione) . In altri palori, tutti i dati di fantasia è mudelagginu aumentaru l'accurata di a prediczione da 97,3% à u 97,6%. In ogni casu, per altri dumande, cum'è "Sò propiu una bicyclette?", I pretesi hà megliu di u 54.4% à u 67.6%. In più generalmente, a figura 3.15 ponu amuce chì per un certu qualità, Blumenstock hà micca meghjiru migliori fora d'elli solu à fà a predicazioni basi senzeli, ma chì per altri caratteristiche ci era una qualificazione. Circate solu à questi risultati, però, pudete micca micca pinsatu chì questu stratificatu hè particularmente promettante.
In ogni modu, solu un annu dopu, Blumenstock è dui cumpagni-Gabriel Cadamuro è Robert On-pubblicatu un publicu in a Scienza cun risultati sustanciosu (Blumenstock, Cadamuro, and On 2015) . C'eranu dui mutori tècnichi principali di stà a migliione: (1) anu usatu metudi più sofistuti (per esempiu, un novu approcciu di l'ingenierie di funziona è un mudellu più sofistiticu per predice e risposti di e funzioni) è (2) invece di pruvà di inferisce risposti à individuu quistioni (per esempiu: "Sò propiu una radiu?"), tentaru cun inferiscei un indice riquidu compite. Questa mutazioni tecnichi facia chì puderanu fà un travagliu razoveru di l'utilizazione di i schedarii di ricerca di predizioni di ricche per i persone in u so campatu.
Predicà a ricchezza di i persone in u duminiu, però, ùn era micca l'ultimu capu di a ricerca. Ricordate chì l'ultimu ubbucatu era di cunghjuntà parechji funzione di l'esame e l'annullamentu per pruduce estimi precisi di risorsu di rispevulezza di a miseria in paesi di sviluppu. Per evaluà a so capacità à alcuni stu scopu, Blumenstock è i culleghi utilizàvanu u so mudellu è e so dati per predichjà a ricchezza di tutti i 1,5 milioni di persone in l'annunzii di chjamati. E anu usatu l'infurmazione geospatiale incrutu in l'annunzii di chjana (ricurdà chì e dati comprenu a locu di a torre cellulari più vicinu per ogni chjamata) per stima u locu di a residenza approximativu di ogni persone (figura 3.17). Aduprate sti dui estimi, Blumenstock è i culleghi pruduciunu una stima di a distribuzione geugrafica di a ricchezza di l'abbunati cun granularità spaziali assai fina. Per esempiu, puderanu stimarna a ricchezza medieta in ogni uguardia di 2,148 di Rwanda (a più chjesa unità amministrativa in u paese).
Cume beni sti stimi fugnendu à u livellu riprisentatu di a miseria in queste rigioni? Prima di risponde à sta quistione, vogliu enfatizà u fattu chì ci sò assai razze per esse scettichi. Per esempiu, l'abilità di fà prediczioni à u nivellu individuale era bellu soru (figura 3.17). E, forsi più impurtante, e persone cun telefuni mubilii puderanu esse sistematicamenti distintu di e persone senza telefuninu. Cusì, Blumenstock è i culleghji puderanu pruvà di i tipi d'errore di i curati chì avvirtenu l'encuesta di Digest Digitale di 1936 ch'e aghju scrittu prima.
Per piglià un sensu di a qualità di i so estimi, Blumenstock è i culleghi d'avè necessatu per paragunate cun una altra cosa. Fortunatamente, versu u stessu tempu comu u so studiu, un altru gruppu di ricchieri travagliava una stima sociali più tradiziunali in Rwanda. Questa altra encuesta, chì era parti di u prugramma di dimograziu è à a Salute di Salute, hà avutu un grande budgetu è utilizatu mètudi tradiziunali di alta qualità. Per quessa, l'estimi di l'Enorme Demografiche è Salute pudèbbenu esse cunsideratu estimi urdinariu. Quandu i dui estimi eranu paragunate, eranu assai similari (figura 3.17). In altri termini, cumminendu una piccula quantitata di data di l'encore cù i schedarii di chjamate, Blumenstock è i culleghi sò stati capaci di pruduce estimi paragunate à quelli di approbbiti d'oru standard.
Un scetticu pò vèriche questi risultati com'è diputatu. Dopu tuttu, una manera di vede l'oghje hè di dicu chì cù u big data è l'impiegazione in macchine, Blumenstock è i culleghji puderanu pruduce estimi chì puderà esse fatte più affidabilità di metudi digià prisenti. Ma ùn pensate micca quella hè a manera correcta per crede in stu studiu per dui motivi. Prima, l'estimazioni di Blumenstock è i culleghji erani circa 10 volti più rapidi è 50 quitesi più prezzu (quandu u coste hè quantificatu in termine di costu varià). Comu discèdinu prima di stu capitulu, i circhuddi ignilanu i costi à u so periculu. In questu casu, per esempiu, u drammaturu dimostratu di u costu significa chì invece di esse esercitu ogni pocu annu, cum'è standard per i Studi Demografici è Salute, sti tipi di storia puderia esse dumandata ogni mese, chì furnissi assai vantaghji incù investigarii è pulitiche i pruduttori. A siconda ragiunata per ùn piglià a vista di u scetticu hè chì stu studiu prupone una ricetta basta chì pò esse fatta da diverse situazioni di ricerca. Questa ricetta hè solu dui ingredienti è dui passi. L'ingredienti sò (1) una gran fontazione di dati chì hè àmplia è bella (per esempiu, ha parechje persone ma micca l'infurmazioni chì avete bisognu nantu à ogni persona) è (2) una storia chì hè ristretta ma grossa (per esempio, hè solu uni pochi di pirsuni, ma hè stata l'infurmazioni chì avete bisognu à quelli persone). Sti cumpurte sò dinò in dui passi. Prima, per e persone in i dui fonti di dati, custruiscenu un mudellu di mudellu d'utilizazione chì usa a biga fonte di dati per prevene e risposti di a ricerca. Appena utilizate stu mudellu per appruverisce i rispunsioni di tutti in a big data source. Cusì, se ci hè una quistione chì vulete dumandà parechje persone, cercate una biga fonte di dati di quelli persunalizati chì puderanu esse aduprà a so risposta, ancu s'ellu ùn importa micca a sughjetti di grande datu . Questu hè, Blumenstock è i culleghi ùn hà micca innurmente à cura di i discorsi di chjamati; avianu cose solu di i chjamati registri, perchè puderianu esse adupratu à rimbursà risposti di a ricerca chì si trattavanu. Stu carattaristicu solu interessu indirettu à a biga fonte di dati, fa cumplicate dumandendu diversu di dumandà incrustatu, chì scrivu prima.
In cunclusioni, l'aghjurnamentu di ubbicau di Blumenstock cumminciò una storia di data di l'encore cù una gran basa di dati per pruduce estimi paragunate à quelli di una stategira standard d'oru. In questu esemplariu particulari ancu di alcuni di i scambii trà i pratichi amplifikati è i metudi tradiziunali di a scuperta. L'amplification dumandate stimi eranu più pronti, sustancialmente più prezzu, è più granulare. Ma, per un altra banda, ùn hè micca una fundiata teorica forte per questu tipu di amplified request. Questu cusì ùn pò micca esse indicatu quandu quì st'argumentu hà da travaglià è quandu ùn averebbe micca, è i circunstanti chì utilizanu stu furmulariu deve esse specialmente interessate per i preghjeti pussibuli causati da quale hè stata inclusa, è chì ùn sò micca inclusi, in a so big fonte di dati. Aiutra, l'approcussione amplified facone ùn avete micca boni manichini di quantificà l'incirtezza attornu i so estimi. Fortunatamente, amplified requesting has deep connections to three large areas in statistiche stima di stima di l'altezza (Rao and Molina 2015) , imputation (Rubin 2004) , è una stratificazione di mudellu (quale hè stata intimata da u P., u metudu chì aghju scritte prima in u capitu) (Little 1993) . Per via di sti ligami deepanti, aghju cresce chì parechji fundazioni metodulogichi di dumandà amplificate prestu prestu megliu.
Finalmente, paragunà u primu è segondu attempu di Blumenstock pò ancu illustrà una ludica importante di a ricerca soziale di l'età digitale: u principiu hè micca a fine. Eccu, parechji volte, u primu enfasi ùn serà micca u megliu, ma se i circunsiuri cuntinuanu a travagliari, e cose pò meglii. In modu più generale, quandu evaluanu novi appoghju per a ricerca sociale in l'era digitale, hè impurtante per fà alcune evaluazioni distinti: (1) Quantu cume oghje stu travagliu? è (2) Cumu hè questu travagliu in l'avvene cum'è u paisaje di u cambiamentu di u cambiamentu è comi circadori dedicate più attente à u prublema? Ancu i circhanti sò furmatu per fà u primu tipu d'evaluazione, u sicondu hè spessu più impurtante.