Rapportu incù u to log à vistichi digitale, pò èssiri comu dumandemu tutti i vostri dumanni pi tutti li tempi.
Dumandemu di sòlitu veni in duie categorie principali: Salumeria campionu e censuses. Salumeria campionu, unni ti tuccà un ristrettu nummaru di pirsuni, pò esse sòffice, a pianificazione, è rilitivamenti chambre d. Tuttavia, salumi, masks, perchè ch'elli sò fundate nantu à un asempiu, sò à spessu limitatu à e so decisioni; cù un log asempiu, hè spessu difficiuli à fà estimates su regioni giugrafica spécifique, o di i gruppi demugrafica specifichi. Censuses, nantu à l 'altru, puru à u cuncertu di ognunu in a pupulazione. Hanu gran buscu, ma si faint cari, ristrettu in assu (si cunta sulu un ristrettu nummaru di e dumande), e nun a pianificazione (si metti supra un travagghiu fissu, cume ogni 10 anni) (Kish 1979) . Avà creda chì sè circadori pudia mischjà u megliu e caratteristiche di Salumeria campionu e censuses; creda si pudia dumandà à circadori ogni quistioni a tutti ogni ghjornu.
Currispundenu, stu cuntinui, dapertuttu, sempre-in u log hè un tipu di fantasia di scienza suciali. Ma, si pò vede chì si pò principià à apprussimata stu da a cumminari e dumande log da un ristrettu nummaru di pirsuni cu tanti tracci numerica da parechje persone. I chjamate stu tipu di cumminazzioni Chjami Aghjalesi dumandemu. S'è fattu bè, chì i pudia aiutà ci dà cuntà chì sò più lucale (per varii giugrafica urigginariu), più granular francese (pà i gruppi demugrafica specifichi), e cchiù a pianificazione.
Un esempiu di priannu Chjami Aghjalesi vene da u travagliu di Joshua Blumenstock, chì vulia a sorte di dati chì diventerà aiutà u sviluppu cunfidente in i paesi poveri. Più pricisamenti, Blumenstock vulsutu à crià un sistema di misura di ricchezza è binistà chì assuciata à i completeness di nu cinzimentu cù u sòffice, è ultrahigh di ntôn rilivamentu (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . In fatti, quandu sò natu hò aghjà discrivutu travagliu d'Blumenstock tempu a Chapter 1.
À u principiu, Blumenstock partinarii cù i più grandi webmaestru telefuninu in u Ruanda. A cumpagnia li purtarani i cartulari transazzione anonymized da circa 1.5 milioni di clienti chì coprenu un cumpurtamentu da u 2005 è 2009. Lu azzioni cuntena nfurmazzioni supra ogni missaghju appellu è un testu, comu lu tempu principiu, una missioni, è stimà stage giugrafica di u caller e pirsuna c'arricivi. Prima avemu principiatu capisciu i resultati di statìstiche, hè u colpu mustrannu fora ca stu primu passu pò esse unu di i più duru. As discritta in Chapter 2, più di dati traccia digitale è inaccessibili di circadori. È, parechji impresi sò juridiques dèbbuli di fà sparte a so data, per via ch'ella hè privatu; chì hè a so clienti prubbabbirmenti nun s'aspittava ca lu so dischi sarà encore-à nordu-cu circadori. In stu casu, i circadori pigliò primurosu di passi à anonymize i dati, è u so travagliu fù piazzatu sott'à un terzu-party (vale à dì, a so IRB). Ma, malgradu a sti sforzi, sti dati sunnu prubbabbirmenti ancora frontman è ch'elli atta cuntena infurmazione fattivu (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . I Mulateri Di L'vultà à ste quistioni, etichi in Chapter 6.
Rammentu chì Blumenstock era ntirissatu a misurari la ricchizza e binistà. Ma, sti cosi nun sunnu direttamente in i ricordi d. Nta àutri paroli, sti cartulari d sunnu puru ncumpreta di sta ricerca, una funzione cumunu di e tracce numerica chì fù trattatu cù minuzia a Chapter 2. Ma, mi pare prubabile chì u cartulari d 'prubbabbirmenti hannu quarchi nfurmazzioni supra ricchizza e binistà. Cusì, una manera di dumandendu quistioni d'Blumenstock pudia esse: hè pussibuli à predict cumu qualchissia vi almanaccà risposte contru à un log basata annantu à a so data, traccia, digitale? S'è accussì, allura pi nostra addumannata uni pochi di ghjente si pò idintificari li risposti di tutti l 'autri.
A griglia di stu empirically, Blumenstock e ricerche bóccia de Kigali Istitutu di Science and Technology chjama un campionu di una millaia di i clienti di u telefuninu. Li arricercatura ci spiega i scopi di u prughjettu si à i participanti, dumanda di a so accunsentu à lià i risposti log à i ricordi d, e pùa addumannò cu 'elli una seria di dumande à misurà a so ricchezza è binistà, comu "Nun ti prubitariu di' na radiu? "e" chi ti prubitariu di 'na bicicletta? "(voir figura 3.11 pi na lista parziali). Tutti i participanti à u log foru Réconciliation financially.
Next, Blumenstock usatu una prucedura di dui-passu cumunu in scenza data: ingegneria capace siguita amparera tutoratu. Prima, in u passu di a tupugrafia ingegneria, per ognunu chì fù interviewed, Blumenstock cunvirtuti i ricordi metta in modu nu gruppu di carattiri di circa ogni persona; scentifichi di dati putissi chiamari sti caratteri "carattiristichi" e scinziati suciali elli si chjama "variàbbili." Per esempiu, per ogni parsona, Blumenstock calculata numaru totale di ghjorni cù attività, lu nùmmaru di pirsuni distinti: una persona hè statu in cuntattu cù u muntanti di soldi, passati in u airtime, è cetara è cetara. Critically, bona capace ingegneria abbisogna a cunniscenza di u tramontu di ricerca. Per esempiu, s'ellu hè impurtante a distinguiri tra lu chiama di gnustrii e ntirnazziunali (putemu m'aspettu pòpulu chì chjama ricanusciuta essiri wealthier), allura stu devi essa fattu à u passu di a tupugrafia ingegneria. A so ricerca cù pocu intelligente di Ruanda putissi nun cunta stu casu, e allura lu spettaculu predictive di u mudellu chì soffre.
Next, in u passu amparera tutoratu, Blumenstock custruì un mudellu di statìstiche à predict la risposta rilivamentu di ogni parsona si basa supra li carattiristichi. In stu casu, Blumenstock usatu rughju di project cù 10-volte di cross-cunvalidazione, ma iddu avissi usatu na varietà di lucca avvicinamenti amparera di statìstiche, o macchina.
So quantu beni ci hè u travagliu? Era Blumenstock capaci à predict risposte à e dumande log comu "Nun ti prubitariu di 'na radiu?" E "Nun ti prubitariu di' na bicicletta?" Cù carattiristichi dirivatu da ricordi d '? Generu di. L 'ntiressa la pricisioni di u divi eranu alti per certi parti (Figura 3.11). Ma, ghjè sempre impurtante a parauni di un mètudu cchiù saggi cumplessu contru à un armata alternativa. In stu casu, un cuntu alternativa hè a predict chì ugnunu ti dugnu a risposta a più cumuna. Per esempiu, 97,3% hà dettu chì quistu na radiu accussi si Blumenstock avia prividiri chì ognunu avissi una lagnanza quistu na radiu iddu avissi avutu una pricisioni di 97,3%, chì hè assai simili à u funziunamentu di a so prucedura di più cumplessu (97.6% accuratezza). Nta àutri paroli, tutti i dati di panni, è artificiali cresce a pricisioni di lu saggi da 97,3% di 97,6%. A ogni modu, di autri quistioni, p'asempiu comu "Vò prubitariu di 'na bicicletta?", Li divi migghiurau dâ 54,4% di 67,6%. Più in generale, Figura 3.12 A mostra di certi cosi Blumenstock ùn voli migghiurari tantu cavallieri ghjustu tumuri e lu cuntu cchiù saggi baseline, ma ca ppi àutri cosi ci era certi migliurà.
A 'stu puntu si putissi essiri a pinzari ca sti risultati sò un pocu disappruvazioni, ma' ntra un annu dopu, Blumenstock è dui culleghi-Gabriel Cadamuro è Robert On-publicatu una carta a scienza, cù i risultati cunsistenti megliu (Blumenstock, Cadamuro, and On 2015) . C'eranu dui principali ragioni tecnicu di i migliuramenti: 1) usavanu i metudi più sufisticatu (vale à dì, una nova appruccià si versu a funzione geniu e nu cchiù sufisticata mudellu amparera machine) è 2), chiuttostu ca attempting à infer risposti à individuale e dumande log (per esempiu, "Nun ti prubitariu di 'na radiu?"), ca pirmittia a infer un accogliu di ricchezza tuttu.
Blumenstock e culleghi manifestanti u funziunamentu di u so avvicinamentu in dui modi. Prima, u truvonu ca di lu populu in i so metudi, si putìa fari un beddu bonu travagghiu di pridisci a so ricchezza da ricordi d (Figura 3.14). Siconda, è sempre di più ntî, Blumenstock e culleghi Ammustrau ca lu so 'prucedura pudia fà estimates high-qualità di la distribuzioni giugrafica di a criazioni in u Ruanda. Più pricisamenti, usàvanu nnî so mudeddu amparera machine, ca fu furmatu nantu à i so metudi di circa 1.000 pirsuni, a predict la ricchizza di tutta 1,5 miliuna di pirsuni a li miticulusi d. In seguita, incù i dati geospatial imbarcati in a quannu li dati d (rammentu chì i dati d cumprenni l 'insignamentu di a torra portable cchiù vicini sû per ognunu d'), i circadori eranu capaci à cuntà u locu apprussimata di residenza di ogni pirsuna. Mittennu inseme sti dui estimates, la ricerca pruduciutu stimata di la distribuzioni giugrafica di ricchezza subscriber à estrimamenti fina granulera francese spatial. Per esempiu, si pudia cuntà u ricchezza Average in ognunu di 2148 Leoni d'Rwanda (la cchiù nica unità amministrativi in u paese). Sti valori di ricchezza missile eranu tantu granular francese eranu difficiule à verificà. Cusì, i circadori aggregated i so risultati à fà u estimates di a ricchezza mediu di 30 distretti di u Ruanda. Sti estimates-livellu quartieru foru forti riguardanti lu estimates da un log tradiziunali mudellu d'oru, u Rwandan Taim è Salute bambino (Figura 3.14). Puru siddu li estimates da i dui fonti eranu listesse, u estimates da Blumenstock e culleghi èranu circa 50 volti ecunòmicu e 10 voti cchiù forti (quandu costu in misurata à u nivellu di spesi variàbbili). Stu drammatica carenza di a costu signìfica ca chiu tostu di essiri manciatu tutti i pochi d'anni-comu hè mudellu di Taim è Salute Salumeria-la o di picculi log cumminata câ dicisioni di dati traccia digitale grande pudia esse lanciata di ogni mese.
In cunclusioni, l'Blumenstock Chjami Aghjalesi dumandemu di appruccià si cumbinatu di dati log cù data, traccia, digitale, pi prudùciri estimates paragunabbili sulu cu estimates log oru-lingua standard. Stu particulari esempiu clarifies ancu certi di i mistieri--off trà priannu Chjami Aghjalesi è i metudi di log tradiziunali. Prima, u estimates dumandendu Chjami Aghjalesi eranu più a pianificazione, cunsistenti ecunòmicu, è più granular francese. Ma, nantu à i altra banda, a stu tempu, ùn ci hè micca un forti basi teorichi di stu tipu di priannu Chjami Aghjalesi. Chì hè, ghjè quellu esempiu ùn mostranu, quannu lu ci metteranu e quannu la stissa nun veni. In seguita, u avvicinamentu priannu Chjami Aghjalesi ùn ancu avè bona manere di fà quantify incertezza intornu à a so estimates. Tuttavia, priannu Chjami Aghjalesi hà spechju viaghji à trè grandi zoni in statistiche-mudellu di-based post-stratificazzioni (Little 1993) , imputation (Rubin 2004) , è Aurelia picculi-spaziu (Rao and Molina 2015) -and accussì I m'aspettu ca lu prugressu sarà esse rapida.
priannu Chjami Aghjalesi seguita una ricetta basi ca pò èssiri Sartoria à a vostra situazione particulare. Ci sunnu dui Sbuchjate e cipolle è dui passi. I dui Sbuchjate e cipolle si 1) na traccia dataset numerica chì hè largu, ma a allampanatu (chi è, havi assai genti, ma ùn l'infurmazioni chì ci vole circa ogni persone) è 2) ntôn rilivamentu chì hè ristrettu, ma bilingui (chi è, ciucciata sulu 'na picca genti, ma havi la nfurmazzioni ca vi tuccherà su chiddi pirsuni). Allora, ùn ci sò dui passi. Prima, di u pòpulu in i dui fonti data, di custruì un mudellu amparera machine à chì ghjova di dati traccia digitale à predict risposti log. Next, aduprà chì mudellu di machine à impute i risposti rilivamentu di ognunu in a quannu li dati traccia numerica. Cusì, s'ellu ùn ci hè certi quistioni chì vo vulete dumandà à imbusca di pòpulu, circà di dati traccia numerica da ddi genti ca si putissi essiri usatu pi predict a so risposta.
Comparing primu e lu secùnnu spazziu tintativu d'Blumenstock à u problema è macari nu mpurtanti lezziò di circa la transizzioni dâ secunna èra a avvicinamenti terzu chì anu a rilivamentu di ricerca: lu principiu ùn hè micca a fini. Chì hè, tanti voti, lu primu accostu sarà micca esse u megliu, ma s'ellu circadori permanente di travagghiatura, e cose ponu arrivare megliu. Più in generale, quandu vede novu avvicinamenti à a ricerca suciali in l'età, digitale, hè impurtante di fà dui laus distinti: 1) fà bè chì stu travagliu oghje, è 2) quantu beni ti pari 'stu pudia travaglià in u futuru comu lu panurama données canciamenti e comu circadori dà di più attenti à u prublemu. Puru, circadori si intrattene a fari lu primu tipu di valutazione (comu siti è stu particulare pezzu di ricerca), u sicondu hè spessu più impurtanti.