Gipangayo ang pagpangayo gamit ang predictive model aron kombinasyon sa datos sa survey gikan sa pipila ka mga tawo nga dunay dakong tinubdan sa datos gikan sa daghang mga tawo.
Ang lain nga paagi sa pagsagup sa surbey ug dagkong mga tinubdan sa datos usa ka proseso nga akong tawgon nga gipangayo nga gipangayo . Sa gipanghingusgan nga pagpangutana, ang usa ka tigdukiduki naggamit sa usa ka predictive model aron sa pagsagup sa usa ka gamay nga kantidad sa kasayuran sa survey nga adunay dako nga tinubdan sa datos aron makamugna ang mga pagbanabana sa usa ka sukdanan o granularity nga dili mahimong posible sa indibidwal nga tinubdan sa tinagsa nga tinagsa. Usa ka importante nga pananglitan sa gipangayo nga gipangayo nagagikan sa buhat ni Joshua Blumenstock, kinsa gusto nga mangolekta og mga datos nga makatabang sa paggiya sa kalamboan sa mga kabus nga mga nasud. Sa nangagi, ang mga tigdukiduki nga nagkolekta niining matang sa datos sa kinatibuk-an kinahanglan nga magdala sa usa sa duha ka mga pamaagi: sample surveys o censuses. Ang mga panukiduki nga sampol, diin ang mga tigdukiduki mag-interbyu sa usa ka gamay nga gidaghanon sa mga tawo, mahimong mahimo nga flexible, tukma sa panahon, ug medyo barato. Bisan pa, kini nga mga survey, tungod kay kini gibase sa usa ka sample, kanunay nga limitado sa ilang resolusyon. Uban sa usa ka sampol nga survey, kasagaran lisud ang paghimo sa mga pagbanabana mahitungod sa mga piho nga rehiyon sa geograpiya o alang sa piho nga mga grupo sa demograpiko. Ang Censuses, sa laing bahin, mosulay sa pag-interbyu sa tanan, ug aron kini magamit aron makamugna ang mga gibanabana alang sa gagmay nga mga rehiyon sa geograpiya o mga demograpikong grupo. Apan ang mga census sa katibuk-an mahal kaayo, hiktin ang focus (kini naglakip lamang sa gamay nga gidaghanon sa mga pangutana), ug dili tukma sa panahon (mahitabo kini sa usa ka natakda nga eskedyul, sama sa matag 10 ka tuig) (Kish 1979) . Imbes nga magpabilin sa sampol nga mga surbey o mga census, hunahunaa kon ang mga tigdukiduki mahimo nga maghiusa sa labing maayo nga mga kinaiya sa duha. Hunahunaa kon ang mga tigdukiduki makapangutana sa matag tawo matag adlaw. Siyempre, kini nga kanunay nga nahibal-an, kanunay-sa survey usa ka matang sa fantasy sa social science. Apan kini nagpakita nga kita makasugod sa pagbanabana niini pinaagi sa pagsagol sa mga pangutana sa survey gikan sa usa ka gamay nga gidaghanon sa mga tawo nga adunay mga digital nga agianan gikan sa daghang mga tawo.
Ang panukiduki ni Blumenstock nagsugod sa dihang nakig-partner siya sa kinadak-ang cellphone provider sa Rwanda, ug ang kompaniya naghatag sa anonymized nga mga rekord sa transaksyon gikan sa mga 1.5 ka milyon nga mga kustomer sa tunga-tunga sa 2005 ug 2009. Kini nga mga rekord adunay impormasyon bahin sa matag tawag ug text message, sama sa pagsugod nga panahon, , ug gibana-bana nga nahimutangan sa geograpikanhon nga tawag sa tigpatawag ug tigdawat. Sa wala pa ako maghisgot mahitungod sa mga istatistika nga mga isyu, takus nga ipasabut nga kining unang lakang mahimong usa sa pinakalisud sa daghang mga tigdukiduki. Ingon sa akong gihulagway sa kapitulo 2, ang kadaghanan nga dagkong mga tinubdan sa datos dili maagian sa mga tigdukiduki. Ang telepono nga meta-data, ilabi na, labi nga dili ma-access tungod kay kini dili mahimo nga anonymize ug kini hapit nga adunay mga kasayuran nga giisip sa mga partisipante nga sensitibo (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Niining partikular nga kaso, ang mga tigdukiduki nag-amping sa pagpanalipod sa datos ug ang ilang trabaho gipangulohan sa usa ka ikatulo nga partido (ie, ang ilang IRB). Mobalik ko niining mga isyu sa pamatasan nga mas detalyado sa kapitulo 6.
Ang Blumenstock interesado sa pagsukod sa bahandi ug kaayohan. Apan kining mga kinaiya dili direkta sa mga rekord sa tawag. Sa laing pagkasulti, kini nga mga rekord sa pagtawag dili kompleto alang sa kini nga panukiduki-usa ka komon nga bahin sa dagkong mga tinubdan sa datos nga gihisgutan sa detalye sa kapitulo 2. Hinuon, lagmit nga ang mga rekord sa tawag tingali adunay pipila nga kasayuran nga sa dili diretso makahatag sa kasayuran mahitungod sa bahandi ug kaayohan. Tungod sa maong posibilidad, ang Blumenstock nangutana kon posible ba nga bansayon ang usa ka model sa pagkat-on sa makina aron pagtag-an kon unsaon pagtubag sa usa ka survey nga gibase sa ilang mga call record. Kung kini mahimo, unya ang Blumenstock makagamit niini nga modelo aron pagtag-an ang tubag sa survey sa tanan nga 1.5 ka milyon nga mga kustomer.
Aron sa pagtukod ug pagbansay sa ingon nga modelo, ang Blumenstock ug mga tigdukiduki sa pagtuon gikan sa Kigali Institute of Science and Technology nagtawag sa usa ka random nga sample nga mga usa ka libo nga mga kustomer. Gisaysay sa mga tigdukiduki ang mga tumong sa proyekto ngadto sa mga partisipante, nangayo sa ilang pag-uyon nga i-link ang mga tubag sa survey sa mga rekord sa pagtawag, ug dayon gipangutana sila sa sunod-sunod nga mga pangutana aron sukdon ang ilang bahandi ug kaayohan, sama sa " radyo? "ug" Nasakop ka ba nga bisikleta? "(tan-awa ang numero nga 3.14 alang sa usa ka listahan sa parsyal). Ang tanan nga mga sumasalmot sa survey nga gipanghatag pinansyal.
Sunod, ang Blumenstock naggamit sa usa ka duha ka lakang nga pamaagi nga komon sa pagkat-on sa makina: paghimo sa kinatibuk-ang engineering nga gisundan sa supervised learning. Una, sa lakang sa paghimo sa paghimo sa feature , alang sa tanan nga giinterbyu, gibag-o ni Blumenstock ang mga rekord sa tawag ngadto sa usa ka hugpong sa mga kinaiya sa matag tawo; Pananglitan, alang sa matag tawo, ang Blumenstock nagbanabana sa kinatibuk-ang gidaghanon sa mga adlaw nga adunay kalihokan, ang gidaghanon sa mga nagkalainlaing mga tawo nga nakit-an sa usa ka tawo, ang mga kantidad nga salapi nga gigahin sa oras sa oras sa airtime, ug uban pa. Sa kritikal, ang maayo nga kinaiya sa engineering nagkinahanglan og kahibalo sa kahimtang sa panukiduki. Pananglitan, kon mahinungdanon ang pag-ila tali sa lokal ug internasyonal nga mga tawag (mahimo kita nga magdahum nga ang mga tawo nga gitawag nga internasyonal nga mahimong mas adunahan), nan kini kinahanglan nga buhaton sa lakang sa feature engineering. Ang usa ka tigdukiduki nga adunay gamay nga pagsabot sa Rwanda dili mahimong maglakip niini nga bahin, ug unya ang prediksyon nga paghimo sa model nga mag-antus.
Sunod, sa lakang nga gitun- an sa pagtuon , ang Blumenstock nagtukod og usa ka modelo aron pagtagna sa tubag sa pagtan-aw alang sa matag tawo base sa ilang mga bahin. Sa kini nga kaso, ang Blumenstock migamit sa logistic nga pagbag-o, apan mahimo unta niya nga gigamit ang nagkalainlain nga lain nga pamaagi sa pagtuon sa estadistika o machine.
Busa unsa kini ka maayo? Ang Blumenstock ba makatagna sa mga tubag sa mga pangutana sa survey sama sa "Nagbaton ka ba og radyo?" Ug "Nagbaton ka ba og bisikleta?" Gamit ang mga feature nga nakuha gikan sa mga rekord sa tawag? Aron mahibal-an ang paghimo sa iyang predictive model, si Blumenstock migamit sa cross-validation , usa ka teknik nga kasagarang gigamit sa siyensiya sa datos apan panagsa ra sa social science. Ang tumong sa cross-validation mao ang paghatag og usa ka patas nga pagtan-aw sa predictive performance sa usa ka modelo pinaagi sa pagbansay niini ug pagsulay niini sa nagkalainlain nga mga subset sa datos. Sa partikular, gibahin sa Blumenstock ang iyang datos ngadto sa 10 ka tipik nga 100 ka tawo matag usa. Dayon, gigamit niya ang siyam sa mga tipik sa pagbansay sa iyang modelo, ug ang predictive performance sa binansay nga modelo gi-evaluate sa nahabilin nga tipik. Gisubli niya kini nga pamaagi 10 ka beses-nga ang matag tipik sa datos nagkuha sa usa ka turno ingon nga pag-validate nga datos-ug gitubag ang mga resulta.
Ang katukma sa mga panagna taas alang sa pipila ka mga kinaiya (larawan 3.14); pananglitan, ang Blumenstock makatagna sa 97.6% katukma kon ang usa adunay usa ka radyo. Mahimo kini nga makapahingangha, apan importante kanunay nga itandi ang usa ka komplikadong paagi sa pagpanagna batok sa usa ka simple nga kapilian. Sa kini nga kaso, ang usa ka yano nga alternatibo mao ang pagtagna nga ang matag usa maghatag sa pinaka sagad nga tubag. Pananglitan, 97.3% sa mga respondent nagtahu nga nanag-iya og radyo aron kung ang Blumenstock nagtagna nga ang tanan mag-report sa pag-angkon sa usa ka radyo nga siya adunay katukma sa 97.3%, nga kahibulongan susama sa paghimo sa iyang mas komplikadong pamaagi (97.6% nga katukma) . Sa laing pagkasulti, ang tanang nindot nga datos ug pagmodelo nagdugang sa katukma sa prediksyon gikan sa 97.3% ngadto sa 97.6%. Apan, alang sa ubang mga pangutana, sama sa "Ikaw ba adunay bisikleta?", Ang mga panagna mas milambo gikan sa 54.4% ngadto sa 67.6%. Labaw sa kinatibuk-an, ang numero 3.15 nagpakita nga alang sa pipila nga mga kinaiya ang Blumenstock wala kaayo mag-uswag nga labaw pa sa paghimo sa yano nga pagtagna sa baseline, apan alang sa uban nga mga kinaiya adunay pag-uswag. Ang pagtan-aw lang niini nga mga resulta, bisan pa niana, ikaw tingali dili maghunahuna nga kini nga paagi labi ka promising.
Hinuon, usa lang ka tuig ang milabay, ang Blumenstock ug duha ka kaubanan-Gabriel Cadamuro ug Robert On-nagpatik sa usa ka papel sa Science nga may mas maayo nga resulta (Blumenstock, Cadamuro, and On 2015) . Adunay duha ka mga teknikal nga rason alang niini nga kalamboan: (1) sila migamit sa mas sopistikado nga mga pamaagi (ie, usa ka bag-o nga pamaagi sa paghimo sa engineering nga engineering ug usa ka mas komplikado nga modelo aron pagtag-an ang mga tubag gikan sa mga bahin) ug (2) kay sa pagsulay sa pagtubag sa mga tubag ngadto sa indibidwal Survey nga mga pangutana (pananglitan, "Ikaw ba adunay usa ka radyo?"), sila misulay sa pag-ihap sa usa ka composite wealth index. Kini nga mga pagpalambo sa teknikal nagpasabot nga makahimo sila og makatarunganon nga trabaho sa paggamit sa mga rekord sa pagtawag aron sa pagtagna sa bahandi alang sa mga tawo sa ilang sample.
Apan, ang pagtagna sa bahandi sa mga tawo diha sa sample dili mao ang tumong sa panukiduki. Hinumdomi nga ang katapusang tumong mao ang pagsagol sa pipila sa mga labing maayo nga mga bahin sa mga sampol nga panukiduki ug mga pagsenso aron sa paghimo sa mga tukma, taas nga pagtan-aw sa kapobrehon sa mga nagakaugmad nga mga nasud. Aron mahibal-an ang ilang abilidad sa pagkab-ot niini nga tumong, ang Blumenstock ug mga kaubanan migamit sa ilang modelo ug sa ilang mga datos sa pagtagna sa bahandi sa tanan nga 1.5 ka milyon nga mga tawo diha sa mga rekord sa tawag. Ug gigamit nila ang impormasyon sa geospatial nga nalakip sa mga rekord sa tawag (hinumdomi nga ang kasayuran naglakip sa nahimutangan sa labing duol nga cell tower alang sa matag tawag) aron mabanabana ang gibanabanang dapit sa pinuy-anan sa matag tawo (Figure 3.17). Nagdungan niining duha nga mga pagbanabana, ang Blumenstock ug mga kaubanan nakamugna sa pagbanabana sa geograpiya sa pag-apod-apod sa bahandi sa subscriber sa hilabihan nga maayo nga spatial nga granularity. Pananglitan, mahimo nila ang pagtantiya sa kasagaran nga bahandi sa matag usa sa 2,148 nga mga selda sa Rwanda (ang pinakagamay nga yunit sa pamunoan sa nasud).
Unsa ka maayo kining mga pagbanabana nga nahiuyon sa aktwal nga ang-ang sa kakabus niining mga rehiyon? Sa dili pa ako motubag sa maong pangutana, gusto nakong hatagan og gibug-aton ang kamatuoran nga adunay daghan nga mga hinungdan nga maduhaduhaon. Pananglitan, ang katakos sa paghimo sa mga panagna sa indibidwal nga lebel maulawon kaayo (tan-awa 3.17). Ug, tingali mas importante, ang mga tawo nga adunay mga cellphone mahimong sistematikong lahi gikan sa mga tawo nga walay mga mobile phone. Busa, ang Blumenstock ug mga kaubanan tingali nag-antus gikan sa mga tipo sa mga kasayuran sa pagsakop nga mapasipalahon sa 1936 Literary Digest survey nga akong gihulagway sa sayo pa.
Aron masabtan ang kalidad sa ilang mga gibana-bana, ang Blumenstock ug mga kaubanan gikinahanglan nga itandi kini sa laing butang. Maayo na lang, sa susama nga panahon sa ilang pagtuon, laing grupo sa mga tigdukiduki ang nagpadagan sa mas tradisyonal nga social survey sa Rwanda. Kining laing surbi-nga bahin sa daghang gitahod nga Demographic and Health Survey nga programa-adunay dako nga badyet ug naggamit sa taas nga kalidad, tradisyonal nga mga pamaagi. Busa, ang mga pagbanabana gikan sa Demographic and Health Survey nga makatarunganon nga ikonsiderar nga estima sa bulawan nga gibanabana. Sa diha nga ang duha nga mga pagbanabana gitandi, sila susama (tan-awa 3.17). Sa laing pagkasulti, pinaagi sa paghiusa sa usa ka gamay nga gidaghanon sa datos sa pagtan-aw sa mga rekord sa pagtawag, ang Blumenstock ug mga kaubanan nakahimo sa pagpakita sa mga banabana nga susama sa mga gikan sa standard nga mga pamaagi sa bulawan.
Ang usa nga magduhaduha tingali makakita niini nga mga resulta ingon nga usa ka kahigawad. Hinoon, usa ka paagi sa pagtan-aw niini mao ang pag-ingon nga pinaagi sa paggamit sa daku nga kasayuran ug pagkat-on sa makina, ang Blumenstock ug mga kaubanan nakahimo sa pagbanabana nga mahimong mas masaligan pinaagi sa mga pamaagi nga anaa na. Apan wala ko maghunahuna nga mao ang husto nga paagi sa paghunahuna mahitungod niini nga pagtuon tungod sa duha ka hinungdan. Una, ang mga banabana gikan sa Blumenstock ug mga kaubanan mga 10 ka beses nga mas paspas ug 50 ka higayon nga mas barato (sa dihang ang gasto gisukod sumala sa mga gasto nga kapilian). Ingon sa akong gipangatarungan sa sayo pa niini nga kapitulo, ang mga tigdukiduki mibaliwala sa gasto sa ilang katalagman. Pananglitan niini, ang talagsaong pagkunhod sa gasto nagpasabot nga imbis nga pagdagan kada pipila ka tuig-ingon nga sukaranan alang sa Demographic and Health Surveys-kini nga matang sa survey mahimo nga pagadagan matag bulan, nga maghatag og daghang mga bentaha alang sa mga tigdukiduki ug polisiya mga magbubuhat. Ang ikaduha nga katarungan nga dili magdala sa panglantaw nga panglantaw mao nga kini nga pagtuon naghatag sa usa ka batakang resipe nga mahimong gipahaum sa daghang nagkalainlain nga mga sitwasyon sa pagsiksik. Kini nga resipe adunay duha ka mga sangkap ug duha ka mga lakang. Ang mga sambog mao ang (1) usa ka dako nga tinubdan sa datos nga lapad apan nipis (kini, adunay daghan nga mga tawo apan dili ang kasayuran nga gikinahanglan ninyo sa matag tawo) ug (2) usa ka survey nga hiktin apan baga (ie, kini adunay pipila ka mga tawo, apan kini adunay impormasyon nga imong gikinahanglan mahitungod sa mga tawo). Dayon kini nga mga sagol gihugpong sa duha ka mga lakang. Una, alang sa mga tawo sa duha ka tinubdan sa datos, pagtukod og usa ka modelo sa pagkat-on sa makina nga naggamit sa dako nga tinubdan sa datos aron sa pagtagna sa mga tubag sa survey. Sunod, gamita kana nga modelo aron ipahamtang ang mga tubag sa survey sa tanan sa dako nga tinubdan sa datos. Busa, kung adunay usa ka pangutana nga gusto nimo nga pangutan-on ang daghang mga tawo, pangitaa ang usa ka dako nga tinubdan sa datos gikan sa mga tawo nga mahimong gamiton sa pagtagna sa ilang tubag, bisan kung wala ka mahunahuna mahitungod sa dako nga tinubdan sa datos . Nga mao, ang Blumenstock ug ang mga kaubanan wala mag-amping sa mga rekord sa tawag; nalingaw lamang sila sa mga rekord sa tawag tungod kay mahimo kining gamiton sa pagtagna sa mga tubag sa survey nga ilang gimahal. Kini nga kinaiya-lamang nga dili direkta nga interes sa dako nga tinubdan sa datos-nagapadako nga nangutana nga lahi gikan sa gipangutana nga gipangutana, nga akong gihulagway sa sayo pa.
Sa konklusyon, ang Blumenstock's amplified inquiring approach nagkombinar sa mga datos sa pagsurbi sa usa ka dako nga tinubdan sa datos aron makamugna ang mga pagbanabana nga susama sa mga gikan sa usa ka survey sa bulawan nga sukaranan. Kining partikular nga panig-ingnan usab nagpatin-aw sa pipila sa mga pagbaligya tali sa gipanghingusgan nga pagpangutana ug sa tradisyonal nga mga pamaagi sa pagsurbi. Ang gipadako nga pagpangutana sa mga pagbanabana mas tukma sa panahon, labi ka mas barato, ug mas granular. Apan, sa laing bahin, wala pay usa ka lig-on nga teoretikal nga basehan alang niining matang sa gipangayo nga pagpangayo. Kining nag-una nga panig-ingnan wala magpakita kon kini nga paagi magtrabaho ug kung dili, ug ang mga tigdukiduki nga naggamit niini nga pamaagi kinahanglan nga ilabi na nga nabalaka mahitungod sa posible nga mga pagpaangay nga hinungdan sa kinsa ang gilakip-ug kinsa wala gilakip-sa ilang dako nga tinubdan sa datos. Dugang pa, ang gipangayo nga paagi nga gipangayo nga wala pa adunay maayong mga paagi sa pagbana-bana nga walay pagduhaduha sa palibot sa mga pagbanabana niini. Maayo na lang, ang gipanghingusgan nga pagpangutana adunay lawom nga koneksyon sa tulo ka dagkong mga lugar sa statistics-small-area estimation (Rao and Molina 2015) , imputation (Rubin 2004) , ug post-stratification nga nakabase sa modelo (nga dunay kalambigitan niini sa Mr. P., ang pamaagi nga akong gihulagway sa sayo pa sa kapitulo (Little 1993) . Tungod niining mga dugtong nga mga koneksyon, akong gipaabut nga daghan sa mga metodo nga pundasyon sa gipangayo nga pagpangayo sa dili madugay mapalambo.
Sa katapusan, ang pagtandi sa una ug ikaduha nga paningkamot ni Blumenstock naghulagway usab sa usa ka importante nga pagtulun-an mahitungod sa digital-age social research: ang sinugdanan dili ang katapusan. Kana, sa daghang mga higayon, ang unang pamaagi dili mao ang pinakamaayo, apan kon ang mga tigdukiduki nagpadayon sa pagtrabaho, ang mga butang mahimong mas maayo. Sa kinatibuk-an, sa pagtimbangtimbang sa bag-ong pamaagi sa paniksik sa katilingban sa digital nga edad, importante ang paghimo sa duha ka managlahi nga mga pagtimbang-timbang: (1) Unsa ka maayo kini nga buhat karon? ug (2) Unsa ka maayo kini nga trabaho sa umaabot samtang ang datos sa datos mausab ug samtang ang mga tigdukiduki naghatag og dugang nga pagtagad sa problema? Bisan tuod ang mga tigdukiduki gibansay sa paghimo sa una nga matang sa pagtimbang-timbang, ang ikaduha mao ang mas importante.