Amplified na humihiling sa paggamit ng isang predictive na modelo upang pagsamahin ang data ng survey mula sa ilang mga tao na may isang malaking mapagkukunan ng data mula sa maraming mga tao.
Ang isang iba't ibang mga paraan upang pagsamahin ang survey at malaking mga mapagkukunan ng data ay isang proseso na tatawagan ko na humingi ng amplified . Sa amplified na humihingi, ang isang mananaliksik ay gumagamit ng isang predictive na modelo upang pagsamahin ang isang maliit na halaga ng data ng survey na may isang malaking mapagkukunan ng data upang makagawa ng mga pagtatantya sa isang scale o granularity na hindi posible sa alinman pinagmulan ng data nang paisa-isa. Ang isang mahalagang halimbawa ng sobrang pagtatanong ay mula sa gawain ni Joshua Blumenstock, na gustong mangolekta ng data na makatutulong sa pag-unlad sa mga mahihirap na bansa. Sa nakaraan, ang mga mananaliksik na kinokolekta ang ganitong uri ng data sa pangkalahatan ay kinuha ang isa sa dalawang pamamaraan: sample survey o census. Ang mga halimbawang survey, kung saan ang mga mananaliksik ay nagsasalita ng isang maliit na bilang ng mga tao, ay maaaring maging kakayahang umangkop, napapanahon, at medyo mura. Gayunpaman, ang mga survey na ito, dahil batay sa isang sample, ay madalas na limitado sa kanilang resolusyon. Sa isang sample na survey, kadalasan ay mahirap gumawa ng mga pagtatantya tungkol sa mga tiyak na heyograpikong rehiyon o para sa partikular na mga grupo ng demograpiko. Ang mga Censuses, sa kabilang banda, ay sumusubok na pakikipanayam ang lahat, at sa gayon maaari silang magamit upang makabuo ng mga pagtatantya para sa mga maliliit na heyograpikong rehiyon o demograpikong grupo. Subalit ang mga censuses ay karaniwang mahal, makitid sa pokus (kasama lamang nila ang isang maliit na bilang ng mga tanong), at hindi napapanahon (nangyayari sila sa isang nakapirming iskedyul, tulad ng bawat 10 taon) (Kish 1979) . Sa halip na ma-stuck sa mga sample survey o census, isipin kung ang mga mananaliksik ay maaaring pagsamahin ang mga pinakamahusay na katangian ng pareho. Isipin kung maaaring tanungin ng mga mananaliksik ang bawat tanong sa bawat tao araw-araw. Malinaw na, ito ay nasa lahat ng pook, palaging-on survey ay isang uri ng pantasya sa social science. Ngunit ito ay lilitaw na maaari naming magsimula sa humigit-kumulang na ito sa pamamagitan ng pagsasama-sama ng mga katanungan sa survey mula sa isang maliit na bilang ng mga tao na may mga digital na bakas mula sa maraming mga tao.
Ang pananaliksik ni Blumenstock ay nagsimula noong nakipagtulungan siya sa pinakamalaking mobile phone provider sa Rwanda, at ang kumpanya ay nagbigay ng anonymous na mga tala ng transaksyon mula sa mga 1.5 milyong customer sa pagitan ng 2005 at 2009. Ang mga talaan na ito ay naglalaman ng impormasyon tungkol sa bawat tawag at text message, tulad ng oras ng pagsisimula, tagal , at tinatayang lokasyon ng heograpikong lokasyon ng tumatawag at tagatanggap. Bago ko pag-usapan ang tungkol sa mga istatistika na mga isyu, ito ay nagkakahalaga ng pagturo na ang unang hakbang na ito ay maaaring isa sa pinakamahirap para sa maraming mga mananaliksik. Tulad ng inilarawan ko sa kabanata 2, ang karamihan sa mga malaking mapagkukunan ng data ay hindi naa - access sa mga mananaliksik. Ang meta-data ng telepono, sa partikular, ay lalong madaling ma-access sapagkat ito ay karaniwang imposible upang magpadala ng anonymize at ito ay halos tiyak na naglalaman ng impormasyon na ang mga kalahok ay dapat isaalang-alang ang sensitibo (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Sa partikular na kaso, ang mga mananaliksik ay maingat na protektahan ang data at ang kanilang trabaho ay pinangasiwaan ng isang third party (ibig sabihin, ang kanilang IRB). Ako ay babalik sa mga etikal na isyu na mas detalyado sa kabanata 6.
Si Blumenstock ay interesado sa pagsukat ng kayamanan at kagalingan. Ngunit ang mga katangiang ito ay hindi direkta sa mga tala ng tawag. Sa ibang salita, ang mga tala ng tawag ay hindi kumpleto para sa pananaliksik na ito-isang pangkaraniwang katangian ng mga malaking pinagmulan ng datos na tinalakay nang detalyado sa kabanata 2. Gayunman, malamang na ang mga tala ng tawag ay malamang na may ilang impormasyon na maaaring hindi tuwirang magbigay ng impormasyon tungkol sa kayamanan at kagalingan. Dahil sa posibilidad na ito, tinanong ni Blumenstock kung posible bang sanayin ang isang modelo ng pag-aaral ng makina upang mahulaan kung paano tutugon ang isang tao sa isang survey batay sa kanilang mga tala ng tawag. Kung posible ito, maaaring gamitin ng Blumenstock ang modelong ito upang mahulaan ang mga tugon sa survey ng lahat ng 1.5 milyong mga customer.
Upang magtayo at sanayin ang gayong modelo, ang Blumenstock at mga katulong sa pananaliksik mula sa Kigali Institute of Science and Technology ay tinatawag na isang random na sample ng halos isang libong mga customer. Ipinaliwanag ng mga mananaliksik ang mga layunin ng proyekto sa mga kalahok, hiniling ang kanilang pahintulot na iugnay ang mga tugon sa survey sa mga tala ng tawag, at pagkatapos ay tinanong sila ng isang serye ng mga tanong upang sukatin ang kanilang yaman at kagalingan, tulad ng "Mayroon kang isang radyo? "at" Mayroon kang bisikleta? "(tingnan ang pigura 3.14 para sa isang bahagyang listahan). Ang lahat ng mga kalahok sa survey ay nabayaran sa pananalapi.
Susunod, ang Blumenstock ay gumamit ng dalawang hakbang na pamamaraang pangkaraniwan sa pag-aaral ng machine: tampok na engineering na sinusundan ng pinangangasiwaang pag-aaral. Una, sa tampok na hakbang sa engineering , para sa lahat na sinalihan, binago ni Blumenstock ang mga tala ng tawag sa isang hanay ng mga katangian tungkol sa bawat tao; Ang mga siyentipikong datos ay maaaring tumawag sa mga katangiang ito ng "mga tampok" at mga sosyal na siyentipiko ay tatawag sa mga ito na "mga variable." Halimbawa, para sa bawat tao, ang Blumenstock ay kinakalkula ang kabuuang bilang ng mga araw na may aktibidad, ang bilang ng mga natatanging tao na nakikipag-ugnayan sa halaga ng pera na ginugol sa airtime, at iba pa. Critically, ang mahusay na tampok na engineering ay nangangailangan ng kaalaman sa pagtatakda ng pananaliksik. Halimbawa, kung mahalaga na makilala ang pagitan ng domestic at internasyonal na mga tawag (maaari naming asahan ang mga tao na tumawag sa internationally upang maging mas mayaman), pagkatapos ito ay dapat gawin sa tampok na tampok na hakbang. Ang isang mananaliksik na may kaunting pag-unawa sa Rwanda ay hindi maaaring isama ang tampok na ito, at pagkatapos ay ang predictive na pagganap ng modelo ay magdusa.
Susunod, sa pinangangasiwaang hakbang sa pag- aaral , ang Blumenstock ay nagtayo ng isang modelo upang mahulaan ang tugon sa survey para sa bawat tao batay sa kanilang mga tampok. Sa kasong ito, ginamit ni Blumenstock ang logistic regression, ngunit maaaring magamit niya ang iba't ibang iba pang mga pamamaraang pang-istatistikang o pag-aaral ng machine.
Kaya kung gaano kahusay ito gumagana? Nagawa ba ng Blumenstock na mahulaan ang mga sagot sa mga katanungan sa survey tulad ng "Mayroon ka bang radyo?" At "Mayroon ka ba ng bisikleta?" Gamit ang mga tampok na nagmula sa mga tala ng tawag? Upang masuri ang pagganap ng kanyang predictive model, ginamit ni Blumenstock ang cross-validation , isang pamamaraan na karaniwang ginagamit sa agham ng datos ngunit bihira sa social science. Ang layunin ng cross-validation ay upang magbigay ng isang makatarungang pagtatasa ng predictive pagganap ng isang modelo sa pamamagitan ng pagsasanay at pagsubok ito sa iba't ibang mga subset ng data. Sa partikular, binabahagi ni Blumenstock ang kanyang data sa 10 mga chunks ng 100 katao bawat isa. Pagkatapos, gumamit siya ng siyam sa mga piraso upang sanayin ang kanyang modelo, at ang predictive na pagganap ng sinanay na modelo ay sinusuri sa natitirang tipak. Inulit niya ang pamamaraang ito ng 10 beses-sa bawat tipak ng data sa pagkuha ng isang pagliko bilang data ng pagpapatunay-at na-average ang mga resulta.
Ang katumpakan ng mga hula ay mataas para sa ilang mga katangian (tayahin 3.14); halimbawa, ang Blumenstock ay maaaring hulaan na may 97.6% na katumpakan kung ang isang tao ay may isang radyo. Maaaring ito ay kahanga-hanga, ngunit laging mahalaga na ihambing ang isang komplikadong paraan ng hula laban sa isang simpleng alternatibo. Sa kasong ito, isang simpleng alternatibo ay upang mahulaan na ang lahat ay magbibigay ng pinakakaraniwang sagot. Halimbawa, iniulat ng 97.3% ng mga sumasagot na nagmamay-ari ng radyo kaya kung hinulaan na ng Blumenstock na ang lahat ay mag-ulat ng pagmamay-ari ng radyo na may katumpakan siya ng 97.3%, na kamangha-mangha katulad ng pagganap ng kanyang mas kumplikadong pamamaraan (97.6% na kawastuhan) . Sa ibang salita, ang lahat ng mga magarbong data at pagmomolde ay nadagdagan ang katumpakan ng hula mula 97.3% hanggang 97.6%. Gayunpaman, para sa iba pang mga katanungan, tulad ng "Mayroon kang isang bisikleta?", Ang mga hula ay pinabuting mula 54.4% hanggang 67.6%. Sa pangkalahatan, ang figure 3.15 ay nagpapakita na para sa ilang mga katangian ng Blumenstock ay hindi nagpabuti ng higit pa sa paggawa lamang ng simpleng baseline prediction, ngunit para sa iba pang mga katangian ay may ilang mga pagpapabuti. Gayunpaman, sa tingin lamang sa mga resultang ito, hindi mo maaaring isipin na ang diskarteng ito ay partikular na maaasahan.
Gayunpaman, pagkalipas lamang ng isang taon, ang Blumenstock at dalawang kasamahan-sina Gabriel Cadamuro at Robert On-ay naglathala ng isang papel sa Science na may mas mahusay na mga resulta (Blumenstock, Cadamuro, and On 2015) . Mayroong dalawang pangunahing teknikal na kadahilanan para sa pagpapabuti: (1) gumamit sila ng mas sopistikadong mga pamamaraan (ibig sabihin, isang bagong diskarte sa tampok na engineering at isang mas sopistikadong modelo upang mahulaan ang mga tugon mula sa mga tampok) at (2) sa halip na tangkaing ipahiwatig ang mga sagot sa indibidwal mga katanungan sa survey (hal., "Mayroon ka bang radyo?"), sinubukan nilang ipahiwatig ang isang composite index ng yaman. Ang mga teknikal na pagpapabuti na ito ay nangangahulugan na maaari silang gumawa ng makatuwirang trabaho sa paggamit ng mga tala ng tawag upang mahulaan ang yaman para sa mga tao sa kanilang sample.
Gayunman, ang paghula sa yaman ng mga tao sa sample ay hindi ang pangwakas na layunin ng pananaliksik. Tandaan na ang pangunahin na layunin ay upang pagsamahin ang ilan sa mga pinakamahusay na katangian ng mga sample survey at census upang makagawa ng tumpak, mataas na resolution na pagtatantya ng kahirapan sa mga umuunlad na bansa. Upang masuri ang kanilang kakayahang makamit ang layuning ito, ginamit ng Blumenstock at mga kasamahan ang kanilang modelo at ang kanilang data upang mahulaan ang yaman ng lahat ng 1.5 milyong tao sa mga tala ng tawag. At ginamit nila ang geospatial na impormasyon na naka-embed sa mga tala ng tawag (tandaan na ang data ay kasama ang lokasyon ng pinakamalapit na cell tower para sa bawat tawag) upang tantiyahin ang tinatayang lugar ng paninirahan ng bawat tao (tayahin 3.17). Ang paglalagay ng dalawang estima na ito nang magkasama, ang Blumenstock at mga kasamahan ay gumawa ng isang pagtatantya ng heograpikong pamamahagi ng yaman ng subscriber sa napakagandang fine spatial na granularity. Halimbawa, maaari nilang tantiyahin ang average na yaman sa bawat isa sa 2,148 na selula ng Rwanda (ang pinakamaliit na yunit ng pamunuan sa bansa).
Kung gaano kahusay ang mga pagtantya na tumutugma sa aktwal na antas ng kahirapan sa mga rehiyong ito? Bago ako sumagot sa tanong na iyon, gusto kong bigyan ng diin ang katotohanan na maraming mga dahilan upang maging may pag-aalinlangan. Halimbawa, ang kakayahang gumawa ng mga hula sa indibidwal na antas ay medyo maingay (tayahin 3.17). At, marahil higit na mahalaga, ang mga taong may mga mobile phone ay maaaring naiiba sa sistematikong mga tao na walang mga mobile phone. Kaya, ang Blumenstock at mga kasamahan ay maaaring magdusa mula sa mga uri ng mga pagkakamali sa coverage na pumapayag sa survey na 1936 Literary Digest na inilarawan ko nang mas maaga.
Upang magkaroon ng kamalayan sa kalidad ng kanilang mga pagtatantiya, kailangan ng Blumenstock at mga kasamahan na ihambing ang mga ito sa ibang bagay. Sa kabutihang palad, sa parehong panahon ng kanilang pag-aaral, isa pang pangkat ng mga mananaliksik ang nagpapatakbo ng isang mas tradisyonal na panlipunang survey sa Rwanda. Ang ibang surbey na ito-na bahagi ng malawakang iginagalang na Demographic and Health Survey program-ay may malaking badyet at gumamit ng mataas na kalidad, tradisyunal na mga pamamaraan. Samakatuwid, ang mga pagtatantya mula sa Demographic and Health Survey ay maaaring makatwirang maituturing na mga karaniwang pagtatantya ng ginto. Kapag ang dalawang estima ay inihambing, sila ay halos kapareho (tayahin 3.17). Sa ibang salita, sa pamamagitan ng pagsasama ng isang maliit na halaga ng data ng survey sa mga tala ng tawag, ang Blumenstock at mga kasamahan ay nakapagbigay ng mga pagtatantya na katulad ng mula sa mga pamantayang ginto-standard.
Ang isang may pag-aalinlangan ay maaaring makita ang mga resulta bilang isang pagkabigo. Pagkatapos ng lahat, ang isang paraan ng pagtingin sa kanila ay ang sabihin na sa pamamagitan ng paggamit ng malaking data at pag-aaral ng makina, ang Blumenstock at mga kasamahan ay nakapagpakita ng mga pagtatantya na maaaring mas mapagkakatiwalaan ng mga umiiral na pamamaraan. Ngunit sa palagay ko ay hindi ito tamang paraan upang isipin ang pag-aaral na ito sa dalawang dahilan. Una, ang mga pagtatantya mula sa Blumenstock at kasamahan ay halos 10 beses na mas mabilis at 50 beses na mas mura (kapag ang halaga ay sinusukat sa mga tuntunin ng mga variable na gastos). Tulad ng pinag-aralan ko nang mas maaga sa kabanatang ito, hindi pinapansin ng mga mananaliksik ang gastos sa kanilang panganib. Sa kasong ito, halimbawa, ang dramatikong pagbawas sa gastos ay nangangahulugan na sa halip na patakbuhin ang bawat ilang taon-bilang pamantayan para sa Demographic and Health Surveys-ang ganitong uri ng survey ay maaaring tumakbo bawat buwan, na magbibigay ng maraming pakinabang para sa mga mananaliksik at patakaran mga gumagawa. Ang pangalawang dahilan na huwag pag-isipan ang pag-aalinlangan ay ang pag-aaral na ito ay nagbibigay ng isang pangunahing recipe na maaaring iakma sa maraming iba't ibang mga sitwasyon ng pananaliksik. Ang recipe na ito ay may dalawang sangkap lamang at dalawang hakbang. Ang mga sangkap ay (1) isang malaking mapagkukunan ng datos na malawak ngunit manipis (ibig sabihin, maraming tao ito ngunit hindi ang impormasyong kailangan ninyo tungkol sa bawat tao) at (2) isang survey na makitid ngunit makapal (ibig sabihin, mayroon lamang ilang mga tao, ngunit mayroon itong impormasyon na kailangan mo tungkol sa mga taong iyon). Ang mga sangkap na ito ay pinagsama sa dalawang hakbang. Una, para sa mga tao sa parehong pinagmumulan ng data, bumuo ng isang modelo ng pag-aaral ng machine na gumagamit ng malaking mapagkukunan ng data upang mahulaan ang mga sagot sa survey. Susunod, gamitin ang modelong iyon upang i-impute ang mga sagot sa survey sa lahat ng tao sa malaking pinagmulan ng data. Kaya, kung may ilang tanong na gusto mong hilingin sa maraming tao, hanapin ang isang malaking pinagmulan ng data mula sa mga taong maaaring magamit upang mahulaan ang kanilang sagot, kahit na wala kang pakialam tungkol sa malaking pinagmulan ng data . Iyon ay, ang Blumenstock at kasamahan ay hindi nagmamalasakit sa mga tala ng tawag; nag-alala lamang sila tungkol sa mga rekord ng tawag dahil maaaring magamit ito upang mahulaan ang mga sagot sa survey na inaalagaan nila. Ang katangiang ito lamang-di-tuwirang interes sa malaking mapagkukunan ng data-ay nagpapalawak na nagtanong nang iba mula sa naka-embed na pagtatanong, na inilarawan ko nang mas maaga.
Sa konklusyon, ang pinagtibay ng Blumenstock na humihingi ng diskarte ay pinagsama ang data ng survey na may malaking pinagmulan ng data upang makabuo ng mga pagtatantya na maihahambing sa mga mula sa isang gintong basikong survey. Tinutukoy din ng partikular na halimbawa na ito ang ilan sa mga trade-off sa pagitan ng pinagtibay na pagtatanong at mga tradisyonal na pamamaraan sa pagsisiyasat. Ang sobrang pagtatanong sa mga pagtatantiya ay mas napapanahon, malaki ang mas mura, at mas maraming butil. Ngunit, sa kabilang banda, wala pang isang malakas na teoretikal na batayan para sa ganitong uri ng sobrang pagtatanong. Ang isang halimbawa na ito ay hindi nagpapakita kung ang pamamaraan na ito ay gagana at kapag hindi, at ang mga mananaliksik na gumagamit ng diskarte na ito ay dapat na lalo na nag-aalala tungkol sa posibleng biases na sanhi ng kung sino ang kasama-at kung sino ang hindi kasama-sa kanilang malaking mapagkukunan ng data. Bukod dito, ang lumalaking diskarte na humihiling ay wala pang mahusay na paraan upang mabilang ang kawalang katiyakan sa paligid ng mga pagtatantya nito. Sa kabutihang palad, ang sobrang pagtatanong ay may malalim na koneksyon sa tatlong malalaking lugar sa istatistika-maliit na lugar na pagtatantya (Rao and Molina 2015) , imputasyon (Rubin 2004) , at nakabatay sa modelo na post-stratification (na kung saan mismo ay malapit na nauugnay sa Mr. P., ang pamamaraan na inilarawan ko nang mas maaga sa kabanata) (Little 1993) . Dahil sa malalim na koneksyon, inaasahan ko na marami sa mga metodolohikal na pundasyon ng sobrang pagtatanong ay lalong madaling mapabuti.
Sa wakas, ang paghahambing sa una at ikalawang pagtatangka ni Blumenstock ay naglalarawan din ng isang mahalagang aralin tungkol sa social-research ng digital-edad: ang simula ay hindi ang wakas. Iyon ay, maraming beses, ang unang diskarte ay hindi ang pinakamahusay, ngunit kung ang mga mananaliksik ay patuloy na nagtatrabaho, ang mga bagay ay maaaring makakuha ng mas mahusay. Sa pangkalahatan, kapag sinusuri ang mga bagong pamamaraan sa panlipunang pananaliksik sa digital age, mahalagang gumawa ng dalawang magkakaibang pagsusuri: (1) Gaano kahusay ang ginagawa nito ngayon? at (2) Kung gaano kahusay ang gagawin nito sa hinaharap habang nagbabago ang landscape ng data at habang pinupukaw ng mga mananaliksik ang problema sa problema? Kahit na ang mga mananaliksik ay sinanay upang gumawa ng unang uri ng pagsusuri, ang pangalawa ay kadalasang mas mahalaga.