Pag-uugnay ng iyong mga survey sa mga digital na bakas ay maaaring maging tulad ng pagtatanong sa lahat ng iyong mga katanungan sa lahat ng oras.
Asking pangkalahatan ay dumating sa dalawang pangunahing mga kategorya: sample survey at sensus. Sample survey, kung saan mo ma-access ang isang maliit na bilang ng mga tao, ay maaaring maging flexible, napapanahon, at relatibong murang. Gayunman, sample survey, dahil ang mga ito ay batay sa isang sample, ay madalas na limitado sa kanilang resolution; na may isang sample survey, ito ay madalas na mahirap na gumawa ng mga pagtatantya tungkol sa tiyak na geographic na rehiyon o para sa partikular na pangkat ng demograpiko. Sensus, sa kabilang, pagtatangka sa pakikipanayam lahat ng tao sa populasyon. Ang mga ito ay mahusay na resolution, ngunit ang mga ito sa pangkalahatan ay mahal, makitid sa focus (sila lamang isama ang isang maliit na bilang ng mga tanong), at hindi napapanahon (nangyayari ang mga ito sa isang nakapirming iskedyul, tulad ng sa bawat 10 taon) (Kish 1979) . Ngayon isipin kung ang mga mananaliksik ay maaaring pagsamahin ang pinakamahusay na mga katangian ng sample survey at sensus; isipin kung ang mga mananaliksik ay maaaring humingi sa bawat tanong sa lahat ng tao araw-araw.
Malinaw, na ito patuloy na, nasa lahat ng pook, palaging-on survey ay isang uri ng social science fantasy. Ngunit, ito ay lilitaw na maaari naming simulan upang matantiya ito sa pamamagitan ng pagsasama-sama ng survey tanong mula sa isang maliit na bilang ng mga tao na may digital traces mula sa maraming mga tao. Tawag ko sa ganitong uri ng kumbinasyon amplified humihingi. Kung tapos na rin, maaari itong makatulong sa amin ay nagbibigay ng mga pagtatantya na ay mas maraming lokal (para sa mas maliit na geographic na lugar), mas butil-butil (para sa mga tiyak mga demograpikong pangkat), at mas napapanahon.
Ang isang halimbawa ng amplified asking ay mula sa gawain ng Joshua Blumenstock, na nais upang mangolekta ng data na makakatulong sa gabay sa pag-unlad sa mahihirap na bansa. Mas partikular, Blumenstock nais na lumikha ng isang sistema upang masukat kayamanan at kagalingan na pinagsama ang pagiging kumpleto ng isang senso na may ang flexibility at dalas ng isang survey (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Sa katunayan, na ako na inilarawan ko ni Blumenstock trabaho sa madaling sabi sa Chapter 1.
Upang magsimula, Blumenstock nakipagtulungan sa mga pinakamalaking mobile phone provider sa Rwanda. Ang kumpanya ay ibinigay sa kanya ng hindi nakikilalang mga tala ng transaksyon mula sa tungkol sa 1.5 milyong mga customer na sumasaklaw pag-uugali mula 2005 at 2009. Ang mga tala ay naglalaman ng impormasyon tungkol sa bawat tawag at text message tulad ng oras ng pagsisimula, tagal, at tinatayang heyograpikong lokasyon ng tumatawag at receiver. Bago namin simulan ang pakikipag-usap tungkol sa mga statistical mga isyu, ito ay nagkakahalaga ng pagturo out na ang unang hakbang ay maaaring maging isa sa mga hardest. Tulad ng inilarawan sa Kabanata 2, karamihan ng mga digital trace data ay hindi mararating sa mga mananaliksik. At, maraming mga kumpanya ay justifiably nag-aalangan na ibahagi ang kanilang data dahil ito ay pribado; iyon ay ang kanilang mga customer ay malamang ay hindi inaasahan na ang kanilang mga talaan ay ibabahagi-in bulk-sa mga mananaliksik. Sa kasong ito, ang mga mananaliksik kinuha maingat na hakbang upang anonymize ang data at ang kanilang pagkayari ay overseen sa pamamagitan ng isang third-party (ie, ang kanilang IRB). Ngunit, sa kabila ng mga pagsisikap, ang mga data ay marahil pa rin makikilalang at ito ay malamang naglalaman ng sensitibong impormasyon (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Kukunin ko bumalik sa mga etikal na tanong sa Kabanata 6.
Sariwain sa alaala na Blumenstock ay interesado sa pagsukat kayamanan at kagalingan. Subalit, ang mga katangian na ito ay hindi direkta sa mga tala ng tawag. Sa ibang salita, ang mga call records ay hindi kumpleto para sa pananaliksik, ang isang karaniwang tampok ng digital traces na tinalakay sa mga detalye sa Kabanata 2. Ngunit, tila malamang na ang mga tala ng tawag ay malamang na magkaroon ng ilang mga impormasyon tungkol sa kayamanan at kagalingan. Kaya, isang paraan ng pagtatanong ni Blumenstock tanong ay maaaring: ay posible upang mahulaan kung paano ang isang tao ay tumugon sa isang survey na batay sa kanilang mga digital na data trace? Kung gayon, pagkatapos ay sa pamamagitan ng pagtatanong ng ilang mga tao maaari naming hulaan ang mga sagot ng lahat ng ibang tao.
Upang masuri ito empirically, Blumenstock at pananaliksik assistants mula Kigali Institute of Science and Technology na tinatawag na isang sample ng tungkol sa isang libong mga customer mobile phone. Ang mga mananaliksik ipinaliwanag ang mga layunin ng proyekto sa mga kalahok, tinanong para sa kanilang pahintulot na mag-link ang mga survey kasagutan sa mga talaan ng tawag, at pagkatapos ay nagtanong sa kanila ng isang serye ng mga katanungan upang masukat ang kanilang mga yaman at kagalingan, tulad ng "Huwag sarili mo ang isang radio? "at" Mayroon ba kayong sariling isang bisikleta? "(tingnan Figure 3.11 para sa isang bahagyang listahan). Lahat ng mga kalahok sa survey ay bayad sa pananalapi.
Susunod, Blumenstock ginagamit ng isang dalawang-hakbang na pamamaraan karaniwan sa data agham: Ang tampok na engineering na sinusundan ng supervised pag-aaral. Una, sa step tampok engineering, para sa lahat na ay kapanayamin, Blumenstock convert ang mga tala ng tawag sa isang hanay ng mga katangian tungkol sa bawat tao; data siyentipiko ay maaaring tumawag ang mga katangian "features" at panlipunang siyentipiko ay tumawag sa kanila "variable." Halimbawa, para sa bawat tao, Blumenstock kinakalkula kabuuang bilang ng mga araw na may aktibidad, ang bilang ng mga natatanging mga tao ng isang tao ay naging sa contact na may, ang halaga ng pera na ginugol sa airtime, at iba pa. Critically, magandang katangian engineering ay nangangailangan ng kaalaman ng mga setting ng pananaliksik. Halimbawa, kung ito ay mahalaga upang makilala sa pagitan ng domestic at internasyonal na tawag (maaari naming asahan mga tao na tumawag internationally upang maging wealthier), pagkatapos ito ay dapat gawin sa step tampok engineering. Ang isang researcher na may maliit na pag-unawa ng Rwanda ay hindi maaaring isama ang tampok na ito, at pagkatapos ay ang mahuhulain pagganap ng modelo ay magdusa.
Susunod, sa supervised hakbang sa pag-aaral, Blumenstock na binuo ng isang statistical modelo upang mahulaan ang survey tugon para sa bawat tao ayon sa kanilang mga katangian. Sa kasong ito, Blumenstock ginagamit logistic pagbabalik na may 10-fold cross-pagpapatunay, ngunit maaaring siya ay may ginagamit ng iba't-ibang iba pang mga pamamaraang statistical o machine learning.
Kaya kung gaano kahusay ang ginawa ito gumagana? Ay Blumenstock magagawang upang mahulaan sagot sa survey katanungan tulad ng "pagmamay-ari ba kayo ng radio?" At "pag-aari mo ba ng bisikleta?" Gamit ang mga tampok na nagmula mula sa mga tala ng tawag? Medyo. Ang katumpakan ng mga hula ay mataas na para sa ilang mga traits (Figure 3.11). Ngunit, ito ay laging mahalaga upang ihambing ang isang kumplikadong pamamaraan hula laban sa isang simpleng alternatibo. Sa kasong ito, ang isang simpleng alternatibo ay upang mahulaan ang lahat ng tao ay magbibigay sa mga pinaka-karaniwang sagot. Halimbawa, 97.3% iniulat pagmamay-ari ng radio kaya kung Blumenstock ay hinulaang na ang lahat ay ulat pagmamay-ari ng radio siya ay nagkaroon ng isang katumpakan ng 97.3%, na kung saan ay nakakagulat na katulad sa ang pagganap ng kanyang mga mas kumplikadong pamamaraan (97.6% katumpakan). Sa ibang salita, ang lahat ng mga fancy data at pagmomolde nadagdagan ang katumpakan ng mga hula mula 97.3% hanggang 97.6%. Gayunman, para sa iba pang mga katanungan, tulad ng "Mayroon ba kayong sariling isang bisikleta?", Ang mga hula pinabuting mula 54.4% hanggang 67.6%. Higit pang mga pangkalahatan, Figure 3.12 shows para sa ilang mga traits Blumenstock ay hindi mapabuti magkano lampas lamang na gawin ang mga simpleng baseline hula, ngunit na para sa ibang mga traits nagkaroon ng ilang mga pagpapabuti.
Sa puntong ito maaari kang maging iisip na ang mga resulta ay isang bit disappointing, ngunit lamang ng isang taon mamaya, Blumenstock at dalawang kasamahan-Gabriel Cadamuro at Robert On-publish ng isang papel sa Science na may malaki-laking mas magandang resulta (Blumenstock, Cadamuro, and On 2015) . May mga dalawang pangunahing mga teknikal na dahilan para sa pagpapabuti: 1) ginamit nila mas sopistikadong pamamaraan (ibig sabihin, isang bagong diskarte upang itampok engineering at isang mas sopistikadong machine learning model) at 2) sa halip na sa pagtatangka upang ipahiwatig kasagutan sa mga indibidwal na mga tanong sa survey (eg, "Huwag mong pag-aari ng isang radio?"), tinangka nilang magpakilala ng isang composite kayamanan index.
Blumenstock at kasamahan nagpakita ang pagganap ng kanilang mga diskarte sa dalawang paraan. Una, sila ay natagpuan na para sa mga tao sa kanilang mga sample, maaari nilang gawin ang isang medyo magandang trabaho ng predicting ang kanilang mga yaman mula sa mga talaang tawag (Figure 3.14). Pangalawa, at kailanman mas mahalaga, Blumenstock at kasamahan ay nagpakita na ang kanilang pamamaraan ay maaaring gumawa ng mataas na kalidad na mga pagtatantya ng pang-heograpiyang pamamahagi ng mga kayamanan sa Rwanda. Higit pang mga partikular, na ginagamit nila ang kanilang mga machine learning modelo, kung saan ay bihasa sa kanilang mga sample ng tungkol sa 1,000 mga tao, upang mahulaan ang kayamanan ng lahat ng 1.5 milyong mga tao sa mga tala ng tawag. Dagdag dito, may mga geospatial data naka-embed sa data call (pagpapabalik na ang tawag data ay kinabibilangan ng mga lokasyon ng pinakamalapit na cell tower para sa bawat tawag), ang mga mananaliksik ay magagawang upang matantya ang tinatayang lugar ng paninirahan ng bawat tao. Paglalagay ng mga dalawang mga pagtatantya magkasama, ang pananaliksik na ginawa ng isang pagtatantya ng pang-heograpiyang pamamahagi ng mga subscriber kayamanan sa lubhang fine spatial granularity. Halimbawa, maaari nilang matantya ang average kayamanan sa bawat isa sa Rwanda 2148 cells (ang pinakamaliit na yunit administratibo sa bansa). Ang mga hinulaang halaga kayamanan ay kaya butil-butil na sila ay mahirap upang suriin. Kaya, ang mga mananaliksik pinagsama-sama ang kanilang mga resulta upang makabuo ng mga pagtatantya ng average kayamanan ng Rwanda 30 distrito. Ang mga district-level estima ay Matindi na may kaugnayan sa ang mga pagtatantya mula sa isang gintong standard tradisyonal survey, ang Rwandan Demographic and Health Survey (Figure 3.14). Kahit na ang mga pagtatantya mula sa dalawang mga pinagkukunan ay katulad, ang mga pagtatantya mula Blumenstock at kasamahan ay tungkol sa 50 beses na mas mura at 10 beses na mas mabilis (kapag cost in sinusukat sa mga tuntunin ng variable na mga gastos). Ito pandrama pagbawas sa gastos ay nangangahulugan na sa halip na tumakbo bawat ilang taon-bilang ay standard para sa Demographic and Health Surveys-the hybrid ng mga maliliit na survey na sinamahan ng malaking digital data trace ay maaaring tumakbo sa bawat buwan.
Sa wakas, Blumenstock ni amplified humihingi diskarte pinagsama data survey na may digital data trace upang makabuo ng mga pagtatantya maihahambing na may gintong-standard pagtatantya survey. Ang partikular na halimbawa din clarifies ang ilan sa mga trade-offs sa pagitan ng amplified asking at tradisyonal na pamamaraan survey. Una, ang amplified humihingi pagtatantya ay mas napapanahong, sa kalahatan mas mura, at mas malinaw. Ngunit, sa kabilang dako, sa oras na ito, diyan ay hindi isang malakas na manilay-nilay batayan para sa ganitong uri ng amplified pagtatanong. Iyon ay, ang isang ito halimbawa ay hindi ipapakita kapag ito ay gumagana at kapag ito ay hindi. Dagdag dito, ang amplified asking diskarte ay wala pang mahusay na paraan upang tumyak ng dami ng kawalan ng katiyakan sa paligid ng mga pagtatantya nito. Gayunman, amplified asking ay may malalim na koneksyon sa tatlong malalaking lugar sa mga istatistika-modelo-based post-pagsasapin-sapin (Little 1993) , bintang (Rubin 2004) , at maliit na-area pagpapahalaga (Rao and Molina 2015) -at kaya inaasahan ko na pag-unlad ay maging mabilis.
Amplified asking ay sinusundan ng isang basic recipe na maaaring angkop sa iyong partikular na sitwasyon. Mayroong dalawang mga sangkap at dalawang hakbang. Ang dalawang mga sangkap ay 1) ang isang digital trace dataset na ay malawak ngunit manipis (iyon ay, ito ay may maraming mga tao ngunit hindi ang impormasyon na kailangan mo tungkol sa bawat tao) at 2) isang survey na ay makitid ngunit makapal (iyon ay, ito ay may lamang ng ilang mga tao, ngunit ito ay may impormasyon na kailangan mo tungkol sa mga tao). Pagkatapos, may mga dalawang hakbang. Una, para sa mga tao sa parehong mga pinagkukunan ng data, bumuo ng isang machine modelo sa pag-aaral na gumagamit ng digital data trace upang mahulaan survey sagot. Next, gamitin na modelo machine learning upang paratangan ang survey sagot ng lahat ng tao sa digital data trace. Kaya, kung may ilang mga katanungan na nais mong hilingin sa maraming mga tao, tumingin para sa mga digital na data trace mula sa mga tao na maaaring gamitin upang mahulaan ang kanilang mga sagot.
Ang paghahambing ng una at ikalawang pagtatangka Blumenstock sa problema din ay naglalarawan ng isang mahalagang aral tungkol sa paglipat mula sa pangalawang panahon sa mga ikatlong panahon na paglalapit sa survey pananaliksik: sa simula ay hindi ang dulo. Iyon ay, maraming beses, ang unang diskarte ay hindi ang pinakamahusay na, ngunit kung ang mga mananaliksik magpatuloy ng pagtatrabaho, mga bagay na maaari makakuha ng mas mahusay. Higit pang mga pangkalahatan, kapag pinahahalagahan ang mga bagong pamamaraang sa panlipunang pananaliksik sa digital edad, ito ay mahalaga upang gumawa ng dalawang natatanging mga pagsusuri: 1) kung gaano kahusay ito gumagana ngayon at 2) kung gaano kahusay ang gagawin sa tingin mo ito ay maaaring gumana sa hinaharap bilang ang data landscape pagbabago at tulad ng mga mananaliksik pag-ukulan ng higit na pansin sa problema. Kahit na, mga mananaliksik ay sinanay upang gawin ang unang uri ng pagsusuri (kung paano mabuting ay ito partikular na piraso ng pananaliksik), ang ikalawa ay madalas na mas mahalaga.