Linking survey Anjeun ka ngambah digital bisa kawas nanyakeun dulur patanyaan anjeun sepanjang waktos.
Nanyakeun umumna asalna dina dua kategori utama: survey sampel jeung censuses. survey sampel, di mana Anjeun ngakses sajumlah leutik jalma, bisa fleksibel, timely, sarta rélatif murah. Tapi, survey sample, sabab dumasar kana sampel, mindeng diwatesan di resolusi maranéhanana; jeung survey sample, mangka mindeng hésé nyieun perkiraan ngeunaan wewengkon géografis husus atawa grup demografi husus. Censuses, di séjén, nyobian wawancara dulur di populasi. Maranéhanana boga resolusi gede, tapi umumna mahal, heureut fokus (maranéhanana ngan ngawengku sajumlah leutik patarosan), jeung teu timely (maranéhanana lumangsung dina jadwal tetep, saperti unggal 10 taun) (Kish 1979) . Ayeuna dibayangkeun lamun panalungtik bisa ngagabung ciri best of survey sampel jeung censuses; ngabayangkeun lamun panalungtik bisa nanya unggal Patarosan ka dulur unggal poé.
Jelas, sinambung ieu, ubiquitous, sok-on survey mangrupa jenis implengan élmu sosial. Tapi, nembongan yén urang bisa dimimitian sasarua-saruana ieu ku ngagabungkeun patarosan survey ti sajumlah leutik jalma nu ngambah digital ti loba jelema. Kuring nelepon jenis ieu kombinasi amplified nanyakeun. Lamun dipigawé ogé, bisa mantuan kami nyadiakeun estimasi nu leuwih lokal (pikeun wewengkon géografis leutik), leuwih granular (pikeun golongan demografi husus), jeung leuwih timely.
Hiji conto nanyakeun amplified asalna tina karya Joshua Blumenstock, nu hayang ngumpulkeun data nu bakal mantuan pangwangunan pituduh di nagara miskin. Leuwih spésifikna, Blumenstock hayang nyieun sistem pikeun ngukur kabeungharan jeung well-mahluk nu digabungkeun nu completeness hiji sensus jeung kalenturan jeung frékuénsi survey a (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Malah mah geus geus digambarkeun karya Blumenstock sacara sakeudeung in Chapter 1.
Pikeun ngamimitian, Blumenstock partnered jeung panyadia telepon sélulér panggedéna di Rwanda. pausahaan disadiakeun manéhna catetan urus anonymized ti kira 1,5 juta konsumén ngawengku paripolah ti 2005 jeung 2009. The log ngandung informasi ngeunaan unggal télépon jeung teks talatah saperti waktu mimiti, lilana, jeung lokasi geografi perkiraan tina panelepon jeung panarima. Saméméh urang ngamimitian ngawangkong ngeunaan isu statistik, nya éta patut nunjukkeun ayana kaluar nu lengkah kahiji ieu bisa jadi salah sahiji hardest. Salaku dijelaskeun dina Bab 2, paling data renik digital nyaéta inaccessible ka panalungtik. Jeung, loba pausahaan anu justifiably hesitant pikeun ngabagikeun data maranéhanana sabab swasta; nu konsumén maranéhanana meureun teu nyangka yén catetan maranéhanana bakal dibagi-di bulk-jeung panalungtik. Dina hal ieu, panalungtik nyokot léngkah ati-ati ka anonymize data jeung karya maranéhanana ieu overseen ku pihak-katilu (ie, IRB maranéhanana). Tapi, sanajan usaha ieu, data ieu sigana masih diwanoh sarta dipikaresep ngandung informasi nu sensitip (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Abdi gé mulang ka ieu Patarosan etika dina Bab 6.
Ngelingan yen Blumenstock ieu kabetot dina ngukur kabeungharan jeung well-mahluk. Tapi, Tret ieu teu langsung dina catetan télépon. Dina basa sejen, catetan telepon ieu lengkep pikeun panalungtikan ieu, ciri umum ngambah digital nu dibahas di jéntré dina Bab 2. Tapi, jigana dipikaresep yén catetan telepon meureun geus sababaraha émbaran ngeunaan kabeungharan jeung well-mahluk. Jadi, hiji cara nanyakeun sual Blumenstock urang bisa jadi: nya eta mungkin pikeun ngaduga kumaha batur bakal ngabales survey a dumasar kana data renik digital maranéhanana? Upami kitu, mangka ku nanyakeun sababaraha urang urang bisa nebak jawaban sarerea sejenna.
Pikeun assess ieu émpiris, Blumenstock jeung panalungtikan asisten ti Kigali Institute of Science jeung Tehnologi disebut sampel kira-kira sarebu konsumén telepon sélulér. Para panalungtik ngajelaskeun tujuan proyek ka pamilon, ménta idin maranéhna pikeun numbu réspon survey ka catetan telepon, terus nanya eta runtuyan pertanyaan pikeun ngukur kabeungharan maranéhanana jeung well-mahluk, saperti "Naha anjeun sorangan hiji radio? "jeung" Naha anjeun sorangan sapedah a? "(tempo Gambar 3,11 pikeun daptar parsial). Sadaya pamilon dina survey éta katembong finansial.
Next, Blumenstock dipaké prosedur dua lengkah ilahar di élmu data: rékayasa ciri dituturkeun ku learning diawasan. Kahiji, dina lengkah rékayasa ciri, for everyone nu diwawancara, Blumenstock dirobah rékaman telepon kana susunan ciri ngeunaan unggal jalma; élmuwan data bisa nelepon ciri ieu "fitur" jeung élmuwan sosial bakal nyebut maranehna "variabel." Contona, keur unggal jalma, Blumenstock diitung jumlah total poé jeung aktivitas, jumlah jalma béda hiji jalma geus di kontak jeung, jumlah duit spent dina airtime, jeung saterusna. Kritis, alus rékayasa ciri merlukeun pangaweruh ngeunaan setting panalungtikan. Contona, lamun hal anu penting pikeun ngabedakeun antara télépon domestic jeung internasional (urang bisa ngaharepkeun jelema anu nelepon internasional jadi wealthier), mangka ieu kudu dipigawé di step rékayasa ciri. A panalungtik jeung saeutik pamahaman Rwanda bisa jadi teu kaasup fitur ieu, terus kinerja prediksi model bakal sangsara.
Next, dina lengkah learning diawasan, Blumenstock diwangun model statistik keur prediksi response survey keur unggal jalma dumasar kana fitur maranéhanana. Dina hal ieu, Blumenstock dipaké régrési logistik jeung 10 melu cross-validasi, tapi manéhna bisa geus dipaké rupa-rupa deukeut statistical atawa mesin learning séjén.
Jadi kumaha ogé teu eta pagawean? Ieu Blumenstock bisa ngaduga jawaban keur survey patarosan kawas "Naha anjeun sorangan radio a?" Jeung "Ulah anjeun sorangan sapedah a?" Nganggo fitur diturunkeun tina catetan telepon? Nurun tina. Katepatan tina prediksi éta luhur keur sababaraha Tret (Gambar 3.11). Tapi, éta téh sok penting pikeun ngabandingkeun metoda prediksi kompléks ngalawan alternatif basajan. Dina hal ieu, alternatif basajan pikeun ngaduga yén everyone bakal méré jawaban nu paling umum. Contona, 97,3% ngalaporkeun owning hiji radio tah lamun Blumenstock geus diprediksi boga dulur bakal wartoskeun owning hiji radio manéhna bakal miboga akurasi 97,3%, nu heran sarua jeung kinerja prosedur leuwih kompleks-Na (akurasi 97,6%). Dina basa sejen, kabéh data fancy jeung modeling ngaronjat katepatan tina prediksi ti 97,3% ka 97,6%. Ngan, pikeun patarosan séjénna, saperti "Naha anjeun sorangan sapedah a?", Nu prediksi ningkat ti 54,4% ka 67,6%. More umum, Gambar 3,12 nempokeun keur sababaraha Tret Blumenstock teu ningkatkeun loba leuwih ngan nyieun prediksi dasar basajan, tapi nu keur Tret séjén aya sababaraha pamutahiran.
Dina titik ieu Anjeun bisa jadi pamikiran yen hasil ieu bit hiji nguciwakeun, tapi ngan sataun saterusna, Blumenstock jeung dua kolega-Jibril Cadamuro jeung Robert On-medalkeun tulisan di Science jeung hasil substansi hade (Blumenstock, Cadamuro, and On 2015) . Aya dua alesan téhnis utama pikeun perbaikan: 1) maranehna dipaké métode leuwih canggih (ie, pendekatan anyar Fitur rékayasa jeung mesin model learning leuwih canggih) jeung 2) tinimbang ngusahakeun infer réspon patarosan survey individu (misalna "Naha anjeun sorangan radio a?"), maranehna nyoba infer hiji indéks kabeungharan komposit.
Blumenstock sareng kolega nunjukkeun kinerja pendekatan maranéhanana dina dua cara. Kahiji, maranehna manggihan yén pikeun urang dina sampel maranéhanana, maranéhanana bisa ngalakukeun pakasaban geulis hade ngaramal kabeungharan maranéhanana ti catetan telepon (Gambar 3.14). Kadua, jeung kungsi leuwih importantly, Blumenstock sareng kolega némbongkeun yén prosedur maranéhanana bisa ngahasilkeun perkiraan kualitas luhur sebaran géografis kabeungharan di Rwanda. More husus, maranéhanana dipaké mesin model pembelajaran maranéhanana, nu dilatih dina sampel maranéhanana kira-kira 1.000 jelema, keur prediksi kabeungharan sakabeh 1,5 juta jalma di catetan télépon. Salajengna, jeung data geospatial study dina data telepon (ngelingan yen data telepon ngawengku lokasi munara sél pangdeukeutna keur unggal sauran), panalungtik éta bisa estimasi tempat dumasar tinggal unggal jalma. Putting dua perkiraan ieu babarengan, panalungtikan dihasilkeun hiji estimasi sebaran géografis kabeungharan palanggan di granularity spasial pisan rupa. Contona, maranéhanana bisa estimasi kabeungharan rata di unggal Rwanda sacara 2148 sél (unit administratif pangleutikna di nagara). Ieu diprediksi nilai kabeungharan éta jadi granular maranéhanana éta hésé pikeun mariksa. Jadi, panalungtik aggregated hasil maranéhna pikeun ngahasilkeun perkiraan tina kabeungharan rata-rata Rwanda sacara 30 distrik. perkiraan distrik-tingkat kasebut niatna patali jeung perkiraan tina emas survey tradisional standar, nu Rwandan demografi jeung Kaséhatan Survey (Gambar 3.14). Sanajan perkiraan ti dua sumber éta sarupa, nu perkiraan ti Blumenstock sareng kolega éta kira-kira 50 kali leuwih murah jeung leuwih gancang 10 kali (lamun biaya di diukur dina watesan waragad variabel). panurunan dramatis ieu dina biaya hartina tinimbang keur ngajalankeun unggal sababaraha taun-sakumaha standar pikeun demografi jeung Kaséhatan Ukur-nu hibrid tina survey leutik digabungkeun jeung data renik digital gedé bisa ngajalankeun unggal bulan.
Dina kacindekan, Blumenstock sacara amplified nanyakeun pendekatan digabungkeun data survey jeung data renik digital pikeun ngahasilkeun perkiraan comparable jeung perkiraan survey emas-standar. conto husus ieu ogé clarifies sababaraha dagang-offs antara nanyakeun amplified jeung métode survey tradisional. Kahiji, perkiraan nanyakeun nu amplified leuwih timely, substansi murah, jeung leuwih granular. Tapi, di sisi séjén, dina waktu ieu, aya teu dasar téoritis kuat pikeun jenis ieu nanyakeun amplified. Hartina, conto ieu teu némbongkeun lamun bakal bisa dipaké jeung lamun teu bakal. Salajengna, pendekatan nanyakeun nu amplified teu acan gaduh cara nu sae pikeun ngitung kateupastian kira-kira perkiraan anak. Tapi, amplified nanyakeun boga sambungan jero tilu wewengkon badag di basis statistik-model post-stratifikasi (Little 1993) , imputation (Rubin 2004) , jeung estimasi-wewengkon leutik (Rao and Molina 2015) -and jadi nyangka yén kamajuan bakal jadi gancang.
Amplified nanyakeun kieu resep dasar anu bisa tailored ka kaayaan husus Anjeun. Aya dua bahan jeung dua léngkah. Dua bahan anu 1) dataset renik digital anu rupa tapi ipis (nyaeta, geus loba jelema tapi teu informasi yen Anjeun kudu ngeunaan unggal jalma) jeung 2) survey anu heureut tapi kandel (nyaeta, geus ukur sababaraha urang, tapi ngabogaan informasi nu kudu ngeunaan eta jelema). Saterusna, aya dua léngkah. Kahiji, pikeun jalma boh sumber data, ngawangun model pembelajaran mesin anu ngagunakeun renik data digital pikeun ngaduga waleran survey. Next, maké nu model mesin learning ka impute jawaban survey sarerea dina data renik digital. Ku kituna, lamun aya sababaraha pertanyaan nu rek nanya ka kavling jalma, néangan data renik digital ti eta jelema anu bisa dipaké pikeun ngaduga jawaban maranéhanana.
Ngabandingkeun Blumenstock sacara usaha kahiji jeung kadua di masalah oge illustrates an palajaran penting ngeunaan transisi ti era kadua ka deukeut era katilu ka survey panalungtikan: awal teu ahir. Hartina, loba kali, pendekatan kahiji moal jadi pangalusna, tapi lamun panalungtik neraskeun kerja, hal bisa meunangkeun leuwih alus. More umum, lamun evaluating deukeut anyar panalungtikan sosial dina umur digital, hal anu penting pikeun nyieun dua Panakawan béda: 1) kumaha oge teu karya ieu ayeuna jeung 2) kumaha oge maneh mikir ieu bisa digawé di mangsa nu bakal datang salaku bentang data robah jeung salaku panalungtik bakti leuwih perhatian ka masalah. Sanajan, panalungtik dilatih pikeun nyieun jenis munggaran evaluasi (kumaha alus nyaéta sapotong ieu husus panalungtikan), kadua mindeng leuwih penting.