Amplified nanyakeun maké modél duga ngagabungkeun data survéy ti sababaraha urang ku sumber data badag ti loba jalma.
Hiji cara béda pikeun ngagabungkeun survéy jeung sumber data badag nyaéta prosés anu kuring gé nelepon nanyakeun amplified. Dina nanyakeun amplified, panalungtik a ngagunakeun modél duga ngagabungkeun jumlah leutik data survey ku sumber data badag dina urutan ngahasilkeun perkiraan dina skala atawa granularity nu teu bakal tiasa sareng boh sumber data individual. Hiji conto penting nanyakeun amplified asalna tina karya Yosua Blumenstock, nu miharep pikeun ngumpulkeun data nu bisa ngabantu ngembangkeun pituduh di nagara miskin. Baheula, peneliti ngumpulkeun jenis ieu data umumna kapaksa nyandak salah sahiji dua pendekatan: survey sampel atawa censuses. survey sampel, dimana peneliti wawancara sajumlah leutik urang, tiasa fleksibel, timely, sarta rélatif murah. Sanajan kitu, survey ieu, sabab dumasar kana sampel, nu mindeng dugi di resolusi maranéhanana. Ku sampel panalungtikan, nya éta mindeng teuas nyieun perkiraan ngeunaan wewengkon géografis spésifik atawa pikeun grup demografi husus. Censuses, di sisi séjén, nyobian wawancara dulur, jeung ngarah bisa dipaké pikeun ngahasilkeun perkiraan pikeun wewengkon géografis leutik atawa grup demografi. Tapi censuses umumna mahal, sempit di fokus (aranjeunna ngan ngawengku sajumlah leutik patarosan), sarta moal timely (aranjeunna lumangsung dina jadwal tetep, kayaning unggal 10 taun) (Kish 1979) . Tinimbang keur nyangkut jeung survey sampel atawa censuses, ngabayangkeun lamun peneliti bisa ngagabungkeun nu ciri best of duanana. Ngabayangkeun lamun peneliti bisa menta unggal sual ka unggal jalma unggal poe. Jelas, ubiquitous, salawasna-on survey ieu téh jenis lamunan elmu sosial. Tapi teu muncul anu bisa dimimitian sasarua-saruana ieu ku ngagabungkeun patarosan survéy ti sajumlah leutik jalma kalawan ngambah digital tina loba jalma.
panalungtikan Blumenstock urang dimimitian sabot anjeunna partnered jeung panyadia handphone panggedéna di Rwanda, sareng parusahaan disadiakeun rékaman urus anonymized ti kira 1,5 juta pelanggan antara 2005 jeung 2009. rékaman ieu ngandung émbaran ngeunaan unggal panggero jeung teks talatah, kayaning mimiti waktu, lilana , sarta lokasi geografis perkiraan tina panelepon tur panarima. Méméh kuring ngobrol ngeunaan isu statistik, eta sia ngarah kaluar nu hambalan kahiji ieu bisa jadi salah sahiji hardest keur loba peneliti. Salaku I nu dijelaskeun dina bagean 2, paling sumber data badag anu inaccessible mun peneliti. Telepon meta-data, hususna, utamana inaccessible alatan dasarna teu mungkin mun anonymize na eta ampir pasti ngandung émbaran nu pamilon bakal mertimbangkeun sénsitip (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Bisi tinangtu ieu, panalungtik éta ati ngajaga data sarta karya maranéhanana ieu overseen ku pihak katilu (ie, IRB maranéhanana). Kuring gé balik deui ka ieu isu etika dina leuwih jéntré dina bab 6.
Blumenstock éta kabetot dina ngukur kabeungharan tur well-mahluk. Tapi Tret ieu moal langsung di rékaman panggero. Dina basa sejen, rékaman panggero ieu lengkep pikeun panalungtikan-ciri umum ieu sumber data badag yén ieu baris dibahas di jéntré dina bab 2. Sanajan kitu, sigana gampang yén rékaman panggero meureun gaduh sababaraha émbaran nu langsung bisa méré informasi ngeunaan kabeungharan jeung well-mahluk. Dibikeun kamungkinan ieu, Blumenstock ditanya naha ieu mungkin ngalatih modél pembelajaran mesin keur prediksi kumaha batur bakal ngabales ka survéy dumasar kana rékaman panggero maranéhanana. Mun ieu mungkin, teras Blumenstock bisa migunakeun model kieu pikeun ngaduga réspon survéy sadaya 1,5 juta pelanggan.
Dina raraga ngawangun tur ngalatih model kitu, Blumenstock panalungtikan asisten ti Kigali Institute of Élmu jeung Téhnologi disebut sampel random ngeunaan sarébu konsumén. Para panalungtik dipedar tujuan proyék pikeun pamilon, ménta idin maranéhna pikeun numbu réspon survéy ka rékaman panggero, lajeng ngajak aranjeunna runtuyan patarosan mun ngukur kabeungharan maranéhanana sarta well-mahluk, kayaning "Dupi anjeun sorangan hiji radio? "sarta" Naha anjeun sorangan sapedah hiji? "(ningali angka 3,14 pikeun daptar parsial). Kabéh pamilon dina survey anu katembong finansial.
Salajengna, Blumenstock dipaké prosedur dua-hambalan umum di learning mesin: rékayasa fitur dituturkeun ku learning diawasan. Kahiji, dina hambalan rékayasa fitur, for everyone yén ieu diwawancara, Blumenstock dirobah rékaman panggero kana susunan ciri ngeunaan unggal jalma; élmuwan data bisa nelepon ciri ieu "fitur" na élmuwan sosial bakal nelepon aranjeunna "variabel." Contona, pikeun tiap jalma, Blumenstock diitung jumlah total ngeunaan poé mibanda aktivitas, jumlah jalma béda jelema geus di kontak kalayan, anu jumlah duit spent dina airtime, jeung saterusna. Kritis, alus rékayasa fitur merlukeun pangaweruh ngeunaan setting panalungtikan. Contona, upami hal anu penting pikeun ngabédakeun antara nelepon domestik jeung internasional (urang bisa nyangka jalma anu nelepon sacara internasional janten wealthier), lajeng ieu kudu dipigawe di hambalan rékayasa fitur. A panalungtik kalayan saeutik pamahaman Rwanda bisa teu kaasup fitur ieu, lajeng kinerja prediksi model bakal sangsara.
Hareup, dina hambalan learning diawasan, Blumenstock diwangun modél pikeun ngaduga respon survey pikeun tiap jalma dumasar kana fitur maranéhanana. Dina hal ieu, Blumenstock dipaké régrési logistik, tapi anjeunna bisa geus dipaké rupa-rupa pendekatan statistical atanapi mesin learning lianna.
Jadi kumaha ogé teu eta dianggo? Éta Blumenstock bisa ngaduga waleran kana survey patarosan kawas "Dupi anjeun sorangan radio a?" Sarta "Dupi anjeun sorangan sapedah hiji?" Migunakeun fitur diturunkeun tina rékaman panggero? Dina raraga evaluate kinerja model prediksi-Na, Blumenstock dipaké cross-validasi, téhnik dipaké dina elmu data tapi jarang di sains sosial. Tujuan cross-validasi geus nyadiakeun hiji assessment adil kinerja duga model urang ku latihan eta sarta uji coba eta dina golongan béda data. Dina sababaraha hal, Blumenstock dibeulah data na kana 10 sakumpulan unggal 100 jalma. Lajeng anjeunna dipaké salapan tina sakumpulan mun ngalatih modél-Na, sarta kinerja duga sahiji modél dilatih ieu dievaluasi dina chunk sésana. Anjeunna terus-terusan prosedur ieu 10 kali-mibanda unggal chunk data sia salah péngkolan salaku validasi data-na averaged hasil.
Katepatan tina prediksi éta luhur pikeun sababaraha Tret (inohong 3.14); contona, Blumenstock bisa ngaduga kalawan akurasi 97,6% lamun batur milik radio a. Hal ieu bisa disada impressive tapi sok penting pikeun ngabandingkeun metoda prediksi kompléks ngalawan alternatif basajan. Dina hal ieu, alternatif basajan nyaéta pikeun ngaduga yen dulur bakal mere jawaban nu paling umum. Contona, 97,3% ti responden dilaporkeun owning radio jadi lamun Blumenstock sempet diprediksi boga dulur bakal ngalaporkeun owning hiji radio anjeunna bakal geus miboga akurasi 97,3%, nu heran sarupa kinerja prosedur leuwih kompleks na (akurasi 97,6%) . Dina basa sejen, kabeh data fancy na modeling ngaronjat henteuna prediksi ti 97,3% jeung 97,6%. Najan kitu, pikeun patarosan sejenna, kayaning "Naha anjeun sorangan sapedah hiji?", Anu prediksi ningkat ti 54,4% jeung 67,6%. Leuwih umum, inohong 3,15 nunjukeun yen pikeun sababaraha Tret Blumenstock teu ningkatkeun teuing saluareun ngan nyieun prediksi dasar basajan, tapi nu keur Tret sejenna aya sababaraha pamutahiran. Pilari ngan dina hasil ieu, kumaha oge, Anjeun bisa jadi teu mikir yén pendekatan ieu sabagian ngajangjikeun.
Sanajan kitu, ngan sataun sanggeusna, Blumenstock na dua kolega-Jibril Cadamuro sarta Robert Di-medalkeun tulisan di Élmu kalawan hasil substansi hadé (Blumenstock, Cadamuro, and On 2015) . Aya dua alesan teknis utama pikeun perbaikan ieu: (1) aranjeunna dipake metode leuwih canggih (ie, pendekatan anyar pikeun fitur rékayasa sarta modél leuwih canggih pikeun ngaduga réspon ti fitur) jeung (2) tinimbang ngusahakeun infer réspon kana individu patarosan survéy (misalna, "Naha anjeun sorangan radio a?"), maranéhna ngusahakeun infer hiji indéks kabeungharan komposit. Ieu perbaikan téknis dimaksudkan yén maranéhna bisa ngalakukeun pakasaban lumrah tina ngagunakeun rékaman panggero pikeun ngaduga kabeungharan keur jalma dina sampel maranéhanana.
Ngaramal kabeungharan urang dina sampel, kumaha oge, ieu mah tujuan pamungkas tina hasil panalungtikan. Inget yen tujuan pamungkas ieu ngagabungkeun sababaraha fitur pangalusna ti survey sampel sarta censuses ngahasilkeun akurat, perkiraan-resolusi luhur kamiskinan di nagara berkembang. Pikeun assess pangabisa maranéhna pikeun ngahontal éta tujuan ieu, Blumenstock sareng kolega Anjeun dipaké modél maranéhanana sarta data maranéhna keur prediksi kabeungharan sadaya 1,5 juta jalma di rékaman panggero. Jeung maranéhna dipaké informasi geospatial study dina rékaman panggero (ngelingan yen data kaasup lokasi munara sél pangdeukeutna pikeun tiap panggero) keur estimasi tempat dumasar tinggal unggal jalma (tokoh 3.17). Putting dua perkiraan ieu babarengan, Blumenstock sareng kolega Anjeun dihasilkeun keur estimasu sebaran geografis kabeungharan palanggan di granularity spasial pisan rupa. Contona, aranjeunna bisa estimasi kabeungharan rata di unggal Rwanda urang 2.148 sél (unit administratif pangleutikna di nagara).
Kumaha ogé teu perkiraan ieu cocog nepi ka tingkat sabenerna kamiskinan di wewengkon ieu? Méméh kuring ngajawab patarosan éta, kuring hayang ngantebkeun kanyataan yén aya loba alesan janten skeptis. Contona, kamampuh nyieun prediksi di tingkat individu éta geulis ribut (angka 3.17). Na, sugan beuki importantly, jalma kalawan ponsel bisa jadi sacara sistematis béda ti jalma tanpa ponsel. Ku kituna, Blumenstock sareng kolega Anjeun bisa kakurangan tina jenis kasalahan sinyalna anu bias di 1936 survey Literary Digest yén kuring dijelaskeun tadi.
Pikeun meunang rasa kualitas perkiraan maranéhanana, Blumenstock sareng kolega Anjeun diperlukeun pikeun ngabandingkeun sareng hal sejenna. Untungna, di sabudeureun waktos salaku ulikan maranéhanana, grup sejen peneliti ieu ngajalankeun hiji survéy sosial leuwih tradisional di Rwanda. survéy-mana ieu séjén éta bagian tina demografi sarta Kaséhatan Survey program-kungsi anggaran badag lega dimangfaatkeun sarta dipaké-kualitas luhur, métode tradisional. Ku alatan éta, perkiraan tina demografi na Survey Kaséhatan bisa alesan dianggap perkiraan emas-baku. Sabot dua perkiraan anu dibandingkeun, maranéhanana éta rada sarupa (angka 3.17). Dina basa sejen, ku ngagabungkeun jumlah leutik data survéy jeung rékaman panggero, Blumenstock sareng kolega Anjeun éta bisa ngahasilkeun perkiraan comparable maranéhanana ti deukeut emas-baku.
A skeptic bisa ningali hasilna ieu salaku disappointment a. Barina ogé, hiji cara nempo éta téh disebutkeun yen ku ngagunakeun data badag tur learning mesin, Blumenstock sareng kolega Anjeun éta bisa ngahasilkeun perkiraan anu bisa dijieun leuwih reliably ku métode geus aya. Tapi teu mikir yén aya cara katuhu mikir ngeunaan ulikan ieu dua alesan. Kahiji, perkiraan tina Blumenstock sareng kolega Anjeun éta ngeunaan 10 kali leuwih gancang sarta 50 kali langkung mirah (lamun ongkos diukur tina segi waragad variable). Salaku I pamadegan saméméhna dina ieu bab, peneliti malire biaya di peril maranéhanana. Dina hal ieu, contona, ka panurunan dramatis dina biaya hartina rada tibatan ngajalankeun unggal sababaraha taun-sakumaha anu baku keur demografi sarta Kaséhatan Ukur-kieu jenis survéy bisa ngajalankeun unggal bulan, anu bakal nyadiakeun sababaraha kaunggulan pikeun peneliti jeung kawijakan makers. Alesan kadua teu butuh nempo skeptic urang éta ulikan ieu nyadiakeun resep dasar nu bisa tailored mun loba kaayaan ieu panalungtikan béda. Resep ieu ngan dua bahan na dua hambalan. Bahan anu (1) sumber data badag nu mangrupa lega tapi ipis (ie, eta boga loba jalma tapi teu informasi nu peryogi ngeunaan unggal jalma) jeung (2) survey anu geus sempit tapi kandel (ie, eta boga ukur sababaraha urang, tapi teu boga informasi nu peryogi ngeunaan eta jelema). bahan ieu lajeng ngahiji dina dua hambalan. Kahiji, pikeun jalma di duanana sumber data, ngawangun modél pembelajaran mesin anu ngagunakeun sumber data badag pikeun ngaduga waleran survéy. Salajengna, make model nu keur impute jawaban survéy sarerea dina sumber data badag. Ku kituna, lamun aya sababaraha patarosan anu rék nanya kavling jalma, néangan hiji sumber data badag ti eta jelema anu bisa dipaké pikeun ngaduga jawaban maranéhanana, sanajan lamun teu paduli ngeunaan sumber data badag. Hartina, Blumenstock sareng kolega Anjeun teu inherently ngeunaan miara rékaman panggero; aranjeunna ukur cared ngeunaan rékaman panggero sabab bisa dipaké pikeun ngaduga waleran survéy nu aranjeunna cared ngeunaan. -Hijina ciri suku langsung ieu data sumber-ngajadikeun badag amplified nanyakeun béda ti nanyakeun study, nu kuring dijelaskeun tadi.
Dina kacindekan, amplified nanyakeun pendekatan digabungkeun data survéy Blumenstock urang ku sumber data badag ngahasilkeun perkiraan comparable maranéhanana ti survey emas-baku. conto tinangtu Ieu ogé clarifies sababaraha dagang-offs antara nanyakeun amplified jeung métode survéy tradisional. perkiraan nanyakeun ka amplified leuwih timely, substansi langkung mirah, sarta leuwih granular. Tapi, di sisi séjén, aya henteu acan a dasar téoritis kuat pikeun jenis ieu nanyakeun amplified. conto single ieu teu némbongkeun lamun pendekatan ieu bakal dianggo na lamun henteu bakal, sarta peneliti ngagunakeun pendekatan ieu kudu jadi utamana paduli biases mungkin disababkeun ku nu geus kaasup-na anu teu kaasup-di sumber data badag maranéhanana. Salajengna, pendekatan nanyakeun ka amplified teu acan gaduh cara nu sae pikeun ngitung kateupastian sabudeureun perkiraan na. Untungna, amplified nanyakeun boga sambungan jero kana tilu wewengkon badag dina estimasi statistik-leutik-aréa (Rao and Molina 2015) , imputation (Rubin 2004) , sarta dumasar-modél pos-stratifikasi (anu sorangan téh raket patalina jeung Mr. P., metodeu I ditétélakeun saméméhna dina bab) (Little 1993) . Kusabab ieu koneksi jero, abdi nyangka yén loba ti yayasan metodologis of nanyakeun amplified baris geura-giru jadi ningkat.
Tungtungna, ngabandingkeun Usaha kahiji jeung kadua Blumenstock urang ogé illustrates hiji palajaran penting ngeunaan-umur digital panalungtikan sosial: mimiti teu tungtungna. Nyaeta, sababaraha kali, pendekatan mimiti bakal jadi anu pangalusna, tapi lamun peneliti nuluykeun digawé, hal bisa meunang hadé. Leuwih umum, lamun evaluating deukeut anyar panalungtikan sosial dina umur digital, hal anu penting sangkan dua Panakawan béda: (1) Kumaha ogé teu karya ieu ayeuna? jeung (2) Kumaha ogé karya ieu di mangsa nu bakal salaku parobahan bentang data tur salaku peneliti bakal bakti leuwih perhatian ka masalah? Sanajan peneliti dilatih sangkan jenis mimiti evaluasi, nu kadua nyaeta mindeng leuwih penting.