Amplified asking nggunakake model prediktif kanggo gabungke data survey saka sawetara wong kanthi sumber data amba saka akeh wong.
Cara sing beda kanggo gabungke survey lan sumber data sing gedhe yaiku proses sing bakal dakpitutake kanggo njaluk amplifikasi . Ing panampa amplop, panaliti nggunakake model prediktif kanggo nggabungake data survey cilik kanthi sumber data gedhe supaya bisa ngasilake perkiraan skala utawa granularitas sing ora bisa diduweni karo sumber data manawa. Conto penting saka pitakon amplifikasi diwiwiti saka karya Joshua Blumenstock, sing pengin ngumpulake data sing bisa mbantu ngarahake pembangunan ing negara-negara miskin. Ing sasi kepungkur, panaliti ngempalaken jenis data iki kudu njupuk salah siji saka rong cara: survey sampel utawa sensus. Survey sampel, ing ngendi panaliti wawancara kanthi nomer cilik, bisa fleksibel, tepat waktu, lan relatif murah. Nanging, survey iki, amarga padha adhedhasar sampel, asring winates ing resolusi. Kanthi survei sampel, asring nyathet perkiraan babagan wilayah geografis tartamtu utawa kelompok demografi tartamtu. Censuses, ing tangan liyane, nyoba kanggo wawancara everyone, lan supaya bisa digunakake kanggo ngasilake prakiraan kanggo wilayah geografis cilik utawa kelompok demografi. Nanging, censuses biasane larang, tipis ing fokus (mung kalebu sawetara pitakonan cilik), lan ora tepat ing wektu (kayata saben tanggal 10 taun) (Kish 1979) . Tinimbang dadi macet karo survey sampel utawa sensus, mbayangake yen peneliti bisa gabungke ciri sing paling apik saka loro. Mbayangno yen peneliti bisa njaluk pitakonan saben wong saben dina. Temenan, survey ing ngendi-ngendi, tansah-on-line iki minangka jenis fantasi ilmu sosial. Nanging, kita bisa miwiti nyedhiyakake babagan iki kanthi nggabungake pitakonan survey saka sawetara wong kanthi jejak digital saka akeh wong.
Riset Blumenstock wiwit nalika dheweke partner karo penyedia ponsel paling gedhé ing Rwanda, lan perusahaan nyedhiyakake rekaman transaksi anonim saka sekitar 1.5 yuta pelanggan antarane 2005 lan 2009. Cathetan iki ana informasi babagan saben pesen telpon lan pesen teks, kayata wektu wiwitan, durasi , lan lokasi geografis saka panelpon lan panrima. Saderengipun kula pirsa babagan masalah statistik, pramila manawi langkah kapisan punika minangka salah satunggal ingkang paling angel kangge panaliten. Nalika diterangake ing bab 2, sumber data sing paling gedhe ora bisa ditularake dening peneliti. Meta-data telpon, utamané, ora bisa diakses amarga pancen ora bisa awujud anonim lan meh mestine ngandhut informasi yen para peserta bakal nganggep sensitif (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Ing kasus tartamtu, para peneliti wis ati-ati kanggo nglindhungi data lan karya kasebut diawasi dening pihak katelu (ie, IRB). Aku bakal bali menyang masalah etis iki kanthi rinci ing bab 6.
Blumenstock kepengin ngukur kasugihan lan kesejahteraan. Nanging sipat kasebut ora langsung ing cathetan telpon. Ing wacan liya, cathetan-cathetan kasebut ora lengkap kanggo riset iki-fitur umum saka sumber data gedhe sing dibahas sacara rinci ing bab 2. Nanging, klebu cathetan panggilan mbokmenawa duwe sawetara informasi sing bisa sacara ora langsung menehi informasi babagan kasugihan lan apik-kang. Given iki, Blumenstock takon apa sampeyan bisa melatih model pembelajaran mesin kanggo ngramal babagan carane wong bakal nanggapi survey miturut rekaman telpon. Yen iki bisa, banjur Blumenstock bisa nggunakake model iki kanggo prédhiksi respon survey kabeh 1.5 yuta pelanggan.
Kanggo mbangun lan nglatih sawijining model, Blumenstock lan asisten riset saka Institut Sains lan Teknologi Kigali nyathet sampel acak babagan ewu pelanggan. Para panaliti nerangake sasaran proyek kasebut marang para peserta, nyuwun idin kanggo ngubungake respon survey menyang cathetan telpon, lan banjur takon marang sawetara pitakonan kanggo ngukur kekayaan lan kesejahteraane, kayata "Apa sampeyan duwe radio? "lan" Apa sampeyan duwe sepedha? "(pirsani gambar 3.14 kanggo daftar parsial). Kabeh peserta ing survey padha ganti rugi.
Sabanjure, Blumenstock migunakake prosedur loro-langkah umum ing proses mesin: fitur teknik sing diikuti dening pembelajaran sing diawasi. Kaping pisanan, ing tahap rekayasa fitur , kanggo saben sing diwawancarai, Blumenstock ngubah rekaman telpon dadi set karakteristik babagan saben wong; Para ilmuwan data bisa nyebat ciri-ciri "fitur" kasebut lan para ilmuwan sosial bakal nyebut "variabel". Contone, kanggo saben wong, Blumenstock ngitung jumlah total dina karo aktivitas, nomer wong sing beda karo wong jumlah dhuwit sing dileksanakake ing airtime, lan sateruse. Sacara kritis, teknik fitur sing apik mbutuhake kawruh ing panlitene. Contone, yen penting kanggo mbedakake antarane telpon lokal lan internasional (kita bisa nyangka wong sing nelpon kanthi internasional dadi luwih sugih), banjur kudu rampung ing langkah fitur teknik. Panaliti sing ora ngerti babagan Rwanda bisa uga ora nyakup fitur iki, lan kinerja prediksi saka model kasebut bakal nandhang sangsara.
Sabanjure, ing langkah pembelajaran sing diawasi , Blumenstock damel model kangge prédhiksi respon survey kangge saben tiyang ingkang adhedhasar fitur-fituripun. Ing kasus iki, Blumenstock migunakaken kemunduran logistik, nanging bisa nggunakake macem-macem pendekatan statistis utawa mesin liyane.
Dadi, piye kabare? Apa Blumenstock bisa ngramal jawaban kanggo pitakonan survey kaya "Apa sampeyan duwe radio?" Lan "Apa sampeyan duwe sepedha?" Nggunakake fitur sing ditemokake saka cathetan telpon? Kanggo ngevaluasi kinerja model prediktif, Blumenstock digunakake cross-validation , teknik sing umum digunakake ing ilmu data nanging arang ing ilmu sosial. Tujuan cross-validation yaiku kanggo menehi evaluasi sing adil babagan kinerja prediktif model kanthi latihan lan nguji ing subset data sing beda. Utamane, Blumenstock bubar dataane dadi 10 potongan saben 100 wong. Banjur, dheweke nggunakake sanga potongan kanggo nglatih model, lan kinerja prediksi saka model sing dilatih dievaluasi ing potongan liyane. Dheweke ngulang prosedur iki 10 kali-kanthi saben data njupuk siji minangka data validasi-rata-rata asil.
Akurasi ramalan dhuwur kanggo sawetara sifat (gambar 3.14); contone, Blumenstock bisa prédhiksi karo akurasi 97,6% yen wong duwe radio. Iki bisa nyenengake, nanging tansah penting kanggo mbandhingake cara prediksi kompleks marang alternatif sing prasaja. Ing kasus iki, alternatif sing prasaja kanggo prédhiksi saben wong bakal menehi jawaban paling umum. Contone, 97.3% saka responden kacarita duwe radio supaya yen Blumenstock wis mbadek sing kabeh bakal nglaporake duwe radio bakal duwe akurasi 97,3%, sing kaget mirip karo kinerja prosedur sing luwih rumit (akurasi 97,6%). . Ing tembung liyane, kabeh data apik lan modeling nambah akurasi saka prediksi saka 97,3% dadi 97,6%. Nanging, kanggo pitakonan liyane, kayata "Apa sampeyan duwe sepedha?", Ramalan luwih apik saka 54.4% nganti 67.6%. Luwih umum, angka 3.15 nuduhake yen kanggo sawetara ciri Blumenstock ora nambah akeh ngluwihi mung nggawe ramalan awal prasaja, nanging sing kanggo sipat liyane ana sawetara perbaikan. Nanging, mung digatekake ing asil kasebut, sampeyan ora mikir yen pendekatan iki utamané janjeni.
Nanging, sethithik taun sawisé, Blumenstock lan loro kolaborator-Gabriel Cadamuro lan Robert On-nerbitaké kertas ing Science kanthi asil sing luwih apik (Blumenstock, Cadamuro, and On 2015) . Ana loro alasan teknis utama kanggo perbaikan iki: (1) padha nggunakake cara sing luwih canggih (yaiku, pendekatan anyar kanggo fitur rekayasa lan model sing luwih canggih kanggo prédhiksi tanggapan saka fitur) lan (2) tinimbang nyoba kanggo nyumbang respon marang individu pitakonan pitakonan (contone, "Sampeyan duwe radio?"), padha nyoba nyimpulaké indeks kasugihan gabungan. Pangembangan teknis iki pancen bisa ditindakake kanthi cara nyithak rekaman telpon kanggo ngramalake kasugihan kanggo wong ing sampel.
Nanging, prediksi wong sugih ing sampel, ora minangka tujuan utama panliten kasebut. Elinga yen goal pokok yaiku kanggo gabungke sawetara fitur sing paling apik saka survey sampel lan sensus kanggo ngasilake angka akurat, resolusi dhuwur saka kemiskinan ing negara-negara berkembang. Kanggo netepake kemampuan kanggo entuk gol iki, Blumenstock lan kanca-kanca nggunakake model lan data kanggo ngramal kekayaan saka kabeh 1.5 yuta wong ing cathetan telpon. Lan padha nggunakake informasi geospasial sing ditrapake ing cathetan telpon (dingerteni yen data kalebu lokasi menara sel paling cedhak kanggo saben telpon) kanggo ngira panggonan panggonan sing dianggep saben wong (angka 3.17). Saliyané iku, Blumenstock lan kolega ngasilaké perkiraan distribusi geografis kasadhiya pelanggan ing granularitas spatial banget. Contone, bisa ngira kasugihan rata-rata ing saben 2.108 sel Rwanda (unit administratif paling cilik ing negara kasebut).
Kepriyé prakiraan kasebut cocog karo tingkat kemiskinan ing wilayah kasebut? Sadurunge aku njawab pitakonan kasebut, aku pengin nandheske kasunyatan sing ana akèh alasan kanggo dadi mamang. Contone, kemampuan kanggo nggawe prediksi ing tingkat individu cukup rame (gambar 3.17). Lan, mbok menawa luwih penting, wong kanthi telpon seluler bisa kanthi sistematis beda saka wong tanpa ponsel. Mangkono, Blumenstock lan kolega bisa nandhang sangsara saka jinis kasalahan jangkoan sing biased ing survey Literatur Digest taun 1936 sing aku diterangake sadurunge.
Kanggo mangerteni kualitas prakirane, Blumenstock lan kanca-kanca kudu mbandhingake karo liyane. Begjané, ing wektu sing padha minangka sinau, klompok panaliti liyané lagi nyinaoni survey sosial sing luwih tradisional ing Rwanda. Survei liyane-sing minangka bagian saka program Survey Demografi lan Kesehatan sing didhukung-wis nduweni anggaran sing gedhé lan digunakake kanthi cara tradisional sing berkualitas tinggi. Mulane, perkiraan saka Survey Demografi lan Kesehatan bisa cukup ditaksir prakiraan standar emas. Nalika perkiraan loro dibandhingake, padha cukup padha (Gambar 3.17). Ing tembung liya, kanthi nggabungake data survey cilik kanthi cathetan telpon, Blumenstock lan kanca-kanca bisa ngasilake perkiraan sing cocog karo pendekatan standar emas.
A skeptis bisa ndeleng asil kasebut minangka kuciwane. Sawise kabeh, salah sawijining cara kanggo nonton mau yaiku kanthi nggunakake data gedhe lan mesin learning, Blumenstock lan kanca-kanca bisa ngasilake perkiraan sing bisa digawe luwih dipercaya dening cara sing wis ana. Nanging aku ora mikir cara sing bener kanggo mikir babagan iki kanggo loro alasan. Pisanan, perkiraan saka Blumenstock lan kolega ana kira-kira 10 kaping luwih cepet lan 50 kaping luwih murah (nalika biaya diukur miturut biaya variabel). Nalika aku ndhukung sadurungé ing bab iki, peneliti ora nglirwakake biaya ing bebaya. Ing kasus iki, misale, pangurangan dramatis ing biaya tegese tinimbang bisa mlaku saben taun-kaya standar kanggo Demografi lan Health Surveys-survei semacam iki bisa dilakoni saben sasi, sing bakal nyedhiyakake akeh keuntungan kanggo peneliti lan kebijakan produsen. Alesan liya sing ora bisa dipikirake yaiku menawa studi iki menehi resep dhasar sing bisa disajikake kanggo akeh kahanan riset. Resep iki mung loro úa lan rong langkah. Bahan kasebut yaiku: (1) sumber data sing gedhe nanging tipis (misale, akeh wong nanging ora ana informasi sing perlu kanggo saben wong) lan (2) survey sing sempit nanging kandel (yaiku, mung sawetara wong, nanging ora duwe informasi sing perlu babagan wong-wong kasebut). Bahan kasebut digabungake ing rong langkah. Kaping pisanan, kanggo wong ing loro sumber data, mbangun model pembelajaran mesin sing nggunakake sumber data gedhe kanggo prédhiksi jawaban survey. Sabanjure, gunakake model kasebut kanggo ngira jawaban survey everyone ing sumber data gedhe. Mangkono, yen ana pitakonan sing sampeyan pengin takon akeh wong, goleki sumber data gedhe saka wong-wong sing bisa digunakake kanggo prédhiksi jawaban kasebut, sanajan sampeyan ora peduli babagan sumber data gedhe . Dadi, Blumenstock lan kanca-kanca ora sengaja ngurus rekaman telpon; padha mung peduli babagan cathetan telpon amarga bisa digunakake kanggo nemtokake jawaban survey sing padha peduli. Populasi data iki mung ora langsung karo sumber data-ndadekake amplifikasi takon beda-beda saka pitakonan tertamtu, sing dak jelasake sadurunge.
Ing kesimpulan, pendekatan amplifikasi Blumenstock dikombinasikaké gabungan data kanthi sumber data sing gedhé kanggo ngasilake perkiraan sing cocog karo survey emas-standar. Conto tartamtu iki uga njlentrehake sawenehing panularan antarane pitunjuk amplifikasi lan metode survey tradisional. Perkiraan taksiran sing luwih dhuwur luwih cepet, luwih murah, lan luwih akeh. Nanging, ing sebagéyan liya, durung ana basis teoritis sing kuat kanggo mènèhi tuntutan iki. Conto siji iki ora nuduhake yen pendekatan iki bakal mlaku lan nalika iku ora, lan peneliti nggunakake pendekatan iki kudu utamané prihatin babagan kemungkinan bias sing disebabake sing kalebu-lan sing ora kalebu-ing sumber data gedhe. Luwih, pendekatan taksiran sing dikarepake durung duwe cara sing becik kanggo ngétung kahanan sing ora mesthi watara perkiraan. Kanthi untung, pitakonan sing dikuwatake duweni hubungan jero kanggo telung wilayah gedhe ing statistik-estimasi wilayah cilik (Rao and Molina 2015) , imputation (Rubin 2004) , lan post-stratification model sing adhedhasar karo Pak P., cara aku diterangake sadurunge ing bab kasebut) (Little 1993) . Amarga sambungan jero, aku ngarepake yen akeh pondasi metodologis saka pituduh amplop bakal cepet tambah.
Pungkasan, mbandhingaké upaya pisanan lan kapindho Blumenstock uga nggambarake pawulangan penting babagan riset sosial digital-umur: wiwitane ora pungkasan. Mulane, akeh cara, pendekatan pisanan ora dadi sing paling apik, nanging yen peneliti terus maju, bisa luwih apik. Luwih umum, nalika ngevaluasi pendekatan anyar kanggo riset sosial ing jaman digital, penting kanggo nggawe loro evaluasi sing beda: (1) Carane apa karya iki saiki? lan (2) kepriye bakal karya iki ing mangsa ngarep minangka owah-owahan data sing owah lan minangka peneliti nyedhiyakake liyane manungsa waé kanggo masalah? Senajan peneliti dilatih kanggo nggawe evaluasi pisanan, sing liyane asring luwih penting.