Amplified asking menggunakan model ramalan untuk menggabungkan data tinjauan dari beberapa orang dengan sumber data besar dari banyak orang.
Cara yang berbeza untuk menggabungkan tinjauan dan sumber data besar adalah proses yang saya akan panggil meminta diperkuatkan . Dalam permintaan yang diperkuat, seorang penyelidik menggunakan model ramalan untuk menggabungkan sejumlah kecil data tinjauan dengan sumber data yang besar untuk menghasilkan anggaran pada skala atau butiran yang tidak akan mungkin dengan sama ada sumber data secara individu. Satu contoh penting untuk mendapatkan pertanyaan yang diperoleh dari karya Joshua Blumenstock, yang ingin mengumpulkan data yang dapat membantu membimbing pembangunan di negara-negara miskin. Pada masa lalu, para penyelidik yang mengumpul data jenis ini biasanya mengambil satu daripada dua pendekatan: tinjauan sampel atau banci. Kajian sampel, di mana penyelidik menemubual sebilangan kecil orang, boleh menjadi fleksibel, tepat pada masanya, dan agak murah. Walau bagaimanapun, tinjauan ini, kerana ia berdasarkan sampel, sering dihadkan dalam resolusi mereka. Dengan tinjauan sampel, seringkali sukar untuk membuat anggaran mengenai wilayah geografi tertentu atau untuk kumpulan demografi tertentu. Banci, sebaliknya, cuba untuk menemuduga setiap orang, dan supaya mereka boleh digunakan untuk menghasilkan anggaran untuk wilayah geografi kecil atau kumpulan demografi. Bagaimanapun, banci pada umumnya mahal, sempit dalam tumpuan (ia hanya termasuk sebilangan kecil soalan), dan tidak tepat pada masanya (ia berlaku pada jadual tetap, seperti setiap 10 tahun) (Kish 1979) . Daripada terjebak dengan tinjauan sampel atau banci, bayangkan jika penyelidik dapat menggabungkan ciri-ciri terbaik kedua-duanya. Bayangkan jika penyelidik boleh bertanya setiap soalan kepada setiap orang setiap hari. Jelas sekali, kajian ini selalu ada dalam fantasi sains sosial. Tetapi ia kelihatan bahawa kita boleh mula menghampiri ini dengan menggabungkan soalan tinjauan dari sebilangan kecil orang dengan jejak digital daripada ramai orang.
Penyelidikan Blumenstock bermula apabila dia bekerjasama dengan penyedia telefon mudah alih terbesar di Rwanda, dan syarikat menyediakan rekod transaksi tanpa nama dari kira-kira 1.5 juta pelanggan antara tahun 2005 dan 2009. Rekod ini mengandungi maklumat mengenai setiap panggilan dan mesej teks, seperti masa mula, tempoh , dan anggaran lokasi geografi pemanggil dan penerima. Sebelum saya bercakap mengenai isu-isu statistik, adalah penting untuk menunjukkan bahawa langkah pertama ini mungkin merupakan salah satu yang paling sukar bagi kebanyakan penyelidik. Seperti yang saya nyatakan dalam bab 2, kebanyakan sumber data yang besar tidak boleh diakses oleh penyelidik. Data meta telefon, terutamanya, sangat sukar dicapai kerana pada asasnya mustahil untuk tidak anonim dan hampir pasti mengandungi maklumat yang peserta akan mempertimbangkan sensitif (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Dalam kes ini, penyelidik berhati-hati untuk melindungi data dan kerja mereka diawasi oleh pihak ketiga (iaitu LHDN mereka). Saya akan kembali kepada isu etika ini dengan lebih terperinci dalam bab 6.
Blumenstock berminat untuk mengukur kekayaan dan kesejahteraan. Tetapi ciri-ciri ini tidak langsung dalam rekod panggilan. Dalam erti kata lain, rekod panggilan ini tidak lengkap untuk penyelidikan ini - ciri umum sumber data besar yang telah dibincangkan secara terperinci dalam bab 2. Namun, nampaknya rekod panggilan mungkin mempunyai beberapa maklumat yang secara tidak langsung dapat memberikan maklumat mengenai kekayaan dan kesejahteraan. Memandangkan kemungkinan ini, Blumenstock bertanya sama ada ia mungkin untuk melatih model pembelajaran mesin untuk meramalkan bagaimana seseorang akan bertindak balas terhadap kaji selidik berdasarkan rekod panggilan mereka. Jika ini mungkin, maka Blumenstock boleh menggunakan model ini untuk meramalkan tindak balas tinjauan daripada semua 1.5 juta pelanggan.
Untuk membina dan melatih model sedemikian, Blumenstock dan pembantu penyelidik dari Institut Sains dan Teknologi Kigali menyeru sampel rawak kira-kira seribu pelanggan. Penyelidik menerangkan matlamat projek itu kepada para peserta, meminta persetujuan mereka untuk menghubungkan respons kaji selidik kepada rekod panggilan, dan kemudian meminta mereka beberapa soalan untuk mengukur kekayaan dan kesejahteraan mereka, seperti "Adakah anda memiliki radio? "dan" Adakah anda memiliki basikal? "(lihat gambar 3.14 untuk senarai separa). Semua peserta dalam kaji selidik telah diberi pampasan secara kewangan.
Seterusnya, Blumenstock menggunakan prosedur dua langkah yang biasa dalam pembelajaran mesin: kejuruteraan ciri diikuti dengan pembelajaran yang diselia. Pertama, dalam langkah kejuruteraan ciri , untuk setiap orang yang ditemubual, Blumenstock menukar rekod panggilan ke dalam satu set ciri tentang setiap orang; Para saintis data mungkin memanggil ciri-ciri "ciri" ini dan ahli-ahli sains sosial akan memanggil mereka sebagai "pemboleh ubah." Sebagai contoh, bagi setiap orang, Blumenstock mengira jumlah bilangan hari dengan aktiviti, bilangan orang yang berbeza yang dihubungi jumlah wang yang dibelanjakan untuk masa penyiaran, dan sebagainya. Secara kritis, kejuruteraan ciri yang baik memerlukan pengetahuan terhadap penyelidikan. Sebagai contoh, jika penting untuk membezakan antara panggilan domestik dan antarabangsa (kita mungkin mengharapkan orang yang memanggil antarabangsa untuk menjadi lebih kaya), maka ini mesti dilakukan pada langkah kejuruteraan ciri. Seorang penyelidik dengan sedikit pemahaman tentang Rwanda mungkin tidak memasukkan ciri ini, dan kemudian prestasi ramalan model akan menderita.
Seterusnya, dalam langkah pembelajaran yang diselia , Blumenstock membina model untuk meramalkan tindak balas tinjauan untuk setiap orang berdasarkan ciri-ciri mereka. Dalam kes ini, Blumenstock menggunakan regresi logistik, tetapi dia dapat menggunakan pelbagai pendekatan pembelajaran statistik atau mesin.
Jadi, seberapa baik ia berfungsi? Adakah Blumenstock dapat meramalkan jawapan kepada soalan tinjauan seperti "Adakah anda memiliki radio?" Dan "Adakah anda memiliki basikal?" Menggunakan ciri-ciri yang diperoleh daripada rekod panggilan? Untuk menilai prestasi model ramalannya, Blumenstock menggunakan cross-validation , teknik yang biasa digunakan dalam sains data tetapi jarang dalam sains sosial. Matlamat cross-validation adalah untuk menyediakan penilaian yang adil tentang prestasi ramalan model dengan melatih dan mengujinya pada subset data yang berbeza. Khususnya, Blumenstock memecah datanya kepada 10 bahagian setiap 100 orang. Kemudian, dia menggunakan sembilan ketulan untuk melatih modelnya, dan prestasi ramalan model terlatih dinilai pada bahagian yang masih ada. Dia mengulangi prosedur ini sebanyak 10 kali-dengan setiap data yang mendapat giliran sebagai data pengesahan-dan purata hasilnya.
Ketepatan ramalan adalah tinggi untuk beberapa ciri (angka 3.14); sebagai contoh, Blumenstock dapat meramalkan dengan ketepatan 97.6% jika seseorang memiliki radio. Ini mungkin kedengarannya hebat, tetapi selalu penting untuk membandingkan kaedah ramalan kompleks terhadap alternatif yang mudah. Dalam kes ini, satu alternatif mudah adalah untuk meramalkan bahawa setiap orang akan memberikan jawapan yang paling biasa. Sebagai contoh, 97.3% responden dilaporkan mempunyai radio jadi jika Blumenstock telah meramalkan bahawa semua orang akan melaporkan memiliki radio dia akan mempunyai ketepatan 97.3%, yang menghairankan sama dengan prestasi prosedurnya yang lebih rumit (ketepatan 97.6%) . Dengan kata lain, semua data mewah dan pemodelan meningkatkan ketepatan ramalan dari 97.3% kepada 97.6%. Walau bagaimanapun, untuk soalan lain, seperti "Adakah anda memiliki basikal?", Ramalannya bertambah dari 54.4% hingga 67.6%. Lebih umum, angka 3.15 menunjukkan bahawa untuk beberapa ciri Blumenstock tidak banyak memperbaiki melampaui hanya membuat ramalan asas mudah, tetapi untuk ciri-ciri lain terdapat peningkatan. Walau bagaimanapun, berdasarkan keputusan ini, anda mungkin tidak fikir pendekatan ini sangat menjanjikan.
Walau bagaimanapun, hanya satu tahun kemudian, Blumenstock dan dua rekannya-Gabriel Cadamuro dan Robert On-menerbitkan sebuah kertas dalam Sains dengan keputusan yang lebih baik (Blumenstock, Cadamuro, and On 2015) . Terdapat dua sebab utama teknikal untuk peningkatan ini: (1) mereka menggunakan kaedah yang lebih canggih (iaitu pendekatan baru untuk kejuruteraan ciri dan model yang lebih canggih untuk meramalkan tindak balas dari ciri-ciri) dan (2) daripada cuba untuk membuat maklum balas terhadap individu soalan tinjauan (misalnya, "Adakah anda memiliki radio?"), mereka cuba untuk membuat indeks kekayaan komposit. Peningkatan teknikal ini bermakna mereka boleh melakukan pekerjaan yang munasabah menggunakan rekod panggilan untuk meramalkan kekayaan untuk orang dalam sampel mereka.
Walau bagaimanapun, ramalan kekayaan orang dalam sampel itu bukan matlamat akhir penyelidikan. Ingatlah bahawa matlamat utama adalah untuk menggabungkan beberapa ciri terbaik dari kaji selidik dan bancian sampel untuk menghasilkan anggaran kemiskinan yang tepat dan resolusi tinggi di negara-negara membangun. Untuk menilai keupayaan mereka untuk mencapai matlamat ini, Blumenstock dan rakan sekerja menggunakan model dan data mereka untuk meramalkan kekayaan semua 1.5 juta orang dalam rekod panggilan. Dan mereka menggunakan maklumat geospatial yang tertanam dalam rekod panggilan (ingat bahawa data termasuk lokasi menara sel terdekat untuk setiap panggilan) untuk menganggarkan tempat kediaman bagi setiap orang (angka 3.17). Meletakkan kedua-dua anggaran itu bersama-sama, Blumenstock dan rakan sekerja menghasilkan anggaran pengedaran geografi kekayaan pelanggan di ruang butiran ruang yang sangat halus. Sebagai contoh, mereka boleh menganggarkan kekayaan purata dalam setiap 2,148 sel Rwanda (unit pentadbiran terkecil di negara ini).
Betapa anggarannya sepadan dengan tahap kemiskinan sebenar di rantau ini? Sebelum saya menjawab soalan itu, saya ingin menekankan fakta bahawa terdapat banyak sebab untuk menjadi ragu-ragu. Sebagai contoh, keupayaan untuk membuat ramalan di peringkat individu agak bising (angka 3.17). Dan, mungkin lebih penting lagi, orang dengan telefon bimbit mungkin berbeza secara sistematik daripada orang tanpa telefon bimbit. Oleh itu, Blumenstock dan rakan sekerja mungkin menderita daripada jenis kesilapan liputan yang membazir kajian Literatur Digest 1936 yang saya nyatakan sebelum ini.
Untuk mendapatkan kualiti perkiraan mereka, Blumenstock dan rakan sekerja perlu membandingkannya dengan sesuatu yang lain. Mujurlah, pada masa yang sama seperti kajian mereka, satu lagi kumpulan penyelidik menjalankan kajian sosial yang lebih tradisional di Rwanda. Kajian lain ini-yang merupakan sebahagian daripada program Suruhanjaya Demografi dan Kesihatan yang banyak dihormati-mempunyai belanjawan yang besar dan menggunakan kaedah tradisional yang berkualiti tinggi. Oleh itu, anggaran dari Penyiasatan Demografi dan Kesihatan secara munasabah boleh dianggap sebagai anggaran emas. Apabila kedua-dua anggaran itu dibandingkan, mereka agak sama (angka 3.17). Dengan kata lain, dengan menggabungkan sedikit data tinjauan dengan rekod panggilan, Blumenstock dan rakan sekerja dapat menghasilkan anggaran yang setanding dengan mereka dari pendekatan standard emas.
Seorang yang skeptis mungkin melihat hasil ini sebagai kekecewaan. Lagipun, satu cara untuk melihatnya ialah dengan menggunakan data besar dan pembelajaran mesin, Blumenstock dan rakan-rakan dapat menghasilkan anggaran yang boleh dibuat lebih dipercayai oleh kaedah sedia ada. Tetapi saya tidak fikir itu adalah cara yang betul untuk berfikir tentang kajian ini kerana dua sebab. Pertama, anggaran dari Blumenstock dan rakan sekerja adalah kira-kira 10 kali lebih cepat dan 50 kali lebih murah (apabila kos diukur dari segi kos berubah-ubah). Seperti yang saya katakan sebelum ini dalam bab ini, para penyelidik mengabaikan kos di bahaya mereka. Dalam hal ini, contohnya, penurunan dramatik dalam kos bermakna bukannya berjalan setiap beberapa tahun-seperti yang biasa untuk Suruhanjaya Demografi dan Kesihatan-survei semacam ini dapat dijalankan setiap bulan, yang akan memberikan banyak kelebihan untuk penyelidik dan dasar pembuat. Sebab kedua tidak mengambil pandangan skeptik adalah bahawa kajian ini menyediakan resipi asas yang boleh disesuaikan dengan situasi penyelidikan yang berbeza. Resipi ini hanya mempunyai dua bahan dan dua langkah. Bahan-bahan adalah (1) sumber data besar yang luas tetapi nipis (iaitu, ia mempunyai banyak orang tetapi bukan maklumat yang anda perlukan untuk setiap orang) dan (2) tinjauan yang sempit tetapi tebal (iaitu, ia hanya mempunyai beberapa orang, tetapi ia mempunyai maklumat yang anda perlukan tentang orang-orang itu). Bahan-bahan ini kemudian digabungkan dalam dua langkah. Pertama, bagi orang-orang dalam kedua-dua sumber data, membina model pembelajaran mesin yang menggunakan sumber data besar untuk meramalkan jawapan tinjauan. Seterusnya, gunakan model itu untuk menafikan jawapan tinjauan semua orang dalam sumber data besar. Oleh itu, jika ada soalan yang anda ingin bertanya kepada ramai orang, cari sumber data yang besar dari orang-orang yang mungkin digunakan untuk meramalkan jawapannya, walaupun anda tidak peduli dengan sumber data besar . Iaitu, Blumenstock dan rakan sekerja tidak semestinya mengambil berat tentang rekod panggilan; mereka hanya peduli tentang rekod panggilan kerana mereka boleh digunakan untuk meramalkan jawapan tinjauan yang mereka carikan. Kepentingan tidak langsung ciri-ciri ini dalam sumber data besar-dikuatkuasakan meminta berbeza daripada bertanya tertanam, yang saya nyatakan sebelum ini.
Sebagai kesimpulan, pendekatan pertanyaan Blumenstock yang diperkuatkan menggabungkan data tinjauan dengan sumber data yang besar untuk menghasilkan anggaran yang setanding dengan mereka dari kaji selidik emas-standard. Contoh khusus ini juga menjelaskan sebahagian daripada pertukaran antara permintaan yang diperkembangkan dan kaedah kaji selidik tradisional. Perkataan yang diperkuatkan lebih tepat pada masanya, jauh lebih murah, dan lebih terperinci. Tetapi, sebaliknya, belum ada asas teoritis yang kuat untuk bertanya semacam ini. Contoh tunggal ini tidak menunjukkan apabila pendekatan ini akan berfungsi dan apabila tidak, dan penyelidik yang menggunakan pendekatan ini perlu sangat prihatin tentang kemungkinan bias yang disebabkan oleh siapa yang termasuk-dan yang tidak termasuk dalam sumber data besar mereka. Tambahan lagi, pendekatan meminta yang diperkuat tidak lagi mempunyai cara yang baik untuk mengukur ketidakpastian sekitar anggarannya. Mujurlah, pertanyaan yang dikuatkuasakan mempunyai hubungan yang mendalam kepada tiga kawasan besar dalam statistik-perkiraan kawasan kecil (Rao and Molina 2015) , imputasi (Rubin 2004) , dan post-stratification berasaskan model (yang sendiri berkait rapat dengan Encik P., kaedah yang saya nyatakan sebelum ini) (Little 1993) . Kerana hubungan yang mendalam ini, saya berharap bahawa banyak asas metodologi yang diperkuatkan akan segera ditingkatkan.
Akhirnya, membandingkan percubaan pertama dan kedua Blumenstock juga menggambarkan satu pelajaran penting tentang penyelidikan sosial umur digital: permulaan bukanlah akhir. Iaitu, banyak kali, pendekatan pertama tidak akan menjadi yang terbaik, tetapi jika penyelidik terus bekerja, keadaan menjadi lebih baik. Secara umumnya, apabila menilai pendekatan baru dalam penyelidikan sosial dalam era digital, penting untuk membuat dua penilaian yang berbeza: (1) Seberapa baik ini berfungsi sekarang? dan (2) Sebaik-baiknya akan kerja ini pada masa akan datang apabila landskap data berubah dan sebagai penyelidik menumpukan lebih perhatian kepada masalah ini? Walaupun para penyelidik dilatih untuk membuat jenis penilaian pertama, yang kedua sering lebih penting.