Permintaan diperkuat menggunakan model prediktif untuk menggabungkan data survei dari beberapa orang dengan sumber data besar dari banyak orang.
Cara lain untuk menggabungkan survei dan sumber data besar adalah proses yang akan saya sebut permintaan yang diperkuat . Dalam permintaan yang diperkuat, peneliti menggunakan model prediktif untuk menggabungkan sejumlah kecil data survei dengan sumber data besar untuk menghasilkan perkiraan pada skala atau perincian yang tidak mungkin dengan sumber data individual. Contoh penting dari permintaan yang diperkuat berasal dari karya Joshua Blumenstock, yang ingin mengumpulkan data yang dapat membantu memandu pembangunan di negara-negara miskin. Di masa lalu, para peneliti yang mengumpulkan data semacam ini umumnya harus mengambil satu dari dua pendekatan: survei sampel atau sensus. Contoh survei, di mana peneliti mewawancarai sejumlah kecil orang, dapat fleksibel, tepat waktu, dan relatif murah. Namun, survei ini, karena didasarkan pada sampel, seringkali terbatas dalam resolusinya. Dengan survei sampel, seringkali sulit untuk membuat perkiraan tentang wilayah geografis tertentu atau untuk kelompok demografis tertentu. Sensus, di sisi lain, mencoba untuk mewawancarai semua orang, sehingga mereka dapat digunakan untuk menghasilkan perkiraan untuk wilayah geografis kecil atau kelompok demografi. Tetapi sensus biasanya mahal, sempit dalam fokus (hanya mencakup sejumlah kecil pertanyaan), dan tidak tepat waktu (terjadi pada jadwal tetap, seperti setiap 10 tahun) (Kish 1979) . Daripada terjebak dengan survei sampel atau sensus, bayangkan jika peneliti dapat menggabungkan karakteristik terbaik dari keduanya. Bayangkan jika peneliti bisa menanyakan setiap pertanyaan kepada setiap orang setiap hari. Tentunya, survei yang selalu ada di mana-mana ini adalah semacam fantasi ilmu sosial. Tetapi tampaknya kita dapat mulai memperkirakan ini dengan menggabungkan pertanyaan survei dari sejumlah kecil orang dengan jejak digital dari banyak orang.
Penelitian Blumenstock dimulai ketika ia bermitra dengan penyedia ponsel terbesar di Rwanda, dan perusahaan tersebut memberikan catatan transaksi yang dianonimkan dari sekitar 1,5 juta pelanggan antara tahun 2005 dan 2009. Catatan ini berisi informasi tentang setiap panggilan dan pesan teks, seperti waktu mulai, durasi , dan perkiraan lokasi geografis dari pemanggil dan penerima. Sebelum saya berbicara tentang masalah statistik, perlu ditunjukkan bahwa langkah pertama ini mungkin merupakan salah satu yang paling sulit bagi banyak peneliti. Seperti yang saya jelaskan di Bab 2, sebagian besar sumber data tidak dapat diakses oleh peneliti. Telepon meta-data, khususnya, terutama tidak dapat diakses karena pada dasarnya tidak mungkin untuk melakukan anonim dan hampir pasti berisi informasi bahwa peserta akan mempertimbangkan sensitif (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Dalam kasus khusus ini, para peneliti berhati-hati untuk melindungi data dan pekerjaan mereka diawasi oleh pihak ketiga (yaitu, IRB mereka). Saya akan kembali ke masalah etik ini secara lebih rinci di bab 6.
Blumenstock tertarik mengukur kekayaan dan kesejahteraan. Tetapi sifat-sifat ini tidak secara langsung dalam catatan panggilan. Dengan kata lain, catatan panggilan ini tidak lengkap untuk penelitian ini - fitur umum dari sumber data besar yang dibahas secara rinci dalam bab 2. Namun, nampaknya catatan panggilan mungkin memiliki beberapa informasi yang secara tidak langsung dapat memberikan informasi tentang kekayaan dan kesejahteraan. Mengingat kemungkinan ini, Blumenstock bertanya apakah mungkin untuk melatih model pembelajaran mesin untuk memprediksi bagaimana seseorang akan menanggapi survei berdasarkan catatan panggilan mereka. Jika ini memungkinkan, maka Blumenstock dapat menggunakan model ini untuk memprediksi tanggapan survei dari semua 1,5 juta pelanggan.
Untuk membangun dan melatih model seperti itu, Blumenstock dan asisten peneliti dari Kigali Institute of Science and Technology disebut sampel acak sekitar seribu pelanggan. Para peneliti menjelaskan tujuan proyek kepada peserta, meminta persetujuan mereka untuk menghubungkan tanggapan survei dengan catatan panggilan, dan kemudian mengajukan serangkaian pertanyaan untuk mengukur kekayaan dan kesejahteraan mereka, seperti “Apakah Anda memiliki radio? ”dan“ Apakah Anda memiliki sepeda? ”(lihat gambar 3.14 untuk daftar parsial). Semua peserta dalam survei tersebut dikompensasi secara finansial.
Selanjutnya, Blumenstock menggunakan prosedur dua langkah yang umum dalam pembelajaran mesin: rekayasa fitur diikuti dengan pembelajaran yang diawasi. Pertama, dalam langkah rekayasa fitur , untuk semua orang yang diwawancarai, Blumenstock mengubah catatan panggilan menjadi satu set karakteristik tentang setiap orang; ilmuwan data mungkin menyebut karakteristik ini "fitur" dan ilmuwan sosial akan menyebutnya "variabel." Sebagai contoh, untuk setiap orang, Blumenstock menghitung jumlah hari dengan aktivitas, jumlah orang yang berbeda yang telah dihubungi seseorang, jumlah uang yang dihabiskan untuk airtime, dan seterusnya. Secara kritis, rekayasa fitur yang baik membutuhkan pengetahuan tentang pengaturan penelitian. Sebagai contoh, jika penting untuk membedakan antara panggilan domestik dan internasional (kita mungkin mengharapkan orang yang menyebut secara internasional menjadi lebih kaya), maka ini harus dilakukan pada langkah rekayasa fitur. Seorang peneliti dengan sedikit pemahaman tentang Rwanda mungkin tidak termasuk fitur ini, dan kemudian kinerja prediksi model akan menderita.
Selanjutnya, dalam langkah pembelajaran yang diawasi , Blumenstock membangun sebuah model untuk memprediksi respons survei untuk setiap orang berdasarkan fitur mereka. Dalam hal ini, Blumenstock menggunakan regresi logistik, tetapi ia bisa menggunakan berbagai pendekatan pembelajaran statistik atau mesin lainnya.
Jadi seberapa baik kerjanya? Apakah Blumenstock mampu memprediksi jawaban atas pertanyaan survei seperti "Apakah Anda memiliki radio?" Dan "Apakah Anda memiliki sepeda?" Menggunakan fitur-fitur yang berasal dari catatan panggilan? Untuk mengevaluasi kinerja model prediksinya, Blumenstock menggunakan validasi silang , teknik yang biasa digunakan dalam ilmu data tetapi jarang dalam ilmu sosial. Tujuan validasi silang adalah untuk memberikan penilaian yang adil terhadap kinerja prediksi model dengan melatihnya dan mengujinya pada subhimpunan data yang berbeda. Secara khusus, Blumenstock membagi datanya menjadi 10 bagian dari 100 orang masing-masing. Kemudian, ia menggunakan sembilan dari potongan untuk melatih modelnya, dan kinerja prediksi dari model terlatih dievaluasi pada potongan yang tersisa. Dia mengulangi prosedur ini 10 kali — dengan setiap bagian data mendapatkan satu giliran sebagai data validasi — dan rata-rata hasilnya.
Keakuratan prediksi tinggi untuk beberapa sifat (gambar 3.14); misalnya, Blumenstock dapat memprediksi dengan akurasi 97,6% jika seseorang memiliki radio. Ini mungkin terdengar mengesankan, tetapi itu selalu penting untuk membandingkan metode prediksi yang kompleks dengan alternatif yang sederhana. Dalam hal ini, alternatif yang sederhana adalah memprediksi bahwa setiap orang akan memberikan jawaban yang paling umum. Misalnya, 97,3% responden melaporkan memiliki radio sehingga jika Blumenstock memprediksi bahwa setiap orang akan melaporkan memiliki radio, dia akan memiliki akurasi 97,3%, yang secara mengejutkan mirip dengan kinerja prosedurnya yang lebih kompleks (akurasi 97,6%) . Dengan kata lain, semua data mewah dan pemodelan meningkatkan akurasi prediksi dari 97,3% menjadi 97,6%. Namun, untuk pertanyaan lain, seperti "Apakah Anda memiliki sepeda?", Prediksi meningkat dari 54,4% menjadi 67,6%. Secara lebih umum, gambar 3.15 menunjukkan bahwa untuk beberapa sifat, Blumenstock tidak meningkat jauh melebihi hanya membuat prediksi garis dasar yang sederhana, tetapi untuk sifat-sifat lainnya ada beberapa peningkatan. Melihat hanya pada hasil ini, Anda mungkin tidak berpikir bahwa pendekatan ini sangat menjanjikan.
Namun, hanya satu tahun kemudian, Blumenstock dan dua rekannya — Gabriel Cadamuro dan Robert On — menerbitkan makalah dalam Science dengan hasil yang jauh lebih baik (Blumenstock, Cadamuro, and On 2015) . Ada dua alasan teknis utama untuk peningkatan ini: (1) mereka menggunakan metode yang lebih canggih (yaitu, pendekatan baru untuk fitur rekayasa dan model yang lebih canggih untuk memprediksi tanggapan dari fitur) dan (2) daripada mencoba untuk menyimpulkan tanggapan terhadap individu pertanyaan survei (misalnya, "Apakah Anda memiliki radio?"), mereka mencoba menyimpulkan indeks kekayaan gabungan. Perbaikan teknis ini berarti bahwa mereka dapat melakukan pekerjaan yang layak menggunakan catatan panggilan untuk memprediksi kekayaan bagi orang-orang dalam sampel mereka.
Memprediksi kekayaan orang dalam sampel, bagaimanapun, bukanlah tujuan akhir dari penelitian. Ingat bahwa tujuan utamanya adalah untuk menggabungkan beberapa fitur terbaik dari survei dan sensus sampel untuk menghasilkan perkiraan kemiskinan yang akurat dan resolusi tinggi di negara-negara berkembang. Untuk menilai kemampuan mereka untuk mencapai tujuan ini, Blumenstock dan rekannya menggunakan model dan data mereka untuk memprediksi kekayaan semua 1,5 juta orang dalam catatan panggilan. Dan mereka menggunakan informasi geospasial yang tertanam dalam catatan panggilan (ingat bahwa data termasuk lokasi menara sel terdekat untuk setiap panggilan) untuk memperkirakan perkiraan tempat tinggal setiap orang (gambar 3.17). Dengan menempatkan kedua perkiraan ini bersama-sama, Blumenstock dan rekan menghasilkan perkiraan distribusi geografis kekayaan pelanggan pada perincian spasial yang sangat halus. Misalnya, mereka dapat memperkirakan rata-rata kekayaan di masing-masing 2.148 sel Rwanda (unit administrasi terkecil di negara ini).
Seberapa baikkah perkiraan ini sesuai dengan tingkat kemiskinan yang sebenarnya di wilayah ini? Sebelum saya menjawab pertanyaan itu, saya ingin menekankan fakta bahwa ada banyak alasan untuk bersikap skeptis. Misalnya, kemampuan untuk membuat prediksi pada tingkat individu cukup berisik (gambar 3.17). Dan, mungkin yang lebih penting, orang-orang dengan ponsel mungkin berbeda secara sistematis dari orang-orang tanpa ponsel. Dengan demikian, Blumenstock dan rekan-rekannya mungkin menderita jenis-jenis kesalahan cakupan yang menyimpang survei Sastra Semesteran 1936 yang saya jelaskan sebelumnya.
Untuk mendapatkan rasa kualitas perkiraan mereka, Blumenstock dan rekan perlu membandingkannya dengan sesuatu yang lain. Untungnya, sekitar waktu yang sama dengan penelitian mereka, sekelompok peneliti lain menjalankan survei sosial yang lebih tradisional di Rwanda. Survei lain ini - yang merupakan bagian dari program Survei Demografi dan Kesehatan yang sangat dihormati - memiliki anggaran besar dan menggunakan metode tradisional berkualitas tinggi. Oleh karena itu, perkiraan dari Demografi dan Survei Kesehatan dapat dianggap sebagai perkiraan standar emas. Ketika dua perkiraan dibandingkan, mereka cukup mirip (gambar 3.17). Dengan kata lain, dengan menggabungkan sejumlah kecil data survei dengan catatan panggilan, Blumenstock dan rekannya mampu menghasilkan perkiraan yang sebanding dengan yang berasal dari pendekatan standar emas.
Seorang skeptis mungkin melihat hasil ini sebagai kekecewaan. Setelah semua, salah satu cara untuk melihat mereka adalah dengan mengatakan bahwa dengan menggunakan data besar dan pembelajaran mesin, Blumenstock dan rekan mampu menghasilkan perkiraan yang dapat dibuat lebih andal dengan metode yang sudah ada. Tapi saya rasa itu bukan cara yang tepat untuk memikirkan penelitian ini karena dua alasan. Pertama, perkiraan dari Blumenstock dan rekan sekitar 10 kali lebih cepat dan 50 kali lebih murah (ketika biaya diukur dalam hal biaya variabel). Seperti yang saya kemukakan sebelumnya dalam bab ini, para peneliti mengabaikan biaya pada risikonya. Dalam kasus ini, misalnya, penurunan biaya yang dramatis berarti bahwa alih-alih dijalankan setiap beberapa tahun — seperti standar Demografi dan Survei Kesehatan — survei semacam ini dapat dilakukan setiap bulan, yang akan memberikan banyak keuntungan bagi para peneliti dan kebijakan. pembuat. Alasan kedua untuk tidak mengambil pandangan skeptis adalah bahwa penelitian ini memberikan resep dasar yang dapat disesuaikan untuk berbagai situasi penelitian yang berbeda. Resep ini hanya memiliki dua bahan dan dua langkah. Bahan-bahannya adalah (1) sumber data besar yang lebar tetapi tipis (yaitu, memiliki banyak orang tetapi tidak informasi yang Anda butuhkan tentang setiap orang) dan (2) survei yang sempit tetapi tebal (yaitu, hanya memiliki beberapa orang, tetapi memiliki informasi yang Anda butuhkan tentang orang-orang itu). Bahan-bahan ini kemudian digabungkan dalam dua langkah. Pertama, untuk orang-orang di kedua sumber data, buat model pembelajaran mesin yang menggunakan sumber data besar untuk memprediksi jawaban survei. Selanjutnya, gunakan model itu untuk mengimplikasikan jawaban survei semua orang di sumber data besar. Jadi, jika ada pertanyaan yang ingin Anda tanyakan kepada banyak orang, carilah sumber data besar dari orang-orang yang mungkin digunakan untuk memprediksi jawaban mereka, bahkan jika Anda tidak peduli dengan sumber data besar . Yaitu, Blumenstock dan rekan tidak secara inheren peduli tentang catatan panggilan; mereka hanya peduli tentang catatan panggilan karena mereka dapat digunakan untuk memprediksi jawaban survei yang mereka pedulikan. Karakteristik ini — hanya minat tidak langsung pada sumber data besar — membuat permintaan yang diperkuat berbeda dari permintaan yang tertanam, yang saya jelaskan sebelumnya.
Sebagai kesimpulan, pendekatan permintaan yang diperkuat Blumenstock menggabungkan data survei dengan sumber data besar untuk menghasilkan perkiraan yang sebanding dengan yang berasal dari survei standar emas. Contoh khusus ini juga menjelaskan beberapa trade-off antara permintaan yang diperkuat dan metode survei tradisional. Perkiraan permintaan yang diperkuat lebih tepat waktu, jauh lebih murah, dan lebih terperinci. Namun, di sisi lain, belum ada dasar teoritis yang kuat untuk jenis permintaan yang diperkuat ini. Contoh tunggal ini tidak menunjukkan kapan pendekatan ini akan berhasil dan kapan tidak akan berhasil, dan para peneliti yang menggunakan pendekatan ini perlu secara khusus memperhatikan kemungkinan bias yang disebabkan oleh siapa yang termasuk - dan siapa yang tidak termasuk - dalam sumber data besar mereka. Lebih lanjut, pendekatan permintaan yang diperkuat belum memiliki cara yang baik untuk mengukur ketidakpastian di sekitar perkiraannya. Untungnya, permintaan yang diperkuat memiliki koneksi yang dalam ke tiga area besar dalam statistik — estimasi area kecil (Rao and Molina 2015) , imputasi (Rubin 2004) , dan model-model pasca-stratifikasi (yang sendiri terkait erat dengan Mr P., metode yang saya jelaskan sebelumnya dalam bab ini) (Little 1993) . Karena koneksi yang dalam ini, saya berharap bahwa banyak dari landasan metodologis permintaan yang diperkuat akan segera ditingkatkan.
Akhirnya, membandingkan upaya pertama dan kedua Blumenstock juga mengilustrasikan pelajaran penting tentang penelitian sosial era digital: awal bukanlah akhir. Artinya, sering kali, pendekatan pertama tidak akan menjadi yang terbaik, tetapi jika peneliti terus bekerja, semuanya bisa menjadi lebih baik. Lebih umum, ketika mengevaluasi pendekatan baru untuk penelitian sosial di era digital, penting untuk membuat dua evaluasi yang berbeda: (1) Seberapa baik ini bekerja sekarang? dan (2) Seberapa baik ini akan bekerja di masa depan ketika lanskap data berubah dan sebagai peneliti mencurahkan lebih banyak perhatian pada masalah? Meskipun para peneliti dilatih untuk membuat evaluasi pertama, yang kedua seringkali lebih penting.