Umur digital membuat persampelan kebarangkalian dalam amalan lebih keras dan mencipta peluang baru untuk persampelan bukan kebarangkalian.
Dalam sejarah pensampelan, terdapat dua pendekatan bersaing: kaedah persampelan kebarangkalian dan kaedah persampelan bukan kebarangkalian. Walaupun kedua-dua pendekatan digunakan pada hari-hari awal pensampelan, pensampelan kebarangkalian telah datang untuk menguasai, dan banyak penyelidik sosial diajar untuk melihat pensampelan bukan kebarangkalian dengan keraguan yang besar. Walau bagaimanapun, seperti yang saya akan terangkan di bawah, perubahan yang dibuat oleh zaman digital bermakna bahawa sudah tiba masanya bagi penyelidik untuk menimbang semula persampelan bukan kebarangkalian. Khususnya, pensampelan kebarangkalian semakin sukar dilakukan dalam praktik, dan pensampelan bukan kebarangkalian semakin cepat, lebih murah, dan lebih baik. Kajian lebih cepat dan lebih murah tidak hanya berakhir pada diri mereka sendiri: ia membolehkan peluang baru seperti tinjauan lebih kerap dan saiz sampel yang lebih besar. Sebagai contoh, dengan menggunakan kaedah bukan kebarangkalian Kajian Pilihan Raya Koperasi Kongres (CCES) dapat mempunyai kira-kira 10 kali lebih banyak peserta daripada kajian terdahulu menggunakan sampel kebarangkalian. Sampel yang lebih besar ini membolehkan penyelidik politik mempelajari variasi dalam sikap dan tingkah laku merentasi subkelompok dan konteks sosial. Tambahan pula, semua skala tambahan ini datang tanpa berkurangan dalam kualiti anggaran (Ansolabehere and Rivers 2013) .
Pada masa ini, pendekatan yang dominan untuk pensampelan untuk penyelidikan sosial adalah pensampelan kebarangkalian . Dalam persampelan kebarangkalian, semua anggota populasi sasaran mempunyai kebarangkalian yang diketahui, tanpa kebolehjelasan, dan semua orang yang dijangkakan bertindak balas terhadap tinjauan itu. Apabila syarat-syarat ini dipenuhi, keputusan matematik elegan menawarkan jaminan yang boleh terbukti tentang keupayaan penyelidik untuk menggunakan sampel untuk membuat kesimpulan mengenai populasi sasaran.
Walau bagaimanapun, dalam dunia sebenar, keadaan yang mendasari keputusan matematik ini jarang dipenuhi. Sebagai contoh, sering terdapat kesalahan liputan dan tidak bertanggungjawab. Kerana masalah ini, penyelidik sering menggunakan pelbagai pelarasan statistik untuk membuat kesimpulan dari sampel mereka kepada penduduk sasaran mereka. Oleh itu, adalah penting untuk membezakan antara kesimpulan kebarangkalian dalam teori , yang mempunyai jaminan teoritikal yang kuat, dan pensampelan kebarangkalian dalam amalan , yang tidak memberikan jaminan sedemikian dan bergantung kepada pelbagai pelarasan statistik.
Dari masa ke masa, perbezaan antara persampelan kebarangkalian dalam teori dan persampelan kebarangkalian dalam amalan telah meningkat. Sebagai contoh, kadar tidak bertindak balas telah meningkat dengan pesat, walaupun dalam kaji selidik mahal yang tinggi (angka 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Kadar tidak bertanggungjawab lebih tinggi dalam kaji selidik telefon komersil-kadang-kadang setinggi 90% (Kohut et al. 2012) . Peningkatan ketidak respons ini mengancam kualiti anggaran kerana anggaran semakin bergantung pada model statistik yang digunakan para penyelidik untuk menyesuaikan diri dengan ketidak respons. Tambahan pula, penurunan kualiti telah berlaku walaupun usaha yang semakin mahal oleh penyelidik kaji selidik untuk mengekalkan kadar tindak balas yang tinggi. Sesetengah orang bimbang bahawa trend berkembar ini berkurangan dan kos yang semakin meningkat mengancam asas penyelidikan kaji selidik (National Research Council 2013) .
Pada masa yang sama bahawa terdapat kesukaran yang semakin meningkat untuk kaedah pensampelan kebarangkalian, terdapat juga perkembangan menarik dalam kaedah pensampelan bukan kebarangkalian . Terdapat pelbagai gaya persampelan bukan kebarangkalian, tetapi satu perkara yang mereka mempunyai persamaan adalah bahawa mereka tidak dapat dengan mudah dimuatkan dalam rangka matematik kebarangkalian sampling (Baker et al. 2013) . Dalam erti kata lain, dalam kaedah persampelan bukan kebarangkalian tidak semua orang mempunyai kebolehan dimasukkan. Kaedah pensampelan bukan kebarangkalian mempunyai reputasi hebat di kalangan para penyelidik sosial dan mereka dikaitkan dengan beberapa kegagalan yang paling dramatik penyelidik kaji selidik, seperti kegagalan Literary Digest (dibincangkan sebelumnya) dan "Dewey Defeats Truman," ramalan salah mengenai AS pilihan raya presiden tahun 1948 (angka 3.6).
Salah satu bentuk persampelan bukan kebarangkalian yang sesuai dengan zaman digital ialah penggunaan panel dalam talian . Penyelidik yang menggunakan panel dalam talian bergantung kepada beberapa pembekal panel-biasanya sebuah syarikat, kerajaan, atau universiti-untuk membina kumpulan orang yang besar dan pelbagai yang bersetuju untuk bertindak sebagai responden untuk tinjauan. Peserta panel ini sering direkrut dengan menggunakan pelbagai kaedah ad hoc seperti iklan sepanduk dalam talian. Kemudian, seorang penyelidik boleh membayar pembekal panel untuk akses kepada sampel responden dengan ciri-ciri yang dikehendaki (misalnya, wakil negara dewasa). Panel-panel dalam talian ini adalah kaedah bukan kebarangkalian kerana tidak semua orang mempunyai kebolehan inklusi, yang tidak diketahui. Walaupun panel dalam talian bukan probabiliti telah digunakan oleh penyelidik sosial (contohnya, CCES), terdapat beberapa perdebatan tentang kualiti anggaran yang diperolehi daripada mereka (Callegaro et al. 2014) .
Walaupun perdebatan ini, saya fikir terdapat dua sebab mengapa masa yang tepat untuk penyelidik sosial untuk menimbang semula persampelan bukan kebarangkalian. Pertama, dalam era digital, terdapat banyak perkembangan dalam pengumpulan dan analisis sampel bukan kebarangkalian. Kaedah-kaedah baru ini cukup berbeza dari kaedah yang menyebabkan masalah pada masa lalu yang saya rasa masuk akal untuk memikirkannya sebagai "bukan probabiliti sampling 2.0." Alasan kedua mengapa para penyelidik harus mempertimbangkan semula persampelan bukan kebarangkalian adalah kerana percampuran kebarangkalian dalam amalan menjadi semakin sukar. Apabila terdapat kadar yang tinggi tidak bertindak balas - seperti yang terdapat dalam tinjauan sebenar sekarang-kebarangkalian sebenar kemasukan untuk responden tidak diketahui, dan oleh itu, sampel kebarangkalian dan sampel bukan kebarangkalian tidak begitu berbeza kerana banyak penyelidik percaya.
Seperti yang saya katakan sebelum ini, sampel kebarangkalian dilihat dengan keraguan besar oleh banyak penyelidik sosial, sebahagiannya kerana peranan mereka dalam beberapa kegagalan yang paling memalukan pada hari-hari awal penyelidikan tinjauan. Satu contoh yang jelas tentang sejauh mana kita datang dengan sampel bukan kebarangkalian adalah penyelidikan oleh Wei Wang, David Rothschild, Sharad Goel, dan Andrew Gelman (2015) yang dengan betul pulih hasil pilihan raya AS 2012 dengan menggunakan sampel kebarangkalian Pengguna Xbox Amerika-sampel Amerika yang tidak senonoh. Para penyelidik merekrut responden dari sistem permainan Xbox, dan seperti yang anda harapkan, sampel Xbox mencondongkan lelaki dan lelaki muda: 18 hingga 29 tahun membentuk 19% daripada pengundi tetapi 65% daripada sampel Xbox, dan lelaki membentuk 47% daripada pengundi tetapi 93% daripada sampel Xbox (angka 3.7). Kerana kecenderungan demografi yang kuat ini, data Xbox mentah adalah penunjuk miskin pemilihan pilihan raya. Ia meramalkan kemenangan kuat untuk Mitt Romney ke atas Barack Obama. Sekali lagi, ini adalah satu lagi contoh bahaya sampel bukan kebarangkalian mentah, tidak disesuaikan dan mengingatkan kegagalan Literary Digest .
Walau bagaimanapun, Wang dan rakan sekerja menyedari masalah ini dan cuba menyesuaikan diri dengan proses persampelan mereka yang tidak rawak apabila membuat anggaran. Khususnya, mereka menggunakan pasca-stratifikasi , satu teknik yang juga digunakan secara meluas untuk menyesuaikan sampel kebarangkalian yang mempunyai kesilapan liputan dan tidak bertindak balas.
Idea utama stratifikasi pasca adalah menggunakan maklumat tambahan tentang populasi sasaran untuk membantu meningkatkan anggaran yang datang dari sampel. Apabila menggunakan pasca-stratifikasi untuk membuat anggaran dari sampel bukan kebarangkalian, Wang dan rakan sekerja memotong populasi ke dalam kumpulan yang berlainan, menganggarkan sokongan Obama dalam setiap kumpulan, dan kemudian mengambil purata wajaran anggaran kumpulan untuk menghasilkan anggaran keseluruhan. Sebagai contoh, mereka boleh memisahkan penduduk menjadi dua kumpulan (lelaki dan wanita), menganggarkan sokongan Obama di kalangan lelaki dan wanita, dan kemudian menganggarkan sokongan keseluruhan untuk Obama dengan mengambil purata wajaran untuk menjelaskan hakikat bahawa wanita membuat sehingga 53% daripada pengundi dan lelaki 47%. Secara kasar, post-stratification membantu membetulkan sampel yang tidak seimbang dengan membawa maklumat bantu tentang saiz kumpulan.
Kunci untuk stratifikasi pasca adalah untuk membentuk kumpulan yang tepat. Jika anda boleh memotong populasi ke dalam kumpulan homogen supaya kecenderungan tindak balas adalah sama untuk semua orang dalam setiap kumpulan, maka selepas penstrukturan akan menghasilkan taksiran yang tidak berat sebelah. Dalam erti kata lain, post-stratifying mengikut jantina akan menghasilkan anggaran tidak berat sebelah jika semua lelaki mempunyai kecenderungan tindak balas dan semua wanita mempunyai kecenderungan tindak balas yang sama. Anggapan ini dinamakan asumsi homogen-respons-kecenderungan dalam kumpulan , dan saya menerangkannya sedikit lagi dalam nota matematik pada akhir bab ini.
Sudah tentu, tidak mungkin bahawa kecenderungan tindak balas akan sama untuk semua lelaki dan semua wanita. Walau bagaimanapun, andaian homogen-respon-kecenderungan dalam kumpulan menjadi lebih munasabah kerana bilangan kumpulan bertambah. Secara kasar, menjadi lebih mudah untuk memotong populasi menjadi kumpulan homogen jika anda membuat lebih banyak kumpulan. Sebagai contoh, mungkin tidak masuk akal bahawa semua wanita mempunyai kecenderungan tindak balas yang sama, tetapi mungkin kelihatan lebih masuk akal bahawa terdapat kecenderungan tindak balas yang sama untuk semua wanita yang berumur 18-29 tahun, yang lulus dari kolej, dan yang tinggal di California . Oleh itu, kerana bilangan kumpulan yang digunakan dalam post-stratification semakin besar, andaian yang diperlukan untuk menyokong kaedah menjadi lebih munasabah. Memandangkan fakta ini, para penyelidik sering ingin mencipta banyak kumpulan untuk post-stratification. Walau bagaimanapun, apabila bilangan kumpulan bertambah, para penyelidik mengalami masalah yang berbeza: sparsity data. Jika terdapat hanya sebilangan kecil orang dalam setiap kumpulan, maka anggaran akan lebih tidak menentu, dan dalam kes yang melampau di mana terdapat kumpulan yang tidak mempunyai responden, maka post-stratification sepenuhnya terputus.
Terdapat dua cara daripada ketegangan yang wujud antara kemusnahan anggaran homogen-respons-kecenderungan dalam kumpulan dan permintaan untuk saiz sampel yang munasabah dalam setiap kumpulan. Pertama, penyelidik boleh mengumpul sampel yang lebih besar dan lebih pelbagai, yang membantu memastikan saiz sampel yang munasabah dalam setiap kumpulan. Kedua, mereka boleh menggunakan model statistik yang lebih canggih untuk membuat anggaran dalam kumpulan. Dan pada hakikatnya, kadangkala penyelidik melakukan kedua-duanya, seperti yang dilakukan oleh Wang dan rekan dengan kajian mereka tentang pemilihan menggunakan responden dari Xbox.
Kerana mereka menggunakan kaedah pensampelan bukan kebarangkalian dengan wawancara yang dikendalikan oleh komputer (saya akan berbincang lebih lanjut mengenai wawancara yang dikendalikan oleh komputer dalam bahagian 3.5), Wang dan rakan sekerja mempunyai pengumpulan data yang sangat murah, yang membolehkan mereka mengumpulkan maklumat daripada 345,858 peserta unik , sebilangan besar oleh piawaian pengundian pilihan raya. Saiz sampel yang besar ini membolehkan mereka membentuk sejumlah besar kumpulan pasca-stratifikasi. Sedangkan post-stratification biasanya melibatkan pemotongan populasi menjadi ratusan kumpulan, Wang dan kolega membagi populasi menjadi 176.256 kelompok yang ditentukan oleh jender (2 kategori), ras (4 kategori), umur (4 kategori), pendidikan (4 kategori), negara (51 kategori), ID parti (3 kategori), ideologi (3 kategori), dan undi 2008 (3 kategori). Dengan kata lain, saiz sampel besar mereka, yang didayakan oleh pengumpulan data kos rendah, membolehkan mereka membuat andaian yang lebih munasabah dalam proses anggaran mereka.
Walaupun dengan 345,858 peserta yang unik, namun masih terdapat banyak, banyak kumpulan yang Wang dan rekannya hampir tidak mempunyai responden. Oleh itu, mereka menggunakan teknik yang dikenali sebagai regresi multilevel untuk menganggarkan sokongan dalam setiap kumpulan. Pada asasnya, untuk menganggarkan sokongan untuk Obama dalam kumpulan tertentu, regresi multilevel mengumpulkan informasi dari banyak kumpulan yang berkait rapat. Sebagai contoh, bayangkan cuba untuk menganggarkan sokongan untuk Obama di kalangan wanita Hispanik antara 18 dan 29 tahun, yang merupakan graduan kolej, yang berdaftar Demokrat, yang mengaku diri sebagai moderat, dan yang mengundi Obama pada tahun 2008. Ini adalah sangat , kumpulan yang sangat spesifik, dan ada kemungkinan bahawa tiada siapa dalam sampel dengan ciri-ciri ini. Oleh itu, untuk membuat anggaran mengenai kumpulan ini, regresi multilevel menggunakan model statistik untuk mengumpulkan anggaran dari orang dalam kumpulan yang sama.
Oleh itu, Wang dan rakan-rakan menggunakan pendekatan yang menggabungkan regresi multilevel dan post-stratification, sehingga mereka menamakan regresi multilevel strategi mereka dengan post-stratification atau, lebih sayang, "Mr. P. "Apabila Wang dan rakan-rakannya menggunakan Encik P. untuk membuat anggaran dari sampel bukan kebarangkalian Xbox, mereka menghasilkan anggaran yang sangat dekat dengan sokongan keseluruhan yang diterima Obama pada pemilihan 2012 (angka 3.8). Malah anggaran mereka lebih tepat daripada agregat pemilihan pendapat umum tradisional. Oleh itu, dalam kes ini, pelarasan statistik - khususnya Encik P.-nampaknya melakukan kerja yang baik membetulkan bias dalam data bukan kebarangkalian; bias yang jelas kelihatan apabila anda melihat anggaran dari data Xbox yang tidak disesuaikan.
Terdapat dua pelajaran utama dari kajian Wang dan rakan sekerja. Pertama, sampel bukan kebarangkalian yang tidak disesuaikan boleh menyebabkan anggaran yang kurang baik; ini adalah pelajaran yang banyak didengar oleh para penyelidik sebelum ini. Walau bagaimanapun, pelajaran kedua adalah bahawa sampel bukan kebarangkalian, apabila dianalisis dengan betul, sebenarnya boleh menghasilkan anggaran yang baik; Sampel bukan kebarangkalian tidak perlu secara automatik membawa kepada sesuatu seperti kegagalan Literary Digest .
Melangkah ke hadapan, jika anda mencoba memutuskan antara menggunakan pendekatan pengambilan kebarangkalian dan pendekatan pensampelan bukan kebarangkalian anda menghadapi pilihan yang sukar. Kadang-kadang penyelidik mahukan peraturan yang cepat dan tegar (contohnya, selalu menggunakan kaedah percubaan kebarangkalian), tetapi semakin sukar untuk menawarkan aturan sedemikian. Para penyelidik menghadapi pilihan sukar antara kaedah pengambilan probabiliti dalam amalan -yang semakin mahal dan jauh dari hasil teoritis yang membenarkan kaedah sampling penggunaan dan bukan kebarangkalian - yang lebih murah dan lebih cepat, tetapi kurang akrab dan lebih bervariasi. Walau bagaimanapun, satu perkara yang jelas ialah jika anda terpaksa bekerja dengan sampel bukan kebarangkalian atau sumber data besar bukan perwakilan (fikirkan kembali kepada Bab 2), maka ada sebab kuat untuk mempercayai bahawa anggaran yang dibuat menggunakan penyusunan pasca dan teknik yang berkaitan akan lebih baik daripada unadjusted, anggaran mentah.