Sampel kebarangkalian dan sampel bukan kebarangkalian tidak yang berbeza dalam amalan; dalam kedua-dua kes, itu semua tentang berat.
Persampelan adalah asas kepada kajian penyelidikan. Penyelidik hampir tidak pernah bertanya soalan-soalan mereka kepada semua orang dalam populasi sasaran mereka. Dalam hal ini, kaji selidik tidak unik. Kebanyakan penyelidikan, dalam satu cara atau yang lain, melibatkan persampelan. Kadang-kadang persampelan ini dilakukan dengan jelas oleh pengkaji; masa yang lain ia berlaku secara tersirat. Sebagai contoh, seorang penyelidik yang menjalankan satu eksperimen dalam makmal kepada pelajar ijazah pertama di universiti itu juga telah mengambil sampel. Oleh itu, pensampelan adalah masalah yang datang di dalam buku ini. Malah, salah satu kebimbangan yang paling biasa yang saya dengar mengenai sumber umur digital data adalah "mereka tidak mewakili." Seperti yang kita lihat dalam Seksyen ini, kebimbangan ini adalah kedua-dua yang kurang serius dan lebih halus daripada banyak skeptis diperolehi. Malah, saya akan berhujah bahawa seluruh konsep "kerepresentatifan" tidak berguna untuk memikirkan kebarangkalian dan bukan kebarangkalian sampel. Sebaliknya, yang penting adalah untuk berfikir tentang bagaimana data yang dikumpulkan dan bagaimana mana-mana berat sebelah dalam kutipan data boleh dibuat asal apabila membuat anggaran.
Pada masa ini, pendekatan teori yang dominan kepada perwakilan adalah persampelan kebarangkalian. Apabila data dikumpulkan dengan kaedah persampelan kebarangkalian yang telah sempurna dilaksanakan, penyelidik dapat berat data mereka berdasarkan cara yang mereka telah dikumpulkan untuk membuat anggaran yang tidak berat sebelah mengenai penduduk sasaran. Walau bagaimanapun, persampelan kebarangkalian sempurna pada dasarnya tidak pernah berlaku dalam dunia sebenar. Terdapat biasanya dua masalah utama 1) perbezaan di antara populasi sasaran dan penduduk bingkai dan 2) bukan tindak balas (ini adalah betul-betul masalah yang rosak pungutan suara Literary Digest). Oleh itu, bukannya berfikir persampelan kebarangkalian sebagai model realistik apa yang sebenarnya berlaku di dunia, ia adalah lebih baik untuk memikirkan persampelan kebarangkalian sebagai membantu, model abstrak, sama seperti cara fizik berfikir tentang bola tanpa geseran bergolek ke bawah yang panjang tak terhingga meningkatkan.
Alternatif kepada persampelan kebarangkalian adalah persampelan bukan kebarangkalian. Perbezaan utama antara kebarangkalian dan persampelan bukan kebarangkalian adalah bahawa dengan kebarangkalian pensampelan semua orang dalam populasi mempunyai kebarangkalian yang diketahui dimasukkan. Terdapat, sebenarnya, pelbagai jenis persampelan bukan kebarangkalian, dan kaedah ini pengumpulan data menjadi semakin biasa dalam era digital. Tetapi, persampelan bukan kebarangkalian mempunyai reputasi yang amat berat di kalangan ahli-ahli sains sosial dan ahli statistik. Malah, persampelan bukan kebarangkalian dikaitkan dengan beberapa kegagalan paling dramatik penyelidik kajian, seperti kemelut Literary Digest (dibincangkan sebelum ini) dan ramalan yang salah mengenai pilihan raya presiden Amerika Syarikat tahun 1948 ( "Dewey kekalahan Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Walau bagaimanapun, masa yang sesuai untuk menimbang semula persampelan bukan kebarangkalian kerana dua sebab. Pertama, sebagai sampel kebarangkalian telah menjadi semakin sukar untuk dilakukan dalam amalan, garis antara sampel kebarangkalian dan sampel bukan kebarangkalian adalah kabur. Apabila terdapat kadar yang tinggi bukan tindak balas (seperti yang terdapat dalam kajian sebenar sekarang), kebarangkalian sebenar Kemasukan bagi responden yang tidak diketahui, dan dengan itu, sampel kebarangkalian dan sampel bukan kebarangkalian tidak berbeza kerana ramai penyelidik percaya. Malah, seperti yang kita lihat di bawah, kedua-dua pendekatan pada dasarnya bergantung pada kaedah anggaran yang sama: post-stratifikasi. Kedua, terdapat banyak perkembangan dalam pengumpulan dan analisis sampel bukan kebarangkalian. Kaedah-kaedah ini cukup berbeza daripada kaedah yang menyebabkan masalah pada masa lalu yang saya fikir ia masuk akal untuk memikirkan mereka sebagai "bukan kebarangkalian persampelan 2.0." Kita tidak boleh tidak gemar tidak rasional kepada kaedah bukan kebarangkalian kerana kesilapan yang berlaku suatu masa dahulu.
Seterusnya, untuk membuat hujah ini lebih konkrit, saya akan mengkaji semula persampelan kebarangkalian standard dan pemberat (Seksyen 3.4.1). Idea utama ialah bagaimana anda mengumpul data anda harus memberi kesan bagaimana anda membuat anggaran. Khususnya, jika semua orang tidak mempunyai kebarangkalian yang sama kemasukan, maka semua orang harus tidak mempunyai berat yang sama. Dalam erti kata lain, jika anda persampelan tidak demokratik, maka anggaran anda harus tidak demokratik. Selepas mengkaji pemberat, saya akan menggambarkan dua pendekatan untuk persampelan bukan kebarangkalian: satu yang memberi tumpuan kepada skema jawapan untuk menangani masalah data tidak berdisiplin dikumpul (Seksyen 3.4.2), dan satu yang cuba untuk meletakkan lebih banyak kawalan ke atas bagaimana data adalah dikumpulkan (Seksyen 3.4.3). Hujah-hujah dalam teks utama akan dijelaskan di bawah dengan kata-kata dan gambar; pembaca yang ingin rawatan yang lebih matematik juga perlu lihat lampiran teknikal.