Sampel probabilitas dan sampel non-probabilitas tidak yang berbeda dalam praktek; dalam kedua kasus, itu semua tentang bobot.
Sampling adalah fundamental untuk survei penelitian. Para peneliti hampir tidak pernah mengajukan pertanyaan mereka kepada semua orang dalam populasi target mereka. Dalam hal ini, survei tidak unik. Sebagian besar penelitian, dalam satu atau lain cara, melibatkan sampling. Kadang-kadang pengambilan sampel ini dilakukan secara eksplisit oleh peneliti; kali lain itu terjadi secara implisit. Misalnya, seorang peneliti yang menjalankan percobaan di laboratorium terhadap mahasiswa di universitasnya juga telah mengambil sampel. Dengan demikian, pengambilan sampel adalah masalah yang muncul dalam buku ini. Bahkan, salah satu masalah yang paling umum yang saya dengar tentang sumber era digital data adalah "mereka tidak representatif." Seperti yang akan kita lihat dalam Bagian ini, kekhawatiran ini adalah keduanya kurang serius dan lebih halus daripada banyak skeptis menyadari. Bahkan, saya akan berpendapat bahwa seluruh konsep "keterwakilan" tidak membantu untuk berpikir tentang probabilitas dan non-probabilitas sampel. Sebaliknya, kuncinya adalah untuk berpikir tentang bagaimana data dikumpulkan dan bagaimana setiap bias dalam pengumpulan data dapat dibatalkan ketika membuat estimasi.
Saat ini, dominan pendekatan teoritis untuk representasi adalah probability sampling. Ketika data dikumpulkan dengan metode sampling probabilitas yang telah dieksekusi sempurna, peneliti mampu berat data mereka berdasarkan cara mereka dikumpulkan untuk membuat estimasi berisi tentang populasi sasaran. Namun, sempurna probability sampling pada dasarnya tidak pernah terjadi di dunia nyata. Ada biasanya dua masalah utama 1) perbedaan antara populasi target dan populasi frame dan 2) non-respon (ini persis masalah yang menghancurkan jajak pendapat Literary Digest). Jadi, daripada memikirkan probability sampling sebagai model yang realistis dari apa yang sebenarnya terjadi di dunia, lebih baik memikirkan probability sampling sebagai bermanfaat, model abstrak, seperti cara fisikawan berpikir tentang bola gesekan bergulir turun panjang tak terhingga lereng.
Alternatif untuk probability sampling adalah non-probability sampling. Perbedaan utama antara probabilitas dan non-probability sampling adalah bahwa dengan probabilitas sampel semua orang dalam populasi memiliki probabilitas yang dikenal inklusi. Ada, pada kenyataannya, banyak jenis non-probability sampling, dan metode-metode pengumpulan data menjadi semakin umum di era digital. Tapi, non-probability sampling memiliki reputasi buruk di kalangan ilmuwan sosial dan ahli statistik. Bahkan, non-probability sampling dikaitkan dengan beberapa kegagalan yang paling dramatis dari survei peneliti, seperti kegagalan Literary Digest (dibahas sebelumnya) dan prediksi yang salah tentang pemilihan presiden AS tahun 1948 ( "Dewey Mengalahkan Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Namun, waktu yang tepat untuk mempertimbangkan kembali non-probability sampling karena dua alasan. Pertama, sebagai sampel probabilitas telah menjadi semakin sulit untuk dilakukan dalam praktek, garis antara sampel probabilitas dan sampel non-probabilitas kabur. Ketika ada tingkat tinggi non-respon (karena ada dalam survei nyata sekarang), probabilitas yang sebenarnya dari inklusi untuk responden tidak diketahui, dan dengan demikian, sampel probabilitas dan sampel non-probabilitas tidak berbeda seperti banyak peneliti percaya. Bahkan, seperti yang akan kita lihat di bawah, kedua pendekatan pada dasarnya bergantung pada metode estimasi yang sama: pasca-stratifikasi. Kedua, ada banyak perkembangan dalam pengumpulan dan analisis sampel non-probabilitas. Metode ini cukup berbeda dari metode yang menyebabkan masalah di masa lalu yang saya pikir itu masuk akal untuk menganggap mereka sebagai "non-probability sampling 2.0." Kita seharusnya tidak memiliki keengganan rasional untuk metode non-probabilitas karena kesalahan yang terjadi dahulu kala.
Selanjutnya, dalam rangka untuk membuat argumen ini lebih konkret, saya akan meninjau standar probability sampling dan bobot (Bagian 3.4.1). Ide utama adalah bahwa bagaimana Anda mengumpulkan data Anda harus berdampak bagaimana Anda membuat perkiraan. Secara khusus, jika semua orang tidak memiliki probabilitas yang sama inklusi, maka setiap orang harus tidak memiliki berat yang sama. Dengan kata lain, jika sampling Anda tidak demokratis, maka estimasi Anda tidak harus demokratis. Setelah meninjau bobot, saya akan menjelaskan dua pendekatan untuk non-probability sampling: satu yang berfokus pada pembobotan untuk menangani masalah data sembarangan dikumpulkan (Bagian 3.4.2), dan satu yang mencoba untuk menempatkan lebih banyak kontrol atas bagaimana data tersebut dikumpulkan (Bagian 3.4.3). Argumen dalam teks utama akan dijelaskan di bawah ini dengan kata-kata dan gambar; pembaca yang ingin pengobatan yang lebih matematis juga harus melihat lampiran teknis.