Bobot dapat membatalkan distorsi sengaja disebabkan oleh proses sampling.
Sampel probabilitas adalah mereka di mana semua orang memiliki diketahui, non zero-probabilitas inklusi, dan sederhana desain probability sampling adalah simple random sampling di mana setiap orang memiliki kemungkinan yang sama inklusi. Ketika responden dipilih melalui simple random sampling dengan eksekusi sempurna (misalnya, tidak ada kesalahan cakupan dan tidak ada non-respon), maka estimasi sangat mudah karena sampel akan-rata-rata-menjadi versi miniatur dari populasi.
Simple random sampling jarang digunakan dalam praktek, namun. Sebaliknya, peneliti sengaja memilih orang-orang dengan probabilitas yang tidak sama inklusi untuk mengurangi biaya dan meningkatkan akurasi. Ketika peneliti sengaja memilih orang-orang dengan probabilitas yang berbeda inklusi, maka penyesuaian yang diperlukan untuk membatalkan distorsi yang disebabkan oleh proses sampling. Dengan kata lain, bagaimana kita generalisasi dari sampel tergantung pada bagaimana sampel dipilih.
Misalnya, Survei Penduduk Lancar (CPS) digunakan oleh pemerintah AS untuk memperkirakan tingkat pengangguran. Setiap bulan sekitar 100.000 orang yang diwawancarai, baik tatap muka atau melalui telepon, dan hasilnya digunakan untuk menghasilkan tingkat pengangguran diperkirakan. Karena pemerintah ingin memperkirakan tingkat pengangguran di negara masing-masing, tidak dapat melakukan sampel acak sederhana dari orang dewasa karena akan menghasilkan terlalu sedikit responden di negara-negara dengan populasi kecil (misalnya, Rhode Island) dan terlalu banyak dari negara-negara dengan populasi besar (misalnya , California). Sebaliknya, CPS sampel orang di negara-negara yang berbeda pada tingkat yang berbeda, proses yang disebut stratified sampling dengan probabilitas yang tidak setara seleksi. Misalnya, jika CPS ingin 2.000 responden per negara, maka orang dewasa di Rhode Island akan memiliki sekitar 30 kali lebih tinggi kemungkinan masuknya daripada orang dewasa di California (Rhode Island: 2.000 responden per 800.000 orang dewasa vs California: 2.000 responden per 30.000.000 orang dewasa). Seperti yang akan kita lihat nanti, jenis sampling dengan probabilitas yang tidak sama terjadi dengan sumber-sumber online data juga, tapi tidak seperti CPS, mekanisme pengambilan sampel biasanya tidak diketahui atau dikendalikan oleh peneliti.
Mengingat desain sampling, CPS tidak langsung perwakilan dari AS; itu termasuk terlalu banyak orang dari Rhode Island dan terlalu sedikit dari California. Oleh karena itu, tidak bijaksana untuk memperkirakan tingkat pengangguran di negara dengan tingkat pengangguran dalam sampel. Alih-alih mean sampel, lebih baik untuk mengambil rata-rata tertimbang, dimana bobot memperhitungkan fakta bahwa orang-orang dari Rhode Island lebih mungkin untuk dimasukkan dari orang-orang dari California. Misalnya, setiap orang dari California akan menjadi upweighted- mereka akan menghitung lebih dalam estimasi-dan setiap orang dari Rhode Island akan diturunkan bobotnya-mereka akan menghitung kurang estimasi. Pada intinya, Anda diberikan suara yang lebih kepada orang-orang yang Anda cenderung untuk belajar tentang.
Contoh mainan ini menggambarkan sebuah hal yang penting namun sering disalahpahami: sampel tidak perlu menjadi versi miniatur dari penduduk untuk menghasilkan perkiraan yang baik. Jika cukup diketahui tentang bagaimana data dikumpulkan, maka informasi yang dapat digunakan ketika membuat perkiraan dari sampel. Pendekatan saya baru saja dijelaskan-dan bahwa saya menggambarkan matematis dalam teknis lampiran-jatuh tepat dalam kerangka klasik probability sampling. Sekarang, saya akan menunjukkan bagaimana ide yang sama dapat diterapkan untuk sampel non-probabilitas.