Perwakilan adalah tentang membuat kesimpulan daripada responden anda kepada penduduk sasaran anda.
Untuk memahami jenis kesilapan yang boleh berlaku apabila membuat kesimpulan daripada responden kepada penduduk yang lebih besar, mari kita mempertimbangkan pungutan suara jerami Literary Digest yang cuba untuk meramal keputusan pilihan raya Presiden AS 1936. Walaupun ia adalah lebih daripada 75 tahun yang lalu, kekalahan ini masih mempunyai pengajaran yang penting untuk mengajar penyelidik hari ini.
Literary Digest adalah majalah umum faedah popular, dan bermula pada tahun 1920 mereka mula menjalankan pungutan suara yang untuk meramalkan hasil Pilihan Raya Presiden. Untuk membuat ramalan-ramalan ini mereka akan menghantar undi kepada ramai orang, dan kemudian hanya tally sehingga surat suara yang dikembalikan; Literary Digest bangganya melaporkan bahawa kertas undi yang mereka terima telah tidak "wajaran, diselaraskan, atau ditafsirkan." Prosedur ini betul meramalkan pemenang pilihan raya pada tahun 1920, 1924, 1928 dan 1932. pada tahun 1936, di tengah-tengah Kemelesetan Besar, Literary Digest dihantar undi kepada 10 juta orang, yang nama sebagian besar datang dari direktori telefon dan rekod pendaftaran kenderaan. Berikut adalah cara mereka digambarkan metodologi mereka:
"Bergerak mesin belayar laju THE DIGEST dengan ketepatan pantas pengalaman tiga puluh tahun untuk mengurangkan tekaan kepada fakta-fakta keras. . . .Ini Minggu 500 pen tercalar lebih daripada satu perempat daripada satu juta alamat sehari. Setiap hari, di dalam bilik yang besar tinggi di atas motor ribboned Fourth Avenue, di New York, 400 pekerja cekap slaid juta keping bahan cetak-cukup untuk membuka empat puluh bandar blok-ke dalam sampul surat yang dialamatkan [sic]. Setiap jam, dalam THE DIGEST'S sendiri Post Office Substation, tiga chattering mesin pos pemeteran dimeterai dan dicap oblongs putih; pekerja mahir pos dibalik mereka ke dalam membonjol mailsacks; trak armada DIGEST dipercepatkan mereka untuk meluahkan mel kereta api. . . Minggu depan, jawapan pertama dari sepuluh juta itu akan dimulakan air pasang masuk undi ketara, menjadi tiga disemak, disahkan, lima kali silang terperingkat dan berjumlah. Apabila angka terakhir telah totted dan diperiksa, jika pengalaman lalu adalah kriteria, negara ini akan tahu untuk dalam sebahagian kecil daripada 1 peratus undi popular sebenar empat puluh juta [pengundi]. "(22 Ogos 1936)
fetishization The Digest saiz adalah serta-merta kepada mana-mana "data yang besar" penyelidik hari ini. Daripada 10 juta pengundi yang diedarkan, yang menakjubkan 2.4 juta undi telah dikembalikan-itulah kira-kira 1000 kali lebih besar daripada pengundian politik moden. Dari ini 2.4 juta responden keputusan itu adalah jelas: Literary Digest meramalkan bahawa pencabar Alf Landon itu akan mengalahkan penyandang Franklin Roosevelt. Tetapi, sebenarnya, yang bertentangan dengan tepat berlaku. Roosevelt dikalahkan Landon dalam tanah runtuh. Bagaimana Literary Digest yang boleh berlaku dengan data yang begitu banyak? Pemahaman moden kita persampelan membuat kesilapan Literary Digest jelas dan membantu kita mengelak daripada membuat kesilapan yang sama di masa akan datang.
Berfikir dengan jelas tentang persampelan memerlukan kita untuk mempertimbangkan empat kumpulan orang yang berbeza (Rajah 3.1). Kumpulan pertama rakyat adalah penduduk sasaran; ini adalah kumpulan penyelidikan yang mentakrifkan sebagai penduduk faedah. Dalam kes Literary Digest penduduk sasaran itu pengundi di 1936 Pilihan Raya Presiden. Selepas membuat keputusan mengenai penduduk sasaran, penyelidik akan datang perlu untuk membangunkan satu senarai orang yang boleh digunakan untuk persampelan. Senarai ini dipanggil rangka pensampelan dan penduduk pada rangka pensampelan dipanggil penduduk bingkai. Dalam kes Literary Digest penduduk bingkai adalah 10 juta orang yang namanya datang sebagian besar dari direktori telefon dan rekod pendaftaran kenderaan. Sebaik-baiknya penduduk sasaran dan penduduk bingkai itu akan menjadi betul-betul sama, tetapi dalam amalan ini sering tidak kes itu. Perbezaan antara populasi sasaran dan kerangka penduduk dipanggil ralat liputan. ralat liputan tidak, dengan sendirinya menjamin masalah. Tetapi, jika orang-orang dalam populasi bingkai secara sistematik yang berbeza daripada orang bukan penduduk bingkai akan ada liputan berat sebelah. Ralat liputan adalah yang pertama daripada kelemahan utama dengan pungutan suara Literary Digest. Mereka mahu belajar tentang pengundi-yang adalah sasaran populasi tetapi mereka dibina rangka pensampelan sebagian besar dari direktori telefon dan pendaftaran kereta, sumber-sumber yang lebih diwakili kaya mereka Amerika yang lebih cenderung untuk menyokong Alf Landon (ingat bahawa kedua-dua teknologi ini, yang biasa hari ini, adalah agak baru pada masa itu dan bahawa Amerika Syarikat adalah di tengah-tengah Kemelesetan Besar).
Selepas menentukan penduduk bingkai, langkah seterusnya adalah untuk seorang penyelidik untuk memilih penduduk sampel; ini adalah orang yang penyelidik akan cuba untuk wawancara. Jika sampel mempunyai ciri-ciri yang berbeza daripada penduduk bingkai, kemudian kita boleh memperkenalkan ralat persampelan. Ini adalah jenis kesilapan diukur dalam margin kesilapan yang biasanya mengiringi anggaran. Dalam kes kemelut Literary Digest, ada sebenarnya tidak ada sampel; mereka cuba untuk menghubungi semua orang dalam populasi bingkai. Walaupun tidak ada ralat persampelan, terdapat jelas masih ralat. Ini menjelaskan bahawa margin kesilapan yang lazimnya dilaporkan dengan anggaran daripada kaji selidik biasanya mengelirukan kecil; mereka tidak termasuk semua sumber ralat.
Akhir sekali, penyelidik cuba untuk menemubual semua orang dalam populasi sampel. Orang-orang yang berjaya ditemuramah dipanggil responden. Sebaik-baiknya, sampel penduduk dan responden akan menjadi betul-betul sama, tetapi dalam amalan terdapat tidak memberi jawapan. Iaitu, orang-orang yang dipilih dalam sampel menolak untuk mengambil bahagian. Jika orang-orang yang bertindak balas adalah berbeza daripada orang-orang yang tidak bertindak balas, maka tidak boleh tidak memberi jawapan berat sebelah. Bukan tindak balas berat sebelah adalah masalah utama di kedua dengan pungutan suara Literary Digest. Hanya 24% daripada orang yang menerima undi menjawab, dan ternyata bahawa orang yang disokong Landon lebih cenderung untuk bertindak balas.
Beyond hanya menjadi satu contoh untuk memperkenalkan idea-idea perwakilan, pungutan suara Literary Digest adalah perumpamaan yang diulang-ulang, mengingatkan penyelidik mengenai bahaya persampelan tidak teratur. Malangnya, saya berfikir bahawa pelajaran yang ramai orang menarik dari cerita ini adalah salah satu yang salah. The moral yang paling biasa dalam cerita ini adalah bahawa penyelidik tidak boleh belajar apa-apa daripada sampel bukan kebarangkalian (iaitu, sampel tanpa peraturan berdasarkan kebarangkalian yang ketat untuk memilih peserta). Tetapi, seperti yang saya akan menunjukkan dalam bab ini, yang tidak berapa betul. Sebaliknya, saya rasa terdapat dua moral cerita ini; akhlak yang sebagai benar hari ini kerana mereka pada tahun 1936. Pertama, sejumlah besar data tidak berdisiplin dikumpul tidak akan menjamin anggaran yang baik. Kedua, penyelidik perlu mengambil kira bagaimana data mereka dikumpulkan apabila mereka membuat anggaran daripadanya. Dalam erti kata lain, kerana proses pengumpulan data dalam pungutan suara Literary Digest telah sistematik condong ke arah beberapa responden, penyelidik perlu menggunakan proses anggaran yang lebih kompleks yang berat beberapa responden lebih daripada yang lain. Kemudian dalam bab ini, saya akan menunjukkan kepada anda satu pemberat apa-apa prosedur-post-stratifikasi-yang membolehkan anda untuk membuat anggaran yang lebih baik dengan sampel bukan kebarangkalian.