Representasi adalah tentang membuat kesimpulan dari responden untuk populasi target Anda.
Dalam rangka untuk memahami jenis kesalahan yang bisa terjadi ketika menyimpulkan dari responden dengan populasi yang lebih besar, mari kita mempertimbangkan Literary Digest jerami jajak pendapat yang mencoba memprediksi hasil pemilihan Presiden AS 1936. Meskipun itu lebih dari 75 tahun yang lalu, bencana ini masih memiliki pelajaran penting untuk mengajarkan para peneliti saat ini.
Literary Digest adalah majalah umum bunga populer, dan mulai tahun 1920 mereka mulai berjalan jajak pendapat jerami untuk memprediksi hasil dari Pemilihan Presiden. Untuk membuat prediksi ini mereka akan mengirim surat suara ke banyak orang, dan kemudian hanya menghitung sampai surat suara yang dikembalikan; Literary Digest bangga melaporkan bahwa surat suara yang mereka terima itu tidak "berbobot, disesuaikan, atau ditafsirkan." Prosedur ini benar memprediksi pemenang pemilu pada tahun 1920, 1924, 1928 dan 1932. pada tahun 1936, di tengah-tengah Depresi besar, Literary Digest dikirim surat suara untuk 10 juta orang, yang namanya didominasi berasal dari direktori telepon dan catatan pendaftaran mobil. Berikut adalah cara mereka dijelaskan metodologi mereka:
"THE DIGEST ini berjalan dengan lancar mesin bergerak dengan presisi cepat dari pengalaman tiga puluh tahun untuk mengurangi menebak fakta-fakta keras. . . .Ini Minggu 500 pena mencoret lebih dari seperempat juta alamat sehari. Setiap hari, di sebuah ruangan besar tinggi di atas motor-berpita Fourth Avenue, di New York, 400 pekerja cekatan geser satu juta keping dicetak materi-cukup untuk membuka empat kota blok-ke menyelubungi ditujukan [sic]. Setiap jam, di THE DIGEST'S sendiri Post Office Substation, tiga berceloteh mesin ongkos kirim metering disegel dan dicap oblongs putih; karyawan pos terampil membalik mereka ke menggembung mailsacks; truk armada DIGEST melesat mereka untuk mengekspresikan surat-kereta. . . minggu depan, jawaban pertama dari ini sepuluh juta akan memulai gelombang masuk surat suara ditandai, menjadi triple-diperiksa, diverifikasi, lima kali cross-rahasia dan mencapai. Ketika angka terakhir telah mengoleksi dan diperiksa, jika pengalaman masa lalu adalah kriteria, negara akan tahu untuk dalam sepersekian 1 persen suara populer sebenarnya empat puluh juta [pemilih]. "(22 Agustus, 1936)
fetishization The Digest untuk ukuran langsung dikenali untuk setiap peneliti "data besar" hari ini. Dari 10 juta surat suara didistribusikan, menakjubkan 2,4 juta surat suara yang dikembalikan-yang kira-kira 1.000 kali lebih besar dari jajak pendapat politik modern. Dari ini 2,4 juta responden putusan itu jelas: Literary Digest meramalkan bahwa penantang Alf Landon akan mengalahkan incumbent Franklin Roosevelt. Tapi, pada kenyataannya, sebaliknya terjadi. Roosevelt mengalahkan Landon dalam tanah longsor. Bagaimana bisa Literary Digest salah dengan data begitu banyak? Pemahaman modern sampling membuat kesalahan Literary Digest ini jelas dan membantu kita menghindari membuat kesalahan serupa di masa mendatang.
Berpikir jernih tentang pengambilan sampel mengharuskan kita untuk mempertimbangkan empat kelompok orang yang berbeda (Gambar 3.1). Kelompok pertama orang adalah populasi sasaran; ini adalah kelompok yang penelitian mendefinisikan sebagai populasi bunga. Dalam kasus Literary Digest populasi sasaran adalah pemilih di Pemilihan Presiden 1936. Setelah memutuskan pada populasi target, peneliti selanjutnya perlu mengembangkan daftar orang-orang yang dapat digunakan untuk pengambilan sampel. Daftar ini disebut kerangka sampling dan populasi pada kerangka sampling disebut populasi bingkai. Dalam kasus Literary Digest penduduk bingkai adalah 10 juta orang yang namanya datang didominasi dari direktori telepon dan catatan pendaftaran mobil. Idealnya populasi sasaran dan populasi frame akan persis sama, tetapi dalam prakteknya hal ini sering tidak terjadi. Perbedaan antara populasi target dan populasi bingkai disebut kesalahan cakupan. kesalahan cakupan tidak, dengan sendirinya menjamin masalah. Tapi, jika orang-orang dalam populasi bingkai yang sistematis yang berbeda dari orang-orang tidak dalam populasi bingkai akan ada cakupan Bias. Kesalahan cakupan adalah yang pertama dari kelemahan utama dengan jajak pendapat Literary Digest. Mereka ingin belajar tentang pemilih-yang mereka populasi sasaran-tapi mereka membangun sebuah kerangka sampling didominasi dari direktori telepon dan pendaftar mobil, sumber yang lebih terwakili kaya Amerika yang lebih cenderung mendukung Alf Landon (recall bahwa kedua teknologi tersebut, yang umum saat ini, relatif baru pada saat itu dan bahwa AS berada di tengah-tengah Depresi besar).
Setelah mendefinisikan populasi bingkai, langkah berikutnya adalah untuk peneliti untuk memilih populasi sampel; ini adalah orang-orang bahwa peneliti akan mencoba untuk mewawancarai. Jika sampel memiliki karakteristik yang berbeda daripada populasi bingkai, maka kita dapat memperkenalkan sampling error. Ini adalah jenis kesalahan diukur dalam margin of error yang biasanya menyertai perkiraan. Dalam kasus kegagalan Literary Digest, sebenarnya tidak ada sampel; mereka berusaha untuk menghubungi orang dalam populasi bingkai. Meskipun tidak ada sampling error, ada jelas masih error. Ini menjelaskan bahwa margin of error yang biasanya dilaporkan dengan perkiraan dari survei biasanya menyesatkan kecil; mereka tidak mencakup semua sumber kesalahan.
Akhirnya, seorang peneliti mencoba untuk mewawancarai semua orang dalam populasi sampel. Orang-orang yang berhasil diwawancarai disebut responden. Idealnya, populasi sampel dan responden akan persis sama, tetapi dalam prakteknya ada non-respon. Artinya, orang-orang yang dipilih dalam sampel menolak untuk berpartisipasi. Jika orang-orang yang merespon berbeda dari mereka yang tidak merespon, maka bisa ada non-respon bias yang. Non-respon Bias adalah masalah utama kedua dengan polling Literary Digest. Hanya 24% dari orang-orang yang menerima surat suara merespons, dan ternyata orang-orang yang mendukung Landon lebih mungkin untuk merespon.
Sekedar menjadi contoh untuk memperkenalkan ide-ide dari representasi, jajak pendapat Literary Digest adalah perumpamaan sering diulang-ulang, memperingatkan para peneliti tentang bahaya sampling serampangan. Sayangnya, saya berpikir bahwa pelajaran yang banyak orang menarik dari cerita ini adalah salah satu. moral yang paling umum dari cerita ini adalah bahwa peneliti tidak dapat belajar sesuatu dari sampel non-probabilitas (yaitu, sampel tanpa aturan berbasis probabilitas yang ketat untuk memilih peserta). Tapi, seperti yang saya akan menunjukkan kemudian dalam bab ini, itu tidak benar. Sebaliknya, saya pikir sebenarnya ada dua moral cerita ini; moral yang benar saat ini seperti mereka berada di 1936. Pertama, sejumlah besar data sembarangan dikumpulkan tidak akan menjamin perkiraan yang baik. Kedua, peneliti perlu menjelaskan bagaimana data mereka dikumpulkan ketika mereka membuat estimasi dari itu. Dengan kata lain, karena proses pengumpulan data dalam jajak pendapat Literary Digest secara sistematis miring terhadap beberapa responden, peneliti harus menggunakan proses estimasi yang lebih kompleks yang bobot beberapa responden lebih dari yang lain. Kemudian dalam bab ini, saya akan menunjukkan satu pembobotan seperti prosedur-post-stratifikasi-yang dapat memungkinkan Anda untuk membuat perkiraan yang lebih baik dengan sampel non-probabilitas.