Bagian ini dirancang untuk digunakan sebagai referensi, bukan untuk dibaca sebagai narasi.
Banyak tema dalam bab ini juga telah bergema di Alamat Presiden baru-baru ini di American Association of Opini Publik Penelitian (AAPOR), seperti Dillman (2002) , Newport (2011) , Santos (2014) , dan Link (2015) .
Untuk latar belakang lebih historis tentang perkembangan penelitian survei, lihat Smith (1976) dan Converse (1987) . Untuk lebih lanjut tentang gagasan tiga era penelitian survei, lihat Groves (2011) dan Dillman, Smyth, and Christian (2008) (yang memecah tiga era sedikit berbeda).
Sebuah puncak dalam transisi dari yang pertama era kedua dalam penelitian survei adalah Groves and Kahn (1979) , yang melakukan perbandingan rinci head-to-head antara wajah-to-face dan survei telepon. Brick and Tucker (2007) melihat kembali pada sejarah perkembangan metode panggilan random sampling digit.
Untuk lebih bagaimana penelitian survei telah berubah di masa lalu dalam menanggapi perubahan dalam masyarakat, melihat Tourangeau (2004) , Mitofsky (1989) , dan Couper (2011) .
Belajar tentang negara internal dengan mengajukan pertanyaan dapat menjadi masalah karena kadang-kadang responden sendiri tidak menyadari keadaan internal mereka. Misalnya, Nisbett and Wilson (1977) memiliki kertas yang indah dengan judul menggugah: "Menceritakan lebih dari yang kita bisa tahu:. Laporan Verbal pada proses mental" Di koran penulis menyimpulkan: "pelajaran kadang-kadang (a) menyadari adanya stimulus yang penting dipengaruhi respon, (b) tidak menyadari adanya respon, dan (c) tidak menyadari bahwa stimulus telah mempengaruhi respon. "
Untuk argumen bahwa para peneliti harus memilih perilaku yang diamati perilaku atau sikap yang dilaporkan, melihat Baumeister, Vohs, and Funder (2007) (psikologi) dan Jerolmack and Khan (2014) dan tanggapan (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sosiologi). Perbedaan antara bertanya dan mengamati juga muncul di bidang ekonomi, di mana peneliti berbicara tentang preferensi menyatakan dan mengungkapkan. Misalnya, seorang peneliti bisa meminta responden apakah mereka lebih suka makan es krim atau pergi ke gym (dinyatakan preferensi) atau penelitian bisa mengamati seberapa sering orang makan es krim dan pergi ke gym (preferensi mengungkapkan). Ada skeptisisme yang mendalam dari jenis tertentu dari data preferensi dinyatakan dalam ekonomi (Hausman 2012) .
Tema utama dari perdebatan ini adalah bahwa perilaku dilaporkan tidak selalu akurat. Tapi, secara otomatis mencatat perilaku mungkin tidak akurat, tidak dapat dikumpulkan pada sampel yang menarik, dan mungkin tidak dapat diakses oleh peneliti. Dengan demikian, dalam beberapa situasi, saya berpikir bahwa perilaku dilaporkan dapat berguna. Selanjutnya, tema utama kedua dari perdebatan ini adalah bahwa laporan tentang emosi, pengetahuan, harapan, dan opini tidak selalu akurat. Tapi, jika informasi tentang negara-negara ini internal dibutuhkan oleh peneliti-baik untuk membantu menjelaskan beberapa perilaku atau sebagai hal yang akan dijelaskan-maka meminta mungkin tepat.
Untuk perawatan panjang buku tentang kesalahan total survei, lihat Groves et al. (2009) atau Weisberg (2005) . Untuk sejarah perkembangan kesalahan total survei, lihat Groves and Lyberg (2010) .
Dalam hal representasi, pengenalan besar isu-isu non-respon dan non-respon bias adalah laporan Dewan Riset Nasional di response dalam Ilmu Sosial Survei: Agenda Riset (2013) . Sekilas lain yang berguna disediakan oleh (Groves 2006) . Juga, seluruh isu khusus dari Journal of Resmi Statistik, Public Opinion Quarterly, dan The Annals of American Academy of Politik dan Ilmu Sosial telah diterbitkan pada topik non-respon. Akhirnya, sebenarnya ada banyak cara yang berbeda untuk menghitung tingkat respons; Pendekatan ini dijelaskan secara rinci dalam sebuah laporan oleh American Association of Opini Publik Peneliti (AAPOR) (Public Opinion Researchers} 2015) .
1936 Literary Digest jajak pendapat telah dipelajari secara rinci (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Ini juga telah digunakan sebagai perumpamaan untuk memperingatkan terhadap pengumpulan data serampangan (Gayo-Avello 2011) . Pada tahun 1936, George Gallup digunakan bentuk yang lebih canggih dari sampling, dan mampu menghasilkan perkiraan yang lebih akurat dengan sampel yang lebih kecil. Keberhasilan Gallup selama Literary Digest adalah tonggak pengembangan penelitian survei (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Dalam hal pengukuran, sumber daya besar pertama untuk merancang kuesioner adalah Bradburn, Sudman, and Wansink (2004) . Untuk perawatan lebih maju difokuskan secara khusus pada pertanyaan sikap, lihat Schuman and Presser (1996) . Lebih lanjut tentang pertanyaan pra-pengujian tersedia di Presser and Blair (1994) , Presser et al. (2004) , dan Bab 8 dari Groves et al. (2009) .
Pengobatan klasik, buku-panjang trade-off antara biaya survei dan kesalahan survei adalah Groves (2004) .
Klasik pengobatan buku-panjang standar probability sampling dan estimasi yang Lohr (2009) (lebih pengantar) dan Särndal, Swensson, and Wretman (2003) (lebih maju). Sebuah pengobatan buku-panjang klasik pasca-stratifikasi dan terkait metode adalah Särndal and Lundström (2005) . Dalam beberapa pengaturan era digital, peneliti tahu sedikit tentang non-responden, yang tidak sering terjadi di masa lalu. Berbagai bentuk penyesuaian non-respon yang mungkin ketika para peneliti memiliki informasi tentang non-responden (Kalton and Flores-Cervantes 2003; Smith 2011) .
Xbox studi Wang et al. (2015) menggunakan teknik yang disebut regresi bertingkat dan pasca-stratifikasi (MRP, kadang-kadang disebut "Pak P") yang memungkinkan peneliti untuk memperkirakan sel berarti bahkan ketika ada banyak, banyak sel. Meskipun ada beberapa perdebatan tentang kualitas perkiraan dari teknik ini, tampaknya seperti daerah yang menjanjikan untuk mengeksplorasi. Teknik ini pertama kali digunakan dalam Park, Gelman, and Bafumi (2004) , dan telah ada penggunaan selanjutnya dan debat (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Untuk lebih lanjut tentang hubungan antara bobot individu dan bobot berbasis sel melihat Gelman (2007) .
Untuk pendekatan lain untuk survei web bobot, melihat Schonlau et al. (2009) , Valliant and Dever (2011) , dan Bethlehem (2010) .
Pencocokan sampel diusulkan oleh Rivers (2007) . Bethlehem (2015) berpendapat bahwa kinerja pencocokan sampel benar-benar akan mirip dengan pendekatan-pendekatan lain sampling (misalnya, stratified sampling) dan pendekatan penyesuaian lainnya (misalnya, pasca-stratifikasi). Untuk lebih lanjut tentang panel online, melihat Callegaro et al. (2014) .
Kadang-kadang para peneliti telah menemukan bahwa sampel probabilitas dan sampel non-probabilitas menghasilkan perkiraan kualitas yang sama (Ansolabehere and Schaffner 2014) , namun perbandingan lain telah menemukan bahwa sampel non-probabilitas melakukan lebih buruk (Malhotra and Krosnick 2007; Yeager et al. 2011) . Salah satu alasan yang mungkin untuk perbedaan ini adalah bahwa sampel non-probabilitas telah meningkat dari waktu ke waktu. Untuk tampilan yang lebih pesimis dari metode non probability sampling melihat Task Force yang AAPOR Non-probabilitas Sampling (Baker et al. 2013) , dan saya juga merekomendasikan membaca komentar yang mengikuti ringkasan laporan.
Untuk meta-analisis tentang pengaruh bobot untuk mengurangi bias dalam sampel non-probabilitas, lihat Tabel 2.4 di Tourangeau, Conrad, and Couper (2013) , yang memimpin penulis untuk menyimpulkan "penyesuaian tampaknya koreksi berguna tetapi bisa salah. . . "
Conrad and Schober (2008) memberikan volume diedit berjudul Membayangkan Interview Survey of the Future, dan membahas banyak tema dalam bagian ini. Couper (2011) membahas tema yang sama, dan Schober et al. (2015) menawarkan contoh yang bagus tentang bagaimana metode pengumpulan data yang disesuaikan dengan pengaturan baru dapat menghasilkan data yang berkualitas tinggi.
Misalnya lain yang menarik dari menggunakan aplikasi Facebook untuk survei ilmu sosial, lihat Bail (2015) .
Untuk saran lebih lanjut tentang membuat survei pengalaman yang menyenangkan dan berharga bagi peserta, melihat pekerjaan pada Metode Tailored Desain (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) menawarkan pengobatan panjang buku penilaian sesaat ekologi dan metode terkait.
Judson (2007) menggambarkan proses menggabungkan survei dan data administratif sebagai "integrasi informasi," membahas beberapa keuntungan dari pendekatan ini, dan menawarkan beberapa contoh.
Cara lain yang peneliti dapat menggunakan jejak digital dan data administrasi adalah kerangka sampling untuk orang-orang dengan karakteristik tertentu. Namun, mengakses catatan ini akan digunakan kerangka sampling juga dapat membuat pertanyaan yang terkait dengan privasi (Beskow, Sandler, and Weinberger 2006) .
Mengenai bertanya diperkuat, pendekatan ini tidak seperti baru karena akan muncul dari bagaimana saya sudah menggambarkannya. Pendekatan ini memiliki hubungan yang mendalam untuk tiga wilayah besar di berbasis statistik model pasca-stratifikasi (Little 1993) , imputasi (Rubin 2004) , dan estimasi daerah kecil (Rao and Molina 2015) . Hal ini juga terkait dengan penggunaan variabel pengganti dalam penelitian medis (Pepe 1992) .
Selain isu-isu etika tentang mengakses jejak data digital, diperkuat bertanya juga bisa digunakan untuk menyimpulkan sifat-sifat sensitif yang orang mungkin tidak memilih untuk mengungkapkan dalam survei (Kosinski, Stillwell, and Graepel 2013) .
Biaya dan waktu perkiraan di Blumenstock, Cadamuro, and On (2015) merujuk lebih untuk biaya variabel-biaya satu biaya survei-dan tambahan tidak termasuk tetap seperti biaya untuk membersihkan dan memproses data panggilan. Secara umum, diperkuat bertanya mungkin akan memiliki biaya tetap yang tinggi dan biaya variabel rendah mirip dengan eksperimen digital (lihat Bab 4). Rincian lebih lanjut tentang data yang digunakan dalam Blumenstock, Cadamuro, and On (2015) kertas berada di Blumenstock and Eagle (2010) dan Blumenstock and Eagle (2012) . Pendekatan dari beberapa imputuation (Rubin 2004) mungkin membantu menangkap ketidakpastian dalam perkiraan dari meminta diperkuat. Jika peneliti melakukan diperkuat meminta hanya peduli tentang jumlah agregat, daripada sifat-sifat individu-tingkat, maka pendekatan di King and Lu (2008) dan Hopkins and King (2010) mungkin berguna. Untuk lebih lanjut tentang pendekatan pembelajaran mesin di Blumenstock, Cadamuro, and On (2015) , melihat James et al. (2013) (lebih pengantar) atau Hastie, Tibshirani, and Friedman (2009) (lebih maju). Buku lain yang populer pembelajaran mesin adalah Murphy (2012) .
Mengenai bertanya diperkaya, hasil di Ansolabehere dan Hersh (2012) engsel pada dua langkah kunci: 1) kemampuan Catalist untuk menggabungkan berbagai sumber data yang berbeda untuk menghasilkan master datafile akurat dan 2) kemampuan Catalist untuk menghubungkan data survei untuk Master datafile nya. Oleh karena itu, Ansolabehere dan Hersh memeriksa setiap langkah hati-hati.
Untuk membuat master datafile, Catalist menggabungkan dan menyelaraskan informasi dari berbagai sumber termasuk: beberapa catatan suara snapshot dari masing-masing negara, data dari National Ganti Kantor Pos untuk Alamat Registry, dan data dari penyedia komersial tidak ditentukan lain. Rincian berdarah tentang bagaimana semua pembersihan ini dan penggabungan terjadi berada di luar cakupan buku ini, tetapi proses ini, tidak peduli bagaimana hati, akan menyebarkan kesalahan dalam sumber-sumber data asli dan akan memperkenalkan kesalahan. Meskipun Catalist bersedia untuk membahas pengolahan data dan menyediakan beberapa data baku, itu tidak mungkin bagi para peneliti untuk meninjau seluruh pipa data Catalist. Sebaliknya, para peneliti berada dalam situasi di mana file data Catalist memiliki beberapa tidak diketahui, dan mungkin diketahui, jumlah kesalahan. Hal ini menjadi perhatian serius karena kritikus mungkin berspekulasi bahwa perbedaan besar antara laporan survei pada CCES dan perilaku dalam Catalist master file data yang disebabkan oleh kesalahan dalam master file data, bukan dengan salah melaporkan oleh responden.
Ansolabehere dan Hersh mengambil dua pendekatan yang berbeda untuk mengatasi kekhawatiran kualitas data. Pertama, selain membandingkan suara yang dilaporkan sendiri untuk memberikan suara dalam master file Catalist, para peneliti juga membandingkan partai yang dilaporkan sendiri, ras, status pendaftaran pemilih (misalnya, terdaftar atau tidak terdaftar) metode voting dan (misalnya, secara pribadi, absensi pemungutan suara, dll) dengan nilai-nilai yang ditemukan dalam database Catalist. Selama empat variabel demografis ini, para peneliti menemukan tingkat yang jauh lebih tinggi dari kesepakatan antara laporan survei dan data dalam file induk Catalist daripada untuk voting. Dengan demikian, Catalist master file data yang tampaknya memiliki informasi yang berkualitas tinggi untuk sifat-sifat lain dari voting, menunjukkan bahwa itu adalah bukan dari kualitas keseluruhan miskin. Kedua, sebagian menggunakan data dari Catalist, Ansolabehere dan Hersh mengembangkan tiga ukuran yang berbeda dari kualitas catatan county voting, dan mereka menemukan bahwa perkiraan tingkat lebih-pelaporan voting pada dasarnya berhubungan dengan setiap tindakan kualitas data tersebut, temuan yang menunjukkan bahwa tingkat tinggi lebih-pelaporan tidak didorong oleh negara dengan kualitas data sangat rendah.
Mengingat penciptaan file suara master, sumber kedua potensi kesalahan yang menghubungkan catatan survei untuk itu. Sebagai contoh, jika hubungan ini dilakukan secara tidak benar bisa menyebabkan over-estimasi perbedaan antara dilaporkan dan disahkan perilaku pemilih (Neter, Maynes, and Ramanathan 1965) . Jika setiap orang memiliki stabil, identifier unik yang berada di kedua sumber data, maka linkage akan sepele. Di Amerika Serikat dan kebanyakan negara lain, bagaimanapun, tidak ada identifier universal. Selanjutnya, bahkan jika ada semacam orang identifier mungkin akan ragu-ragu untuk memberikan itu untuk survei peneliti! Dengan demikian, Catalist harus melakukan linkage dengan menggunakan pengenal tidak sempurna, dalam hal ini empat potongan informasi tentang masing-masing responden: nama, jenis kelamin, tahun lahir, dan alamat rumah. Misalnya, Catalist harus memutuskan apakah Homie J Simpson di CCES adalah orang yang sama dengan Homer Jay Simpson di master file data mereka. Dalam prakteknya, cocok adalah proses yang sulit dan berantakan, dan, yang lebih buruk lagi bagi para peneliti, Catalist dianggap teknik pencocokan untuk menjadi eksklusif.
Dalam rangka untuk memvalidasi algoritma pencocokan, mereka mengandalkan dua tantangan. Pertama, Catalist berpartisipasi dalam kompetisi yang cocok yang dijalankan oleh independen, pihak ketiga: yang MITRE Corporation. MITRE tersedia semua peserta dua file data berisik untuk dicocokkan, dan tim yang berbeda bersaing untuk kembali ke MITRE pencocokan terbaik. Karena MITRE sendiri tahu cocok benar mereka mampu mencetak gol tim. Dari 40 perusahaan yang bertanding, Catalist berada di posisi kedua. semacam ini independen, evaluasi pihak ketiga teknologi proprietary cukup langka dan sangat berharga; harus memberikan kami keyakinan bahwa prosedur pencocokan Catalist ini pada dasarnya di negara-of-the-art. Tapi negara-of-the-art yang cukup baik? Selain kompetisi pencocokan ini, Ansolabehere dan Hersh menciptakan tantangan yang cocok mereka sendiri untuk Catalist. Dari proyek sebelumnya, Ansolabehere dan Hersh telah mengumpulkan catatan pemilih dari Florida. Mereka menyediakan beberapa catatan ini dengan beberapa bidangnya disunting untuk Catalist dan kemudian dibandingkan laporan Catalist untuk bidang ini untuk nilai-nilai mereka yang sebenarnya. Untungnya, laporan Catalist ini dekat dengan nilai-nilai yang dipotong, menunjukkan bahwa Catalist bisa menyamai catatan pemilih parsial ke master file data mereka. Kedua tantangan, satu oleh pihak ketiga dan satu oleh Ansolabehere dan Hersh, memberi kita lebih percaya diri dalam algoritma pencocokan Catalist, meskipun kita tidak bisa meninjau pelaksanaan yang tepat mereka diri kita sendiri.
Ada banyak usaha-usaha sebelumnya untuk memvalidasi voting. Untuk gambaran sastra itu, melihat Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , dan Hanmer, Banks, and White (2014) .
Penting untuk dicatat bahwa meskipun dalam kasus ini peneliti didorong oleh kualitas data dari Catalist, evaluasi lainnya dari vendor komersial telah kurang antusias. Para peneliti telah menemukan kualitas yang buruk ketika data dari survei ke konsumen-file dari Pemasaran Systems Group (yang sendiri bergabung bersama data dari tiga penyedia: Acxiom, Experian, dan InfoUSA) (Pasek et al. 2014) . Artinya, file data tidak cocok tanggapan survei yang peneliti diharapkan benar, datafile itu data untuk sejumlah besar pertanyaan, dan pola data yang hilang hilang berkorelasi untuk melaporkan nilai survei (dengan kata lain data yang hilang adalah sistematis , tidak acak).
Untuk lebih lanjut tentang catatan hubungan antara survei dan data administratif, lihat Sakshaug and Kreuter (2012) dan Schnell (2013) . Untuk lebih lanjut tentang hubungan catatan pada umumnya, lihat Dunn (1946) dan Fellegi and Sunter (1969) (sejarah) dan Larsen and Winkler (2014) (modern). Pendekatan serupa juga telah dikembangkan dalam ilmu komputer di bawah nama-nama seperti deduplication data, identifikasi contoh, nama yang cocok, duplikat deteksi, dan duplikat catatan deteksi (Elmagarmid, Ipeirotis, and Verykios 2007) . Ada juga privasi melestarikan pendekatan untuk merekam hubungan yang tidak memerlukan transmisi informasi identitas pribadi (Schnell 2013) . Para peneliti di Facebook mengembangkan prosedur untuk probabilisticsly menghubungkan catatan mereka untuk perilaku pemilih (Jones et al. 2013) ; linkage ini dilakukan untuk mengevaluasi percobaan yang saya akan memberitahu Anda tentang di Bab 4 (Bond et al. 2012) .
Contoh lain dari menghubungkan survei sosial besar-besaran untuk catatan administrasi pemerintah berasal dari Kesehatan dan Survei Pensiun dan Administrasi Keamanan Sosial. Untuk lebih lanjut tentang penelitian tersebut, termasuk informasi tentang prosedur persetujuan, melihat Olson (1996) dan Olson (1999) .
Proses menggabungkan berbagai sumber catatan administrasi menjadi master datafile-proses yang Catalist karyawan-umum di kantor statistik beberapa pemerintah nasional. Dua peneliti dari Statistik Swedia telah menulis sebuah buku rinci tentang topik (Wallgren and Wallgren 2007) . Untuk contoh pendekatan ini dalam county tunggal di Amerika Serikat (Olmstead County, Minnesota, rumah dari Mayo Clinic), melihat Sauver et al. (2011) . Untuk lebih lanjut tentang kesalahan yang dapat muncul dalam catatan administrasi, lihat Groen (2012) .