Bagian ieu dirarancang pikeun dipaké minangka rujukan, tinimbang jadi maca salaku naratif a.
Loba téma dina bagean ieu geus ogé geus echoed di Alamat Présidén anyar di Association American tina Opinion Public Research (AAPOR), saperti Dillman (2002) , Newport (2011) , Santos (2014) , jeung Link (2015) .
Pikeun tukang leuwih sajarah ngeunaan perkembangan panalungtikan survey, tempo Smith (1976) jeung Converse (1987) . Pikeun leuwih dina pamanggih tilu eras panalungtikan survey, tempo Groves (2011) jeung Dillman, Smyth, and Christian (2008) (nu ngarecah nepi tilu eras rada béda).
A puncak jero transisi ti mimiti jaman kadua dina panalungtikan survéy téh Groves and Kahn (1979) , nu teu perbandingan lengkep sirah-to-sirah antara beungeut-to-beungeut jeung survey telepon. Brick and Tucker (2007) Sigana deui di perkembangan sajarah métode maneuh sampling random digit.
Pikeun leuwih kumaha survey panalungtikan geus robah dina jaman baheula di response parobahan di masarakat, tempo Tourangeau (2004) , Mitofsky (1989) , jeung Couper (2011) .
Diajar ngeunaan nagara internal ku nanyakeun pertanyaan bisa masalah sabab sok responden sorangan teu sadar nagara internal maranéhanana. Contona, Nisbett and Wilson (1977) boga kertas éndah jeung judul evocative: "nétélakeun leuwih ti urang bisa nyaho:. Laporan lisan dina prosés mental" Dina kertas pangarang disimpulkeun: "subjék anu sakapeung (a) unaware tina ayana hiji stimulus nu importantly dipangaruhan response a, (b) unaware ayana response, jeung (c) unaware nu stimulus geus kapangaruhan respons. "
Pikeun alesan nu panalungtik kudu milih paripolah observasi ka paripolah atawa sikap dilaporkeun, tempo Baumeister, Vohs, and Funder (2007) (psikologi) jeung Jerolmack and Khan (2014) jeung réspon (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sosiologi). Beda antara nanyakeun jeung observasi ogé timbul dina ékonomi, di mana panalungtik obrolan ngeunaan kahoyong nyatakeun jeung wangsit. Contona, panalungtik a bisa menta responden naha maranehna leuwih milih dahar és krim atawa bade gym (nyatakeun karesep) atawa panalungtikan bisa niténan kumaha mindeng urang dahar és krim jeung pindah ka gym (karesep wangsit). Aya skepticism jero tipe tangtu data karesep nyatakeun di ékonomi (Hausman 2012) .
A tema utama ti debat ieu nyaeta paripolah dilaporkeun teu sok akurat. Tapi, otomatis kacatet paripolah bisa jadi teu akurat, teu meunang dikumpulkeun dina sampel dipikaresep, jeung bisa jadi teu bisa diasupan ka panalungtik. Ku kituna, dina sababaraha kaayaan, kuring mikir nu paripolah dilaporkeun bisa dipake. Salajengna, tema utama kadua ti debat ieu nyaeta laporan ngeunaan émosi, pangaweruh, ekspektasi, jeung opini teu sok akurat. Tapi, lamun informasi ngeunaan ieu nagara internal anu diperlukeun ku panalungtik-boh pikeun mantuan ngajelaskeun sababaraha paripolah atawa salaku hal bisa ngajelaskeun-tuluy nanyakeun bisa jadi hade.
Pikeun perlakuan panjang buku dina total kasalahan survey, tempo Groves et al. (2009) atawa Weisberg (2005) . Keur sajarah perkembangan total kasalahan survey, tempo Groves and Lyberg (2010) .
Dina watesan ngagambarkeun, hiji bubuka gede isu non response jeung bias non-response nyaéta laporan Council Research National dina Nonresponse di Élmu Sosial Ukur: A Agenda Research (2013) . Tinjauan sejen dipake keur disadiakeun ku (Groves 2006) . Oge, sakabéh isu husus tina Journal of resmi Statistik, Opinion Public Quarterly, sarta The Annals of the American Academy of Pulitik jeung Élmu Sosial geus diterbitkeun dina topik non-response. Ahirna, aya sabenerna loba cara nu beda-beda ngitung laju response; deukeut ieu dijelaskeun dina jéntré dina laporan ku Association American tina Opinion Public Panalungtik (AAPOR) (Public Opinion Researchers} 2015) .
Nu 1936 Literary Digest polling geus diajarkeun di jéntré (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Ieu ogé geus dipaké salaku pasemon ngingetkeun ngalawan kumpulan data haphazard (Gayo-Avello 2011) . Dina 1936, George Gallup dipaké bentuk leuwih canggih ti sampling jeung ieu bisa ngahasilkeun perkiraan leuwih akurat jeung sampel leuwih leutik. Kasuksésan Gallup sacara leuwih Literary Digest ieu milestone perkembangan panalungtikan survey (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Dina watesan ukuran, hiji sumberdaya kahiji gede pikeun ngarancang questionnaires nyaéta Bradburn, Sudman, and Wansink (2004) . Keur perlakuan leuwih maju fokus husus dina patarosan sikep, tempo Schuman and Presser (1996) . More dina patarosan pre-tés geus sadia di Presser and Blair (1994) , Presser et al. (2004) , jeung Bab 8 Groves et al. (2009) .
Perlakuan Palasik, buku-panjang dagang-off antara waragad survey jeung kasalahan survey téh Groves (2004) .
Palasik perlakuan buku-panjang standar sampling probabilitas jeung estimasi nu Lohr (2009) (more bubuka) jeung Särndal, Swensson, and Wretman (2003) (leuwih maju). A perlakuan buku-panjang Palasik tina post-stratifikasi jeung patali métode téh Särndal and Lundström (2005) . Dina sababaraha setélan umur digital, panalungtik nyaho cukup bit ngeunaan non-responden, nu ieu mah mindeng bener dina jaman baheula. Bentuk nu beda-beda adjustment non-response nu mungkin lamun panalungtik geus informasi ngeunaan non-responden (Kalton and Flores-Cervantes 2003; Smith 2011) .
Nu Xbox ulikan Wang et al. (2015) ngagunakeun téhnik disebut regression multilevel jeung post-stratifikasi (MRP, sakapeung disebut "Mister P") anu ngamungkinkeun panalungtik pikeun estimasi sél hartina komo lamun aya loba, loba sél. Sanajan aya sababaraha polemik ngeunaan kualitas perkiraan ti téhnik ieu, jigana kawas wewengkon ngajangjikeun ngajajah. Teknik munggaran dipaké dina Park, Gelman, and Bafumi (2004) , jeung aya geus dipake saterusna jeung debat (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Pikeun leuwih dina sambungan antara beurat individu jeung beurat basis sél tempo Gelman (2007) .
Pikeun deukeut lain survey web weighting, tempo Schonlau et al. (2009) , Valliant and Dever (2011) , jeung Bethlehem (2010) .
Cocog sampel ieu diusulkeun ku Rivers (2007) . Bethlehem (2015) boga pamadegan yén kinerja cocog sample sabenerna bakal sarua jeung pendeketan sejen sampling (misalna ngabedakeun lapisan sampling) jeung deukeut adjustment séjén (misalna post-stratifikasi). Pikeun nu langkung lengkep ihwal panels online, tempo Callegaro et al. (2014) .
Kadang-kadang panalungtik geus manggihan yén sampel probabilitas jeung sampel non-probability ngahasilkeun perkiraan kualitas sarua (Ansolabehere and Schaffner 2014) , tapi babandinganana séjén geus manggihan yén sampel non-probability teu parah (Malhotra and Krosnick 2007; Yeager et al. 2011) . Salah sahiji alesan mungkin keur béda ieu nyaeta sampel non-probability geus ningkat kana waktu. Keur nempo leuwih pesimis sahiji metodeu sampling non-probability tempo Tugas Force nu AAPOR dina Non-probability Sampling (Baker et al. 2013) , sarta kuring ogé nyarankeun maca commentary nu kieu laporan kasimpulan.
Keur meta-analysis dina pangaruh weighting pikeun ngurangan bias dina sampel non-probability, tempo Daptar 2.4 di Tourangeau, Conrad, and Couper (2013) , nu ngabalukarkeun pangarang ka disimpulkeun "pangaluyuan sigana jadi koréksi dipake tapi fallible. . . "
Conrad and Schober (2008) nyadiakeun hiji volume diédit judulna Envisioning nu Wawancara Survey tina Future, sarta alamat loba téma dina bagian ieu. Couper (2011) alamat téma sarua, sarta Schober et al. (2015) nawarkeun conto nice kumaha métode koleksi data anu tailored ka setting anyar bisa ngahasilkeun data kualitas luhur.
Contona sejen metot make aktip Facebook pikeun survey élmu sosial, tempo Bail (2015) .
Pikeun nasihat nu langkung lengkep ihwal nyieun survey hiji pangalaman nikmat jeung berharga pikeun pamilon, tempo karya dina Métode tailored Desain (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) nawarkeun perlakuan panjang buku assessment sakeudeung ékologis jeung métode patali.
Judson (2007) ngagambarkeun prosés ngagabungkeun survey jeung data administrasi salaku "integrasi informasi," ngabahas sababaraha kaunggulan tina pendekatan ieu, sarta nawarkeun sababaraha conto.
Cara séjén nu panalungtik bisa maké ngambah digital jeung data administrasi mangrupa pigura sampling for teu urang jeung ciri husus. Tapi, ngakses catetan ieu dipaké pigura sampling ogé bisa nyieun pertanyaan patali privasi (Beskow, Sandler, and Weinberger 2006) .
Ngeunaan nanyakeun amplified, pendekatan ieu teu jadi anyar sabab bisa mucunghul ti kumaha mah geus digambarkeun eta. Pendekatan ieu ngabogaan koneksi jero tilu wewengkon badag di basis statistik-model post-stratifikasi (Little 1993) , imputation (Rubin 2004) , jeung estimasi wewengkon leutik (Rao and Molina 2015) . Hal ieu ogé patali jeung pamakéan variabel surrogate dina panalungtikan médis (Pepe 1992) .
Salian isu etika ngeunaan ngakses nu renik data digital, amplified nanyakeun bisa ogé dipaké pikeun infer Tret sensitip nu urang bisa jadi teu milih nembongkeun dina survey (Kosinski, Stillwell, and Graepel 2013) .
Biaya jeung waktu perkiraan di Blumenstock, Cadamuro, and On (2015) nujul leuwih variabel ongkos-biaya hiji waragad survey-jeung tambahan teu di antarana tetep saperti ongkos pikeun ngabersihan jeung ngolah data télépon. Sacara umum, amplified nanyakeun meureun bakal boga waragad tetep luhur jeung waragad variabel low sarua jeung percobaan digital (tempo Bab 4). Wincikan More dina data anu digunakeun dina Blumenstock, Cadamuro, and On (2015) kertas aya di Blumenstock and Eagle (2010) jeung Blumenstock and Eagle (2012) . Deukeut ti sababaraha imputuation (Rubin 2004) bisa mantuan jang nyokot gambar kateupastian dina perkiraan ti nanyakeun amplified. Lamun panalungtik ngalakonan amplified nanyakeun ngan ngeunaan miara diitung agrégat, tinimbang Tret individu-tingkat, mangka deukeut di King and Lu (2008) jeung Hopkins and King (2010) bisa jadi mangpaat. Pikeun leuwih ngeunaan deukeut mesin learning di Blumenstock, Cadamuro, and On (2015) , tempo James et al. (2013) (more bubuka) atawa Hastie, Tibshirani, and Friedman (2009) (leuwih maju). Buku ajar sejen populér mesin learning nyaéta Murphy (2012) .
Ngeunaan nanyakeun enriched, hasil di Ansolabehere jeung Hersh (2012) hinge dina dua hambalan konci: 1) kamampuh Catalist ngagabungkeun loba sumber data disparate pikeun ngahasilkeun hiji master datafile akurat jeung 2) kamampuh Catalist ka numbu data survey ka master datafile anak. Ku alatan éta, Ansolabehere jeung Hersh mariksa unggal léngkah ieu sacara saksama.
Pikeun nyieun master datafile, Catalist ngagabungkeun jeung harmonizes inpo ti loba sumber beda di antarana: sababaraha catetan voting snapshots ti saban nagara, data ti National Ngarobah Kantor Pos ngeunaan Alamat pendaptaran, jeung data ti panyadia komérsial unspecified séjén. Wincik gory ngeunaan kumaha sadaya beberesih ieu merging kajadian anu leuwih ti ruang lingkup buku ieu, tapi prosés ieu, euweuh urusan kumaha ati, bakal propagate kasalahan dina sumber data asli jeung bakal ngawanohkeun kasalahan. Sanajan Catalist ieu daék ngabahas processing data sarta nyadiakeun sababaraha data atah anak, ieu ngan saukur teu mungkin keur panalungtik pikeun nempoan sakabéh pipa data Catalist. Rada, panalungtik éta dina kaayaan dimana file data Catalist geus sababaraha dipikanyaho, jeung sugan unknowable, jumlah kasalahan. Ieu patalina jeung masalah serius sabab kritikus a bisa speculate nu béda badag antara laporan survey dina CCES jeung paripolah di Catalist file master data anu disababkeun ku kasalahan dina file master data, teu ku misreporting ku responden.
Ansolabehere jeung Hersh nyandak dua deukeut beda alamat patalina jeung masalah kualitas data. Kahiji, sajaba ngabandingkeun voting timer dilaporkeun ka voting dina file master Catalist, panalungtik ogé dibandingkeun pihak timer ngalaporkeun, ras, status ngadaptar voter (misalna kadaptar atawa teu kadaptar) metoda voting jeung (misalna, dina jalma, absentee kartu keur mere sora, jsb) pikeun jalma nilai kapanggih dina basis data Catalist. Keur opat variabel demografi ieu, panalungtik kapanggih tingkat loba leuwih luhur kasapukan antara laporan survey jeung data dina master file Catalist ti keur voting. Ku kituna, Catalist file master data mucunghul boga informasi kualitasna alus pikeun Tret lian ti voting, suggesting yén éta téh teu kualitas sakabéh goréng. Kadua, sabagian ngagunakeun data ti Catalist, Ansolabehere jeung Hersh dimekarkeun tilu ukuran nu beda-beda kualitas catetan county voting, jeung maranehna manggihan yén estimasi laju leuwih-ngalaporkeun of voting ieu dasarna séjén nu teu patali ka salah sahiji ukuran kualitas data ieu, Pananjung anu nyarankeun yen ongkos luhur leuwih-ngalaporkeun teu keur disetir ku wilayah jeung kualitas data unusually low.
Dibikeun kreasi file voting master ieu, sumber kadua kasalahan poténsi anu linking rékaman survey ka eta. Contona, lamun beungkeut ieu dipigawé salah bisa ngakibatkeun hiji leuwih-estimasi tina béda antara dilaporkeun jeung disahkeun paripolah voting (Neter, Maynes, and Ramanathan 1965) . Lamun unggal jalma miboga stabil, identifier unik nu ieu boh sumber data, mangka beungkeut bakal trivial. Di AS jeung paling nagara séjén, kumaha oge, aya identifier universal. Salajengna, komo lamun aya saperti urang identifier meureun bakal hesitant pikeun nyadiakeun ka survey panalungtik! Ku kituna, Catalist kungsi ngalakukeun beungkeut make identifiers sampurna, dina hal ieu opat potongan informasi ngeunaan unggal réspondén: ngaran, gender, taun lahir, jeung alamat imah. Contona, Catalist kungsi mutuskeun lamun Homie J Simpson di CCES ieu jalmi sarua jeung Homer Jay Simpson dina file master data maranéhanana. Dina prakték, cocog nyaéta prosés hese jeung pabalatak, sarta, pikeun nyieun urusan parah pikeun panalungtik, Catalist dianggap téhnik cocog anak jadi proprietary.
Dina raraga sangkan méré konfirmasi nu algoritma cocog, maranéhanana relied dina dua tantangan. Kahiji, Catalist milu dina kompetisi cocog anu dijalankeun ku hiji bebas, pihak-katilu: nu MITRE Corporation. MITRE disadiakeun sadaya pamilon dua payil data ribut jadi loyog jeung tim beda competed balik ka MITRE nu cocog pangalusna. Sabab MITRE sorangan terang nu cocog bener maranéhanana éta bisa skor tim. Tina 40 pausahaan nu competed, Catalist datang di tempat kadua. jenis ieu bebas, evaluasi pihak-katilu téknologi proprietary anu cukup jarang jeung incredibly berharga; kudu méré urang kayakinan yén prosedur cocog Catalist urang aya dasarna di nagara-of-nu-seni. Tapi state-of-nu-seni cukup alus? Salian kompetisi cocog ieu, Ansolabehere jeung Hersh dijieun tangtangan cocog sorangan pikeun Catalist. Ti hiji proyék saméméhna, Ansolabehere jeung Hersh geus dikumpulkeun catetan voter ti Florida. Maranéhanana disadiakeun sababaraha catetan ieu jeung sababaraha widang maranéhanana redacted ka Catalist terus dibandingkeun laporan Catalist ngeunaan widang ieu pikeun nilai maranéhanana sabenerna. Untungna, laporan Catalist sacara éta deukeut ka nilai withheld, nu nunjukkeun yén Catalist bisa cocog catetan voter parsial onto file master data maranéhanana. Dua tantangan, hiji ku pihak-katilu jeung hiji ku Ansolabehere jeung Hersh, méré urang leuwih kapercayaan dina algoritma cocog Catalist, sanajan urang teu bisa nempoan palaksanaan pasti maranéhanana sorangan.
Aya geus loba usaha saméméhna ka sangkan méré konfirmasi voting. Pikeun tinjauan literatur éta, tempo Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , jeung Hanmer, Banks, and White (2014) .
Kadé ka dicatet yén sanajan dina kasus ieu panalungtik anu wanti ku kualitas data ti Catalist, Panakawan séjén ngical komérsial geus kurang sumanget. Panalungtik geus manggihan kualitas goréng lamun data ti survey ka konsumen-file ti Marketing Systems Group (nu sorangan dihijikeun babarengan data ti tilu panyadia: Acxiom, Experian, sarta InfoUSA) (Pasek et al. 2014) . Hartina, data file teu cocog réspon survey nu panalungtik dipiharep jadi bener, datafile kungsi data keur angka nu gede ngarupakeun patarosan, jeung pola data leungit leungit ieu antara ka dilaporkeun nilai survey (dina basa sejen data leungit ieu sistimatis , teu random).
Pikeun leuwih dina catetan beungkeut antara survey jeung data administrasi, tempo Sakshaug and Kreuter (2012) jeung Schnell (2013) . Pikeun leuwih dina catetan beungkeut sacara umum, tempo Dunn (1946) jeung Fellegi and Sunter (1969) (sajarah) jeung Larsen and Winkler (2014) (modern). Deukeut sarupa geus ogé geus dimekarkeun dina élmu komputer dina ngaran saperti deduplication data, idéntifikasi conto, ngaran cocog, panulisan beungeut, sarta jadi gaduh panulisan catetan beungeut (Elmagarmid, Ipeirotis, and Verykios 2007) . Aya ogé privasi preserving deukeut pikeun ngarekam beungkeut nu teu merlukeun pangiriman pribadi identifying informasi (Schnell 2013) . Panalungtik di Facebook dimekarkeun prosedur pikeun probabilisticsly numbu catetan maranéhna pikeun paripolah voting (Jones et al. 2013) ; beungkeut ieu dipigawé pikeun evaluate hiji percobaan nu Abdi gé ngabejaan Anjeun tentang in Chapter 4 (Bond et al. 2012) .
conto sejen linking a survey sosial gede skala ka catetan administrasi pamaréntahan asalna ti Kaséhatan jeung Survey pangsiun jeung Administrasi Kaamanan Sosial. Pikeun leuwih dina ulikan éta, kaasup informasi ngeunaan prosedur ijab kabul, tempo Olson (1996) jeung Olson (1999) .
Prosés ngagabungkeun loba sumber catetan administratif kana master datafile-prosés nu Catalist pagawé-ilahar dina kantor statistik sababaraha pamaréntah nasional. Dua panalungtik ti Statistik Swédia geus ditulis buku lengkep dina topik (Wallgren and Wallgren 2007) . Pikeun conto pendekatan ieu dina county tunggal di Amérika Sarikat (Olmstead County, Minnesota; imah tina klinik Mayo), tempo Sauver et al. (2011) . Pikeun leuwih dina kasalahan anu bisa nembongan dina catetan administratif, tempo Groen (2012) .