Bagean iki dirancang kanggo digunakake minangka referensi, tinimbang kanggo maca minangka narasi.
Akeh saka tema ing bab iki uga wis Venezuela ing Alamat Presiden anyar ing Amérika Association of Mratelakake panemume Public Research (AAPOR), kayata Dillman (2002) , Newport (2011) , Santos (2014) , lan Link (2015) .
Kanggo latar mburi luwih sejarah perkembangan riset survey, ndeleng Smith (1976) lan Converse (1987) . Kanggo luwih ing idea saka telung eras riset survey, ndeleng Groves (2011) lan Dillman, Smyth, and Christian (2008) (kang ngilangi tiga eras rada beda).
A puncak nang transisi saka pisanan jaman kapindho ing riset survey Groves and Kahn (1979) , kang ora comparison rinci sirah-kanggo-sirah antarane pasuryan-kanggo-pasuryan lan survey telpon. Brick and Tucker (2007) katon bali ing pangembangan sajarah saka cara telpon sampling acak digit.
Kanggo luwih carane survey riset wis diganti ing sasi kanggo nanggepi owah-owahan ing masyarakat, ndeleng Tourangeau (2004) , Mitofsky (1989) , lan Couper (2011) .
Learning bab negara internal dening takon pitakonan bisa masalah amarga kadang penjawab piyambak ora weruh negara internal sing. Contone, Nisbett and Wilson (1977) duwe kertas apik karo judhul evocative: "Nyariyosaken luwih saka kita bisa ngerti:. Laporan langsung ing proses mental" Ing kertas penulis nganakke: "subjek sing kadhangkala (a) ora peduli saka orane rangsangan sing Jahwéh dipengaruhi nanggepi, (b) ora peduli saka anane respon, lan (c) ora peduli sing rangsangan wis kena pengaruh respon. "
Kanggo bantahan sing peneliti kudu seneng prilaku diamati prilaku utawa Donyane kacarita, ndeleng Baumeister, Vohs, and Funder (2007) (psikologi) lan Jerolmack and Khan (2014) lan respon (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sosiologi). Bentenipun antarane takon lan ngisi uga mengkene ekonomi, ngendi peneliti pirembagan babagan pilihan nyatakake lan dicethakaké. Contone, peneliti bisa takon penjawab apa padha seneng mangan es krim utawa arep menyang gedung olahraga (nyatakake pilihan) utawa riset bisa mirsani carane asring wong mangan es krim lan pindhah menyang gedung olahraga (pilihan dicethakaké). Ana skepticism jero saka jinis-jinis tartamtu saka data pilihan nyatakake ing ékonomi (Hausman 2012) .
A tema utama saka debat iki prilaku kacarita ora tansah akurat. Nanging, kanthi otomatis direkam prilaku bisa uga ora akurat, utawa ora bisa diklumpukake ing sampel saka kapentingan, lan uga ora bisa diakses kanggo peneliti. Mangkono, ing sawetara kahanan, Aku sing prilaku kacarita bisa migunani. Luwih, tema utama liya saka debat iki sing lapuran bab emosi, kawruh, pangarepan, lan panemu sing ora tansah akurat. Nanging, yen informasi bab iki negara internal sing needed dening peneliti-salah siji kanggo nerangake sawetara prilaku utawa minangka bab diterangno-banjur takon uga cocok.
Kanggo pangobatan dawa buku ing total kesalahan survey, ndeleng Groves et al. (2009) utawa Weisberg (2005) . Kanggo Sajarah perkembangan saka total kesalahan survey, ndeleng Groves and Lyberg (2010) .
Ing istilah perwakilan, introduksi gedhe kanggo masalah non-nanggepi lan bias non-nanggepi laporan Dewan Riset Nasional ing Nonresponse ing Social Science Survey: A Agenda Research (2013) . Ringkesan liyane migunani diwenehake dening (Groves 2006) . Uga, kabeh masalah khusus saka Jurnal Official Statistics, Mratelakake panemume Public Triwulan, lan Sejarah saka American Academy of Politik lan Social Science wis diterbitake ing topik non-nanggepi. Akhire, ana akeh cara kanggo ngétung tingkat respon, iki cedhak sing diterangake ing rinci ing laporan dening Association Amérika saka Mratelakake panemume Public Peneliti (AAPOR) (Public Opinion Researchers} 2015) .
1936 Literary Digest poll wis sinau ing rinci (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Iku uga wis digunakake minangka pasemon kanggo ngélingaké marang data haphazard (Gayo-Avello 2011) . Ing taun 1936, George Gallup digunakake wangun luwih canggih sampling, lan bisa kanggo gawé prakiraan luwih akurat karo sampel luwih cilik. Sukses Gallup kang liwat Literary Digest minangka tonggak sejarah perkembangan riset survey (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Ing istilah Takeran, sumber pisanan gedhe kanggo ngrancang questionnaires punika Bradburn, Sudman, and Wansink (2004) . Kanggo perawatan luwih maju fokus sacara khusus ing pitakonan sikap, ndeleng Schuman and Presser (1996) . More ing pitakonan wis testing sumadhiya nèng Presser and Blair (1994) , Presser et al. (2004) , lan Pasal 8 of Groves et al. (2009) .
Ing perawatan klasik, buku-dawa saka perdagangan-mati antarane biaya survey lan kasalahan survey Groves (2004) .
Classic perawatan buku-dawa standar sampling kemungkinan lan ngira sing Lohr (2009) (more pambuko) lan Särndal, Swensson, and Wretman (2003) (luwih maju). A perawatan buku-dawa klasik kirim-stratification lan related cara punika Särndal and Lundström (2005) . Ing sawetara setelan umur digital, peneliti ngerti cukup sing dicokot babagan non-penjawab, kang ora asring bener ing sasi. Macem-macem formulir saka imbuhan non-nanggepi sing bisa nalika peneliti duwe informasi babagan non-penjawab (Kalton and Flores-Cervantes 2003; Smith 2011) .
Xbox sinau saka Wang et al. (2015) migunakake teknik kang kasebut kemunduran multilevel lan kirim-stratification (MRP, kadhangkala disebut "Mister P") sing ngidini kanggo riset ngira sel tegese sanajan ana akeh, pirang-pirang sel. Senajan ana sawetara debat babagan kualitas prakiran saka technique iki, misale jek kaya area janjeni kanggo njelajah. Technique iki pisanan dipigunakaké ing Park, Gelman, and Bafumi (2004) , lan wonten nggunakake sakteruse lan debat (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Kanggo luwih ing sambungan antarane bobot individu lan bobot basis sèl ndeleng Gelman (2007) .
Kanggo cedhak kanggo survey web nimbang, ndeleng Schonlau et al. (2009) , Valliant and Dever (2011) , lan Bethlehem (2010) .
Cocog Sample diusulaké déning Rivers (2007) . Bethlehem (2015) udur kinerja cocog sampel bener bakal padha cedhak liyane sampling (eg, stratified sampling) lan cedhak imbuhan liyane (contone, kirim-stratification). Kanggo luwih ing Panel online, ndeleng Callegaro et al. (2014) .
Kadang peneliti wis ketemu sing conto kemungkinan lan conto non-kemungkinan ngasilaken prakiraan saka kualitas padha (Ansolabehere and Schaffner 2014) , nanging bandingaken liyane wis ketemu sing conto non-kemungkinan apa elek (Malhotra and Krosnick 2007; Yeager et al. 2011) . Siji alesan bisa kanggo beda iku conto non-kemungkinan wis apik liwat wektu. Kanggo ndeleng liyane pesimis saka cara sampling non-kemungkinan ndeleng Task Force ing AAPOR ing Non-kemungkinan Sampling (Baker et al. 2013) , lan aku uga bisa menehi rekomendasi maca pangandikan sing nderek laporan ringkesan.
Kanggo meta-analisis ing efek saka boboté kanggo ngurangi Bias ing conto non-kemungkinan, ndeleng Tabel 2.4 in Tourangeau, Conrad, and Couper (2013) , kang ndadékaké penulis nganakke "pangaturan koyone mbenerake migunani nanging fallible. . . "
Conrad and Schober (2008) Nyedhiyani volume diowahi judul envisioning ing Interview Survey ing mangsa, lan iku alamat akeh tema ing bagean iki. Couper (2011) alamat tema padha, lan Schober et al. (2015) nawakake contone becik saka carane cara data sing ngarang menyang setelan anyar bisa kasil data kualitas sing luwih.
Contone menarik saka nggunakake app Facebook kanggo survey ilmu sosial, ndeleng Bail (2015) .
Kanggo saran liyane ing nggawe survey pengalaman nyenengake lan terkenal kanggo peserta, ndeleng karya ing Cara ngarang Design (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) nawakake perawatan dawa kitab Assessment sadhela ekologis lan cara related.
Judson (2007) nggambaraken proses nggabungke survey lan data administratif minangka "integrasi informasi," rembagan kaluwihan saka pendekatan, lan nawakake sawetara conto.
Liyane cara sing peneliti bisa nggunakake ngambah digital lan data administratif punika pigura sampling kanggo wong ciri tartamtu. Nanging, ngakses cathetan iki kanggo digunakake pigura sampling uga bisa nggawe pitakonan kanggo privasi (Beskow, Sandler, and Weinberger 2006) .
Usul nyuwon digedhèkaké, pendekatan iki ora anyar kang bisa katon saka carane aku wis diterangake iku. Pendekatan wis sambungan jero kanggo telung wilayah gedhe ing basis statistik-model kirim-stratification (Little 1993) , imputation (Rubin 2004) , lan ngira area cilik (Rao and Molina 2015) . Iku uga related kanggo nggunakake variabel titipan ing riset medical (Pepe 1992) .
Saliyane masalah sopan gegayutan ngakses tilak data digital, digedhèkaké nyuwon bisa uga dipigunakaké kanggo infer sipat sensitif wong bisa ora milih kanggo mbukak ing survey (Kosinski, Stillwell, and Graepel 2013) .
Biaya lan wektu prakiraan ing Blumenstock, Cadamuro, and On (2015) nyebut liyane kanggo global biaya-biaya siji biaya survey-lan tambahan ora kalebu tetep kayata biaya kanggo ngresiki lan proses data telpon. Umumé, digedhèkaké nyuwon mbokmenawa bakal tetep biaya dhuwur lan biaya global kurang padha nyobi digital (ndeleng Chapter 4). More details ing data digunakake ing Blumenstock, Cadamuro, and On (2015) kertas ing Blumenstock and Eagle (2010) lan Blumenstock and Eagle (2012) . Cedhak saka macem-macem imputuation (Rubin 2004) bisa bantuan capture kahanan sing durung mesthi ing prakiraan saka nyuwon digedhèkaké. Yen peneliti dilakoni digedhèkaké takon mung Care babagan counts kanthi jumlah ongko, tinimbang sipat individu-tingkat, banjur cedhak ing King and Lu (2008) lan Hopkins and King (2010) bisa migunani. Kanggo luwih bab cedhak machine learning ing Blumenstock, Cadamuro, and On (2015) , ndeleng James et al. (2013) (more pambuko) utawa Hastie, Tibshirani, and Friedman (2009) (luwih maju). Buku liyane populer machine learning punika Murphy (2012) .
Usul nyuwon kandungan, asil ing Ansolabehere lan Hersh (2012) nggeser ing rong langkah tombol: 1) kemampuan saka Catalist kanggo gabungke akeh sumber data disparate kanggo ngasilaké master datafile akurat lan 2) kemampuan saka Catalist kanggo nyambung data survey kanggo master datafile sawijining. Mulane, Ansolabehere lan Hersh mriksa saben langkah iki kasebut kanthi teliti.
Kanggo nggawe master datafile, Catalist nggabungke lan harmonizes informasi saka akeh macem-macem sumber kalebu: macem-macem cathetan pilihan jepretan saka saben negara, data saka National Ngganti Post Office kang alamat Registry, lan data saka panyedhiya komersial unspecified liyane. Rincian gory bab carane kabeh cleaning iki lan gabung mengkono iku ngluwihi orane katrangan saka buku iki, nanging proses iki, ora prakara cara ati-ati, bakal nyebar kasalahan ing sumber data asli lan bakal introduce kasalahan. Senajan Catalist ana kekarepan kanggo ngrembug Processing data lan nyedhiyani sawetara data mentahan, iku mung mokal kanggo riset maneh kabeh pipo data Catalist. Luwih, peneliti padha ing kahanan ngendi file data Catalist wis sawetara sing ora dingerteni, lan mbok menawa unknowable, jumlah kesalahan. Iki badhan serius amarga kritikus sing bisa speculate sing beda gedhe antarane laporan survey ing CCES lan prilaku ing Catalist file master data padha disebabake kasalahan ing file master data, ora dening misreporting dening penjawab.
Ansolabehere lan Hersh njupuk rong cedhak beda kanggo ngarahake badhan kualitas data. First, saliyane kanggo mbandingaken pilihan poto-kacarita kanggo pilihan ing file master Catalist, peneliti uga dibandhingake party poto-kacarita, lomba, status Pendhaftaran pinilih (eg, kedhaftar utawa ora kedhaftar) cara voting lan (eg, ing wong, absentee kertu suoro, etc.) kanggo sing angka ditemokaké ing database Catalist. Kanggo papat variabel demografi iki, peneliti ketemu tingkat kang luwih dhuwur saka persetujuan antarane laporan survey lan data ing master file Catalist katimbang pilihan. Mangkono, ing Catalist file master data katon duwe informasi kualitas kanggo sipat liyane saka voting, nyaranke sing ora saka kualitas sakabèhé miskin. Kapindho, ing sisih nggunakake data saka Catalist, Ansolabehere lan Hersh dikembangaké telung ngukur beda saka kualitas cathetan kabupaten pilihan, lan padha ketemu sing kira-kira tingkat liwat-Reporting saka voting iki ateges boten mathuk marang ngukur kualitas data iki, nemokake sing suggest sing dhuwur tarif saka liwat-Reporting ora kang mimpin dening kabupaten karo kualitas data saèstu kurang.
Given nitahaken saka file pilihan master iki, ing sumber liya saka kasalahan potensial wis ngubungaké cathetan survey kanggo iku. Contone, yen ubungan iki rampung salah bisa mimpin kanggo liwat-ngira prabédan antarane kacarita lan divalidasi prilaku pilihan (Neter, Maynes, and Ramanathan 1965) . Yen saben wong wis stabil, pengenal unik sing ana ing loro sumber data, banjur ubungan bakal ora pati penting. Ing AS lan negara liyane paling, Nanging, ora ana pengenal universal. Luwih, malah yen ana kuwi wong pengenal mbokmenawa bakal dadi mangu-mangu kanggo nyedhiyani kanggo survey peneliti! Mangkono, Catalist wis apa gegayutane nggunakake Identifikasi cacat, ing kasus iki papat bagéyan informasi bab saben responden: jeneng, gender, taun lair, lan alamat ngarep. Contone, Catalist wis netepake yen ing Homie J Simpson ing CCES ana wong sing padha minangka Homer Jay Simpson ing file master data sing. Ing laku, cocog proses angel lan tumoto, lan, kanggo nggawe prakara Samsaya Awon kanggo peneliti, Catalist dianggep technique cocog kanggo dadi tertutup.
Supaya ndhedhes kalkulus cocog, padha migunaaké loro tantangan. First, Catalist melu ing kompetisi cocog sing mbukak dening sawijining, pihak katelu: ing Mitre Corporation. Mitre kasedhiya ing kabeh peserta loro file data rame kanggo bakal dicocogaké, lan tim beda kompetisi kanggo bali menyang Mitre ing cocog paling. Amarga Mitre dhewe sumurup ing cocog bener padha bisa Skor tim. Saka 40 perusahaan sing berhasil, Catalist teka ing papan liya. Iki jenis sawijining, evaluasi pihak katelu teknologi tertutup cukup langka lan luar biasa terkenal; iku kudu menehi kita kapercayan sing tata cara cocog Catalist kang ateges ing negara-saka-saka-gambar. Nanging iku negara-saka-saka-gambar cukup apik? Saliyane kompetisi cocog iki, Ansolabehere lan Hersh digawe tantangan cocog dhewe kanggo Catalist. Saka project sadurungé, Ansolabehere lan Hersh wis diklumpukake cathetan pinilih saka Florida. Wong sing kasedhiya sawetara cathetan iki karo sawetara kothak REDACTED kanggo Catalist banjur dibandhingake laporan Catalist kang lapangan iki kanggo nilai nyata. Begjanipun, laporan Catalist kang padha cedhak angka withheld, nuduhake yen Catalist bisa cocog cathetan pinilih sebagean dhateng file master data sing. Iki loro tantangan, siji dening pihak katelu lan siji Ansolabehere lan Hersh, menehi luwih kapercayan ing kalkulus cocog Catalist, malah sanadyan aku ora bisa maneh implementasine sing pas dhéwé.
Wonten sadurungé usaha kanggo ndhedhes pilihan. Kanggo ringkesan sastra sing, ndeleng Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , lan Hanmer, Banks, and White (2014) .
Penting, kanggo Wigati sing senadyan ing kasus iki peneliti padha diwanti-wanti dening kualitas data saka Catalist, evaluasi saka vendor komersial wis kurang greget. Peneliti wis ketemu miskin kualitas nalika data saka survey kanggo konsumen-file saka Marketing Sistem Group (kang dhewe gabung bebarengan data saka telung panyedhiya: Acxiom, Experian, lan InfoUSA) (Pasek et al. 2014) . Sing, data file ora cocog respon survey sing peneliti samesthine dadi bener, datafile wis data kanggo nomer akeh pitakonan, lan pola data ilang ilang iki hubungan kanggo kacarita Nilai survey (ing tembung liyane data ilang ana rapi , ora acak).
Kanggo ing laporan antarane ubungan survey lan data administratif, ndeleng Sakshaug and Kreuter (2012) lan Schnell (2013) . Kanggo ing laporan ubungan ing umum, ndeleng Dunn (1946) lan Fellegi and Sunter (1969) (sajarah) lan Larsen and Winkler (2014) (modern). Cedhak padha uga wis dikembangaké ing èlmu komputer miturut jeneng kayata deduplication data, identifikasi Kayata, jeneng cocog, duplikat deteksi, lan duplikat rekaman deteksi (Elmagarmid, Ipeirotis, and Verykios 2007) . Ana uga privasi dijogo cedhak kanggo ngrekam ubungan kang ora mbutuhake transmisi wong Ngenali informasi (Schnell 2013) . Peneliti ing Facebook dikembangaké prosedur kanggo probabilisticsly pranala cathetan prilaku pilihan (Jones et al. 2013) ; ubungan iki rampung kanggo ngira-ngira eksprimen aku pitutur marang kowe bab ing Bab 4 (Bond et al. 2012) .
Liyane nyantolke a survey sosial gedhe-ukuran kanggo cathetan administratif pamaréntahan asalé saka Health lan Survey leren lan Administrasi Sosial Keamanan. Kanggo liyane sinau sing, kalebu informasi bab prosedur idin, ndeleng Olson (1996) lan Olson (1999) .
Proses nggabungke akeh sumber cathetan administratif dadi master datafile-prosès sing Catalist karyawan-umum ing kantor statistik saka sawetara negara ing. Two peneliti saka Statistik Swedia wis ditulis buku rinci ing topic (Wallgren and Wallgren 2007) . Kanggo conto pendekatan ing sebuah county tunggal ing Amerika Serikat (Olmstead County, Minnesota; asal saka Clinic Mayo), ndeleng Sauver et al. (2011) . Kanggo luwih ing kasalahan sing bisa katon ing cathetan administratif, ndeleng Groen (2012) .