Tiu sekcio estas dizajnita por esti utiligita kiel referenco, prefere ol esti legita kiel rakonto.
Multaj el la temoj en tiu ĉapitro ankaŭ estis ripetita en lastatempaj Prezidanta Adresoj ĉe la Amerika Asocio de Publika Opinio Esploro (AAPOR), kiel Dillman (2002) , Newport (2011) , Santos (2014) , kaj Link (2015) .
Por pli historia fono pri la evoluo de enketo esplorado, vidu Smith (1976) kaj Converse (1987) . Por pli sur la ideo de tri epokoj de enketo esplorado, vidu Groves (2011) kaj Dillman, Smyth, and Christian (2008) (kiu rompas la tri epokoj iomete malsame).
A beko ene la transiro de la unua al la dua epoko en enketo esplorado estas Groves and Kahn (1979) , kiu faras detalan ĉef-al-kapo komparo inter vizaĝo-al-vizaĝo kaj telefona enketo. Brick and Tucker (2007) aspektas reen ĉe la historia evoluo de hazardaj cifera markante specimenanta metodojn.
Por pli kiel enketo esploroj ŝanĝis en la pasinteco en respondo al ŝanĝoj en socio, vidu Tourangeau (2004) , Mitofsky (1989) , kaj Couper (2011) .
Lerni pri internaj statoj Petante demandoj povas esti problema ĉar kelkfoje la respondintoj mem ne konscias pri siaj internaj statoj. Ekzemple, Nisbett and Wilson (1977) havas mirindan paperon kun la elvokiva titolo: "Rakontante pli ol ni povas scii: Parola raportoj sur mensaj procezoj." En la papero la aŭtoroj konkludas: "temoj estas foje (a) nekonscia pri la ekzisto de stimulo kiuj grave influis respondo, (b) nekonscia pri la ekzisto de la respondo, kaj (c) nekonscia ke la stimulo afekciis la respondo. "
Por argumentoj kiuj esploristoj preferus observita konduto raportita konduto aŭ sintenoj, vidu Baumeister, Vohs, and Funder (2007) (psikologio) kaj Jerolmack and Khan (2014) kaj respondojn (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologio). La diferenco inter demandanta kaj observante ankaŭ ekestas en ekonomiko, kie esploristoj paroli pri deklaris kaj rivelis preferoj. Ekzemple, esploristo povus demandi respondantoj ĉu ili preferas manĝi glaciaĵon aŭ tuj gimnazio (deklaris preferoj) aŭ la esploro povis observi kiel ofte homoj manĝas glaciaĵon kaj iri al la gimnazio (rivelita preferoj). Ekzistas profunda escepticismo de iuj tipoj de deklaris preferoj datumoj en ekonomiko (Hausman 2012) .
Ĉefa temo de ĉi tiuj debatoj estas kiu raportis konduto estas ne ĉiam precizaj. Sed, aŭtomate registritaj konduto ne povas esti preciza, ne estu kolektita sur provaĵo de intereso, kaj ne povas esti alirebla por esploristoj. Tiel, en iuj situacioj, mi kredas ke raportita konduto povas esti utila. Plui, dua ĉefa temo de ĉi tiuj debatoj estas ke raportoj pri emocioj, scion, atendoj kaj opinioj ne ĉiam preciza. Sed, se informon pri tiuj internaj statoj estas bezonataj de esploristoj-ĉu por helpi klarigi iun konduton aŭ kiel la afero estos klarigita-tiam demandante povas taŭgi.
Por libro longo traktadoj sur totala enketo eraro, vidu Groves et al. (2009) aŭ Weisberg (2005) . Por historio de la evoluo de totala enketo eraro, vidu Groves and Lyberg (2010) .
En terminoj de reprezento, granda enkonduko al la problemoj de ne-respondo kaj ne-respondo emo estas la Nacia Esplora Konsilantaro raporton pri Nonresponse en Socioscienco Enketoj A Research Agendo (2013) . Alia utila superrigardon provizas (Groves 2006) . Ankaŭ, tuta specialaj temoj de la Journal of Official Statistics, Publika Opinio Trimonata kaj La Anales de la Amerika Akademio de Politika kaj Social Science estis eldonitaj sur la temo de ne-respondo. Fine, estas vere multaj malsamaj manieroj de kalkulanta la respondo imposto; tiuj aliroj estas priskribitaj en detalo en raporto de la usona Asocio de Publika Opinio Esploristoj (AAPOR) (Public Opinion Researchers} 2015) .
1936 Literary Digest balotenketo estis studita en detalo (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Ĝi ankaŭ estis uzita kiel parabolo averti kontraŭ hazarda datenkolektado (Gayo-Avello 2011) . En 1936, George Gallup uzis pli kompleksan formon de muestreo, kaj povis produkti pli precizajn taksojn kun multe pli malgranda specimeno. Gallup sukceso super la Literary Digest estis mejloŝtono la disvolviĝo de enketo esploro (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Laŭ mezuro, granda unua rimedo por dizajnado demandaroj estas Bradburn, Sudman, and Wansink (2004) . Por pli progresinta traktado centras specife sur sinteno demandoj, vidu Schuman and Presser (1996) . Pli sur pre-testado demandoj estas havebla en Presser and Blair (1994) , Presser et al. (2004) , kaj ĉapitro 8 de Groves et al. (2009) .
La klasika, libro-longa traktado de la komerco-off inter enketo kostoj kaj enketo eraroj estas Groves (2004) .
Klasika libro-longa traktado de norma probablo muestreo kaj taksado estas Lohr (2009) (pli enkonduka) kaj Särndal, Swensson, and Wretman (2003) (pli progresinta). Klasika libro-longa traktado de post-tavoliĝo kaj rilataj metodoj estas Särndal and Lundström (2005) . En iu cifereca erao agordojn, esploristoj scias tre iom pri ne-respondantoj, kiuj ne ofte vera en la pasinteco. Malsamaj formoj de ne-respondo alĝustigo estas eblaj kiam esploristoj havas informon pri ne-respondintoj (Kalton and Flores-Cervantes 2003; Smith 2011) .
Xbox studo de Wang et al. (2015) uzas teknikon nomita multinivel malprogreso kaj post-tavoliĝo (MRP, kelkfoje nomita "Mister P") kiu permesas al esploristoj taksi ĉelo signifas eĉ kiam estas multaj, multaj ĉeloj. Kvankam ekzistas iu debato ĉirkaŭ la kvalito de la taksoj de ĉi tiu tekniko, ĝi similas promesplena areo por esplori. La tekniko unue estis uzita en Park, Gelman, and Bafumi (2004) , kaj estis postaj uzo kaj debato (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Por pli sur la rilato inter individuaj pezoj kaj ĉelo-bazita pezoj vidos Gelman (2007) .
Por aliaj aliroj al ponderación retejo enketoj, vidu Schonlau et al. (2009) , Valliant and Dever (2011) , kaj Bethlehem (2010) .
Specimeno trafaj estis proponita de Rivers (2007) . Bethlehem (2015) argumentas ke la agado de specimeno trafaj fakte estos simila al aliaj muestreo aliroj (ekz estratificadas muestreo) kaj aliaj ĝustigu aliroj (ekzemple post-tavoliĝo). Por pli sur rete paneloj, vidu Callegaro et al. (2014) .
Kelkfoje esploristoj trovis ke probablo specimenoj kaj ne-probablo specimenoj cedas taksoj de simila kvalito (Ansolabehere and Schaffner 2014) , sed aliaj komparoj trovis ke ne-probablo specimenoj malbone (Malhotra and Krosnick 2007; Yeager et al. 2011) . Ebla kialo de tiuj diferencoj estas ke ne-probablo specimenoj plibonigis super tempo. Por pli pesimisma vidpunkto de ne-probablo muestreo metodoj vidu la la AAPOR Specialtrupo sur Non-probablo Sampling (Baker et al. 2013) , kaj mi ankaŭ rekomendas legi la komento kiu sekvas la resumo raporto.
Por meta-analizo sur la efiko de ponderación redukti emo en ne-probablo specimenoj, vidu Tablo 2.4 en Tourangeau, Conrad, and Couper (2013) , kiu kondukas la aŭtoroj konkludi "ĝustigas ŝajnas esti utilaj sed falible korektojn. . . "
Conrad and Schober (2008) disponigas redaktis volumon titolita antaŭvidante la Enketo Intervjuo de la Estonteco, kaj ĝi traktas multajn el la temoj en ĉi tiu sekcio. Couper (2011) traktas similajn temojn, kaj Schober et al. (2015) proponas belan ekzemplon de kiel datumoj kolekto metodoj kiu estas adaptita al nova fikso povas rezultigi pli alta kvalito datumoj.
Por alia interesa ekzemplo de uzante Facebook apps por socioscienco enketoj, vidu Bail (2015) .
Por pli konsiloj sur farante enketoj ĝua kaj valora sperto por partoprenantoj, vidu laboro sur la Detala Dezajno Metodo (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) proponas libron longo traktado de ekologia momenta takso kaj rilataj metodoj.
Judson (2007) priskribis la procezon de kombinado enketoj kaj administrajn datumojn kiel "informo integriĝon,« diskutas kelkaj avantaĝoj de tiu aliro, kaj proponas ekzemplojn.
Alia vojo ke esploristoj povas uzi ciferecajn pulbazarojn kaj administraj datumoj estas specimenanta kadro por personoj kun specifaj karakterizaĵoj. Tamen, aliri tiujn rekordojn esti uzita specimeno kadro povas ankaŭ krei demandojn rilate al privateco (Beskow, Sandler, and Weinberger 2006) .
Koncerne amplifita demandante, tiu aliro ne estas tiel nova kiel gxi montrigxu de kiel mi priskribis ĝin. Tiu aliro havas profundajn ligojn al tri grandaj areoj en statistiko-modelo bazita post-tavoliĝo (Little 1993) , imputación (Rubin 2004) , kaj malgranda areo taksado (Rao and Molina 2015) . Ĝi ankaŭ estas rilatita al la uzo de surogata variabloj en medicina esploro (Pepe 1992) .
Krom la etikaj temoj koncerne alirante la diĝita spuro datumoj, amplifita demandante povus ankaŭ esti uzita por konkludi sentema trajtoj kiujn homoj eble ne elektas riveli en enketo (Kosinski, Stillwell, and Graepel 2013) .
La kosto kaj tempo taksoj en Blumenstock, Cadamuro, and On (2015) rilatas pli al ŝanĝiĝema kosto-la kosto de unu aldona enketo-kaj ne inkludas fiksaj kostoj kiel ekzemple la kosto por purigi kaj procesi la alvoko datumoj. Ĝenerale, amplifita demandante verŝajne havas altan fiksaj kostoj kaj malaltaj ŝanĝiĝemaj kostoj simila al cifereca eksperimentoj (vidu Ĉapitro 4). Pli detaloj sur la datumoj uzitaj en Blumenstock, Cadamuro, and On (2015) papero estas Blumenstock and Eagle (2010) kaj Blumenstock and Eagle (2012) . Alproksimiĝojn de multoblaj imputuation (Rubin 2004) povus helpi kapto necerteco en taksoj de amplifita demandante. Se esploristoj farante amplifita petante nur zorgas pri entuta grafoj, prefere ol individua nivelo trajtoj, tiam la aliroj en King and Lu (2008) kaj Hopkins and King (2010) povas esti utila. Por pli sur la maŝina lerno aliroj en Blumenstock, Cadamuro, and On (2015) , vidu James et al. (2013) (pli enkonduka) aŭ Hastie, Tibshirani, and Friedman (2009) (pli progresinta). Alia populara maŝino lernado lernolibro estas Murphy (2012) .
Koncerne riĉigita demandante, la rezultoj en Ansolabehere kaj Hersh (2012) ĉarniro sur du ŝlosilaj paŝoj: 1) la kapablo de Catalist kombini multajn malsimilajn datumoj fontoj produkti preciza mastro datafile kaj 2) la kapablo de Catalist ligi la enketon datumoj lia mastro datafile. Do Ansolabehere kaj Hersh kontrolu ĉiun de ĉi tiuj paŝoj atente.
Krei la mastro datafile, Catalist kombinas kaj harmoniigas informoj el multaj malsamaj fontoj inkluzive: multnombraj registroj de balotado instantáneas de ĉiu stato, datumoj de la Poŝtejo la Nacia Ŝanĝo de Adreso Registro, kaj datumoj de aliaj nespecifitaj komercaj provizantoj. La sangriento detaloj pri kiel ĉiuj ĉi pureco kaj fuziado okazas estas preter la kadro de tiu libro, sed tiu procezo, kiel ajn zorgema, estos propagi eraroj en la originala datumoj fontoj kaj enkondukos eraroj. Kvankam Catalist pretis diskuti lian datumtraktado kaj havigi iuj de liaj krudaj datumoj, ĝi estis simple neebla por esploristoj revizii la tutan Catalist datumoj dukto. Prefere, la esploristoj estis en situacio kie la Catalist datumoj dosiero havis iuj nekonataj, eble nekonebla, kvanto de eraro. Jen serioza maltrankvilo ĉar kritikisto povus spekuli ke la grandaj diferencoj inter la enketo raportojn pri la CCES kaj la konduto en la Catalist mastro datumoj dosiero estis kaŭzita de eraroj en la mastro datumoj dosieron, ne per misreporting de respondantoj.
Ansolabehere kaj Hersh prenis du malsamajn alirojn al traktanta la datumojn kvalito zorgo. Unue, krom komparante sin raportis balotado por voĉdoni en la Catalist mastro dosieron, la investigadores ankaŭ komparis sin raportis partio, raso, balotantregistrado statuso (ekz, registrita aŭ ne registrita) kaj balotado metodo (ekz, en persono, ausente baloto, ktp) al tiuj valoroj trovitaj en la Catalist datumbazoj. Tiuj kvar demografiaj variabloj, la esploristoj trovis multe pli altaj niveloj de interkonsento inter enketo raporto kaj datumoj en la Catalist mastro dosiero ol por voĉdoni. Tiel, la Catalist mastro datumoj dosiero ŝajnas havi altan kvaliton informo por trajtoj krom voĉdonado, sugestante ke ĝi estas ne de malriĉa ĝenerala kvalito. Dua, en parto uzante datumoj de Catalist, Ansolabehere kaj Hersh disvolvis tri malsamajn mezurojn de kvalito de graflando registroj de balotado, kaj ili trovis ke la laŭtaksa indico de super-raportado de balotado estis esence senrilataj al iuj da tiuj datumoj kvalito mezuroj, trovo ke sugestas ke la altaj impostoj de super-raportado ne estas estanta veturita de graflandoj kun nekutime malalta datumoj kvalito.
Donita la kreo de tiu mastro balotado dosieron, la dua fonto de potencial eraroj estas kunligi la enketo rekordojn al ĝi. Ekzemple, se tiu ligo estas farita malĝuste ĝi povus konduki al super-takso de la diferenco inter raportis kaj validigita balotado konduto (Neter, Maynes, and Ramanathan 1965) . Se ĉiu persono havis stabilan, unika identigilo kiu estis en ambaŭ datumoj fontoj, tiam ligo estus bagatela. En Usono kaj multaj aliaj landoj, tamen, ne ekzistas universala ensalutilo. Plu, eĉ se estis tia ensalutilo popolo versxajne duden sciigi ĝin al inspekti esploristoj! Tiel, Catalist devis fari la ligo uzante neperfekta identigiloj, tiukaze kvar pecoj de informo pri ĉiu respondanto: nomo, sekso, naskiĝo jaro, kaj hejmo adreso. Ekzemple, Catalist devis decidi se la Homie J Simpson en la CCES estis la sama persono kiel la Homer Jay Simpson en ties mastro datumoj dosiero. Praktike, trafaj estas malfacila kaj senorda procezo, kaj, por pli inri por la esploristoj, Catalist konsiderita lia trafa tekniko esti proprieta.
Por validigi la trafaj algoritmoj, ili apogis sin sur du defiojn. Unue Catalist partoprenis trafa konkurado kiu estis prizorgita fare de sendependa, triaj: la MITRE Corporation. MITRE provizita ĉiuj partoprenantoj du brua datumoj dosierojn por esti parigitaj, kaj malsamaj teamoj konkuris reveni al MITRE la plej trafa. Ĉar MITRE mem konis la korektan trafaj ili povis trafi la teamoj. De la 40 entreprenoj kiuj konkuris, Catalist venis en dua loko. Tiu speco de sendependa, triaj pritakso de proprieta teknologio estas sufiĉe malofta kaj nekredeble valora; ĝi devus doni al ni konfidon ke Catalist la trafaj proceduroj estas esence la stato-de-la-arto. Sed estas la stato-de-la-arto sufiĉe bona? Krom ĉi trafa konkurado, Ansolabehere kaj Hersh kreis iliajn proprajn trafaj defio por Catalist. De pli frua projekto, Ansolabehere kaj Hersh kolektis voĉdonanto registroj de Florido. Ili disponigis kelkajn el tiuj registroj kun kelkaj el siaj kampoj redaktitaj por Catalist kaj tiam komparitaj Catalist raportoj de tiuj kampoj al iliaj efektivaj valoroj. Feliĉe, Catalist raportoj estis proksimaj al la retenitaj valoroj, indikante ke Catalist povus kongrui parta voĉdonanto rekordojn sur sia sinjoro datumoj dosiero. Tiuj du defioj, unu de triaj kaj de Ansolabehere kaj Hersh, donas al ni pli da konfido en la Catalist trafaj algoritmoj, kvankam ni ne povas revizii sian ĝusta apliko mem.
Estis multaj antaŭaj provoj por validigi balotado. Por superrigardon de tiu literaturo, vidu Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , kaj Hanmer, Banks, and White (2014) .
Estas grave noti, ke kvankam en tiu kazo esploristoj estis kuraĝigita de la kvalito de la datumoj de Catalist, aliaj evaluaciones de komercaj vendistoj estis malpli entuziasma. Esploristoj trovis malbonkvalitaj kiam datumoj de enketo por konsumanto-dosiero de Marketing Systems Group (kiu mem kunfalis kune datumojn de tri provizantoj: Acxiom, Experian kaj InfoUSA) (Pasek et al. 2014) . Te, la datumoj dosiero ne kongruas enketo respondojn kiujn esploristoj atendita esti ĝentilaj, la datafile estis mankanta datumojn por granda nombro de demandoj, kaj la mankanta datumojn padrono estis korelaciita al raportis enketon valoro (alivorte la mankantajn datumojn estis sistema , ne hazarda).
Por pli sur rekordo ligo inter enketoj kaj administraj datumoj, vidu Sakshaug and Kreuter (2012) kaj Schnell (2013) . Por pli sur rekordo ligo ĝenerale, vidu Dunn (1946) kaj Fellegi and Sunter (1969) (historia) kaj Larsen and Winkler (2014) (moderna). Similaj aliroj ankaŭ estis disvolvita en komputiko sub la nomoj kiel datumoj deduplication, ekzemple identigo, nomo trafaj, duplikato detekto, kaj duobligi rekordo detekto (Elmagarmid, Ipeirotis, and Verykios 2007) . Ekzistas ankaŭ privateco konservi alproksimiĝojn gravuri ligo kiu ne postulas la transdonon de personan informon (Schnell 2013) . Esploristoj ĉe Facebook disvolvis proceduron por probabilisticsly ligas iliajn rekordojn por balotado konduto (Jones et al. 2013) ; tiu ligo estis farita por taksi eksperimenton kiu Mi diros al vi pri en Ĉapitro 4 (Bond et al. 2012) .
Alia ekzemplo de kunligi grandskala socia enketo al registaro administraj registroj devenas la Sano kaj Retirement Survey kaj la Socia Sekureco Administrado. Por pli sur tiu studo, inkluzive de informoj pri la konsento proceduro, vidu Olson (1996) kaj Olson (1999) .
La procezo de kombinado multaj fontoj de administraj registroj en majstra datafile-la procezo kiu Catalist oficistoj-estas komuna en la statistikaj oficejoj de kelkaj naciaj registaroj. Du investigadores de Statistiko Svedio skribis detalan libron pri la temo (Wallgren and Wallgren 2007) . Por ekzemplo de tiu aliro en sola distrikto en Usono (Olmstead County, Minesoto, hejme de la Mayo Clinic), vidu Sauver et al. (2011) . Por pli sur eraroj kiu povas aperi en administraj registroj, vidu Groen (2012) .