Många av teman i detta kapitel har också blivit ekade i de senaste presidentadresserna vid American Association of Public Opinion Research (AAPOR), som de som Dillman (2002) , Newport (2011) , Santos (2014) och Link (2015) .
För mer om skillnaderna mellan undersökningsforskning och djupintervjuer, se Small (2009) . När det gäller djupintervjuer är en familj av metoder som kallas etnografi. I etnografisk forskning spenderar forskare generellt mycket mer tid med deltagare i sin naturliga miljö. För mer om skillnaderna mellan etnografi och djupintervjuer, se Jerolmack and Khan (2014) . För mer om digital etnografi, se Pink et al. (2015) .
Min beskrivning av undersökningsforskningens historia är alldeles för kort för att inkludera många av de spännande utveckling som har ägt rum. För mer historisk bakgrund, se Smith (1976) , Converse (1987) och Igo (2008) . För mer om idén om tre erasundersökningar, se Groves (2011) och Dillman, Smyth, and Christian (2008) (som bryter upp de tre ererna något annorlunda).
Groves and Kahn (1979) ger en titt i övergången från första till andra epoken i undersökningsundersökningen genom att göra en detaljerad jämförelse mellan ansikte mot ansikte och telefon. ( ??? ) se tillbaka på den historiska utvecklingen av slumpmässiga uppringningsmetoder.
För mer om hur undersökningsforskningen har förändrats tidigare i samband med förändringar i samhället, se Tourangeau (2004) , ( ??? ) och Couper (2011) .
Styrkorna och svagheterna att fråga och observera har diskuterats av psykologer (t.ex. Baumeister, Vohs, and Funder (2007) ) och sociologer (t.ex. Jerolmack and Khan (2014) ; Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) , Jerolmack and Khan (2014) . Skillnaden mellan frågar och observationer uppstår också i ekonomin där forskare pratar om uttalade och avslöjade preferenser. Till exempel kan en forskare fråga respondenterna om de föredrar att äta glass eller gå på gymmet (angivna preferenser), eller kan observera hur ofta människor äter glass och gå till gymmet (avslöjade preferenser). Det finns djup skepsis om vissa typer av angivna preferensdata i ekonomi som beskrivs i Hausman (2012) .
Ett huvudtema från dessa debatter är att rapporterat beteende inte alltid är korrekt. Men, som beskrivits i kapitel 2, kan stora datakällor inte vara korrekta, de får inte samlas in på ett intresseprov, och de kan inte vara tillgängliga för forskare. Således tror jag att i vissa situationer kan rapporterat beteende vara användbart. Vidare är ett andra huvudtema från dessa debatter att rapporter om känslor, kunskaper, förväntningar och åsikter inte alltid är korrekta. Men om information om dessa interna tillstånd behövs av forskare, antingen för att hjälpa till att förklara något beteende eller som en sak att förklara, så frågar det kanske vara lämpligt. Naturligtvis kan det vara problematiskt att lära sig interna tillstånd genom att ställa frågor, eftersom respondenterna ibland inte är medvetna om sina interna tillstånd (Nisbett and Wilson 1977) .
Groves (2004) kapitel 1 Groves (2004) gör ett utmärkt jobb för att förena den ibland inkonsekventa terminologin som undersökningsforskare använder för att beskriva den totala undersökningsfelramen. För en boklängdsbehandling av den totala undersökningsfelramen, se Groves et al. (2009) , och för en historisk översikt, se Groves and Lyberg (2010) .
Tanken att sönderfalla fel i bias och varians kommer också upp i maskininlärning; se till exempel avsnitt 7.3 i Hastie, Tibshirani, and Friedman (2009) . Detta leder ofta till att forskare talar om en "bias-variance" -avvägning.
När det gäller representation, är en bra introduktion till frågorna om icke-respons och icke-reflekterande bias det nationella forskningsrådets rapport Nonresponse in Social Science Surveys: En forskningsagenda (2013) . En annan användbar översikt tillhandahålls av Groves (2006) . Dessutom har hela specialfrågorna i Journal of Official Statistics , Public Opinion Quarterly och Annals of the American Academy of Political and Social Science publicerats på frågan om svar. Slutligen finns det faktiskt många olika sätt att beräkna svarfrekvensen; Dessa tillvägagångssätt beskrivs i detalj i en rapport från The American Association of Public Opinion Researchers (AAPOR) ( ??? ) .
För mer om den 1936 litterära digestundersökningen , se Bryson (1976) , Squire (1988) , Cahalan (1989) och Lusinchi (2012) . För en annan diskussion om denna undersökning som en likabehandling mot slumpmässig datainsamling, se Gayo-Avello (2011) . År 1936 använde George Gallup en mer sofistikerad form av provtagning och kunde producera mer exakta uppskattningar med ett mycket mindre prov. Gallups framgång över det litterära digestet var en milstolpe i utvecklingen av undersökningsforskningen som beskrivs i kapitel 3 i @ converse_survey_1987; kapitel 4 i Ohmer (2006) ; och kapitel 3 av @ igo_averaged_2008.
När det gäller mätning är en bra första resurs för utformning av frågeformulär Bradburn, Sudman, and Wansink (2004) . För mer avancerade behandlingar, se Schuman and Presser (1996) , som specifikt fokuserar på attitydfrågor, och Saris and Gallhofer (2014) , vilket är mer allmänt. En något annorlunda mätmetod tas i psykometri, som beskrivs i ( ??? ) . Mer om pretesting finns i Presser and Blair (1994) , Presser et al. (2004) och kapitel 8 i Groves et al. (2009) . För mer om undersökningsexperiment, se Mutz (2011) .
När det gäller kostnad är den klassiska boklängdsbehandlingen av avvägningen mellan undersökningskostnader och undersökningsfel Groves (2004) .
Två klassiska boklängdsbehandlingar med standard sannolikhetsprovtagning och uppskattning är Lohr (2009) (mer inledande) och Särndal, Swensson, and Wretman (2003) (mer avancerad). En klassisk boklängdshantering efter stratifieringen och relaterade metoder är Särndal and Lundström (2005) . I vissa digitala åldersinställningar vet forskare ganska lite om icke-respondenter, vilket inte alltid var sant i det förflutna. Olika former av icke-responsjustering är möjliga när forskare har information om icke-respondenter, vilket beskrivs av Kalton and Flores-Cervantes (2003) och Smith (2011) .
Xbox-studien av W. Wang et al. (2015) använder en teknik som heter multi-level regression och post-stratification ("Mr. P.") som gör det möjligt för forskare att uppskatta gruppmedlemmar även när det finns många, många grupper. Även om det finns en del debatt om kvaliteten på uppskattningarna från denna teknik, verkar det som ett lovande område att utforska. Tekniken användes första gången i Park, Gelman, and Bafumi (2004) , och sedan har det använts och diskuterats (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . För mer om kopplingen mellan individuella vikter och gruppvikter, se Gelman (2007) .
För andra metoder för viktning av webbundersökningar, se Schonlau et al. (2009) , Bethlehem (2010) och Valliant and Dever (2011) . Online-paneler kan använda antingen sannolikhetsprovtagning eller icke-sannolikhetsprovtagning. För mer på online paneler, se Callegaro et al. (2014) .
Ibland har forskare funnit att sannolikhetsprover och icke-sannolikhetsprov ger uppskattningar av liknande kvalitet (Ansolabehere and Schaffner 2014) , men andra jämförelser har visat att icke-sannolikhetsprover försämras (Malhotra and Krosnick 2007; Yeager et al. 2011) . En möjlig orsak till dessa skillnader är att icke-sannolikhetsprover har förbättrats över tiden. För en mer pessimistisk syn på provtagningsmetoder utan sannolikhet, se AAPOR-arbetsgruppen för provtagning av sannolikhet (Baker et al. 2013) , och jag rekommenderar också att du läser kommentaren som följer sammanfattningsrapporten.
Conrad and Schober (2008) är en redigerad volym med titeln Envisioning Survey Interview of the Future , och den erbjuder en mängd olika synpunkter på framtiden att ställa frågor. Couper (2011) behandlar liknande teman, och Schober et al. (2015) ger ett bra exempel på hur datainsamlingsmetoder som är anpassade till en ny inställning kan leda till högre kvalitetsdata. Schober and Conrad (2015) erbjuder ett mer allmänt argument om att fortsätta att justera undersökningsforskningen för att matcha förändringar i samhället.
Tourangeau and Yan (2007) granskar frågor om socialt önskvärt bias i känsliga frågor, och Lind et al. (2013) erbjuder några möjliga skäl till varför folk kan avslöja mer känslig information i en datoradministrerad intervju. För mer om de mänskliga intervjuarnas roll för att öka deltagandet i undersökningar, se Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) och Schaeffer et al. (2013) . För mer om mixed-mode undersökningar, se Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) erbjuder en boklängdsbehandling av ekologisk momentan bedömning och relaterade metoder.
För mer råd om att göra undersökningar till en trevlig och värdefull upplevelse för deltagare, se arbete på skräddarsydd designmetod (Dillman, Smyth, and Christian 2014) . För ett annat intressant exempel på att använda Facebook-appar för sociala vetenskapliga undersökningar, se Bail (2015) .
Judson (2007) beskriver processen för att kombinera undersökningar och administrativa data som "informationsintegration" och diskuterar vissa fördelar med detta tillvägagångssätt, samt ger några exempel.
När det gäller berikad fråga har det varit många tidigare försök att validera omröstningen. För en översikt över den litteraturen, se Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , och Berent, Krosnick, and Lupia (2016) . Se Berent, Krosnick, and Lupia (2016) för en mer skeptisk syn på resultaten som presenteras i Ansolabehere and Hersh (2012) .
Det är viktigt att notera att även om Ansolabehere och Hersh uppmuntrades av kvaliteten på data från katalisten, har andra utvärderingar av kommersiella leverantörer varit mindre entusiastiska. Pasek et al. (2014) fann dålig kvalitet när data från en undersökning jämfördes med en konsumentfil från Marketing Systems Group (som själv sammanfogade data från tre leverantörer: Acxiom, Experian och InfoUSA). Dvs. datafilen matchade inte undersökningssvar som forskare förväntade sig vara korrekta, konsumentfilen saknade data för ett stort antal frågor och det saknade datamönstret var korrelerat med det rapporterade undersökningsvärdet (med andra ord den saknade data var systematisk, inte slumpmässig).
För mer om rekordkoppling mellan undersökningar och administrativa data, se Sakshaug and Kreuter (2012) och Schnell (2013) . För mer om rekordkoppling i allmänhet, se Dunn (1946) och Fellegi and Sunter (1969) (historia) och Larsen and Winkler (2014) (modern). Liknande tillvägagångssätt har också utvecklats inom datavetenskap med namn som dataduplikering, förekomstidentifiering, namnmatchning, duplicatdetektering och duplikatrekorddetektering (Elmagarmid, Ipeirotis, and Verykios 2007) . Det finns också sekretessbevarande tillvägagångssätt för att registrera länk som inte kräver överföring av personidentifierande uppgifter (Schnell 2013) . Forskare på Facebook utvecklade ett förfarande för att probabilistiskt koppla sina register till röstbeteende (Jones et al. 2013) ; Denna koppling gjordes för att utvärdera ett experiment som jag ska berätta om i kapitel 4 (Bond et al. 2012) . För mer om att få samtycke till rekordkoppling, se Sakshaug et al. (2012) .
Ett annat exempel på att länka en storskalig social undersökning till regeringens administrativa register kommer från hälso- och pensionsundersökningen och socialförsäkringsverket. För mer om den studien, inklusive information om samtyckesförfarandet, se Olson (1996, 1999) .
Processen att kombinera många källor till administrativa register i en masterdatafil - den process som katalist anställer - är vanlig i statistikbyrån för vissa nationella regeringar. Två forskare från SCB har skrivit en detaljerad bok om ämnet (Wallgren and Wallgren 2007) . För ett exempel på detta tillvägagångssätt i ett enda län i USA (Olmstead County, Minnesota, Mayo Clinics hem), se Sauver et al. (2011) . För mer om fel som kan förekomma i administrativa register, se Groen (2012) .
Ett annat sätt på vilket forskare kan använda stora datakällor i undersökningsforskningen är som en samplingsram för personer med specifika egenskaper. Tyvärr kan detta tillvägagångssätt ge upphov till frågor som rör privatlivet (Beskow, Sandler, and Weinberger 2006) .
När det gäller förstärkt frågar är detta tillvägagångssätt inte lika nytt som det kan framgå av hur jag har beskrivit det. Den har djupa kopplingar till tre stora områden i statistik: modellbaserad efterlagring (Little 1993) , imputation (Rubin 2004) och liten arealberäkning (Rao and Molina 2015) . Det är också relaterat till användningen av surrogatvariabler inom medicinsk forskning (Pepe 1992) .
Kostnads- och tidsuppskattningarna i Blumenstock, Cadamuro, and On (2015) hänvisar mer till rörlig kostnad - kostnaden för en ytterligare undersökning - och inkluderar inte fasta kostnader, såsom kostnaderna för rengöring och bearbetning av samtalsuppgifterna. I allmänhet kommer förstärkt frågar sannolikt att ha höga fasta kostnader och låga rörliga kostnader som liknar de digitala experimenten (se kapitel 4). För mer om mobilbaserade undersökningar i utvecklingsländer, se Dabalen et al. (2016) .
För idéer om hur man förstärker fråga bättre, skulle jag rekommendera att lära mig mer om flera imputation (Rubin 2004) . Om forskare som gör förstärkt frågar sig om aggregerade räkningar, snarare än individuella egenskaper, kan tillvägagångssätten i King and Lu (2008) och Hopkins and King (2010) vara användbara. Slutligen, för mer om maskininlärningsmetoderna i Blumenstock, Cadamuro, and On (2015) , se James et al. (2013) (mer inledande) eller Hastie, Tibshirani, and Friedman (2009) (mer avancerad).
En etisk fråga om förstärkt frågar är att det kan användas för att utgå från känsliga egenskaper som folk kanske inte väljer att avslöja i en undersökning som beskrivs i Kosinski, Stillwell, and Graepel (2013) .