Mange af temaerne i dette kapitel er også blevet ekkoet i de seneste præsidentadresser ved American Association of Public Opinion Research (AAPOR), som dem fra Dillman (2002) , Newport (2011) , Santos (2014) og Link (2015) .
For mere om forskellene mellem undersøgelser og dybdeinterviews, se Small (2009) . I forbindelse med dybdeinterviews er en familie af tilganger kaldet etnografi. I etnografisk forskning bruger forskere generelt meget mere tid med deltagere i deres naturlige miljø. For mere om forskellene mellem etnografi og dybtgående interviews, se Jerolmack and Khan (2014) . For mere om digital etnografi, se Pink et al. (2015) .
Min beskrivelse af undersøgelsens historie er alt for kort til at omfatte mange af de spændende udviklinger, der har fundet sted. For mere historisk baggrund, se Smith (1976) , Converse (1987) og Igo (2008) . For mere om ideen om tre eraser af undersøgelsesforskning, se Groves (2011) og Dillman, Smyth, and Christian (2008) (som opbryder de tre eraser lidt anderledes).
Groves and Kahn (1979) giver et kig indenfor overgangen fra første til anden æra i undersøgelser ved at lave en detaljeret sammenligning mellem ansigt til ansigt og telefonundersøgelse. ( ??? ) se tilbage på den historiske udvikling af tilfældige cifrede opkaldsmetoder.
For mere om, hvordan undersøgelsen har ændret sig tidligere i forbindelse med ændringer i samfundet, se Tourangeau (2004) , ( ??? ) og Couper (2011) .
Baumeister, Vohs, and Funder (2007) og svaghederne ved at spørge og observere er blevet debatteret af psykologer (f.eks. Baumeister, Vohs, and Funder (2007) ) og sociologer (f.eks. Jerolmack and Khan (2014) ; Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) , Jerolmack and Khan (2014) ] Forskellen mellem spørger og observerer opstår også i økonomi, hvor forskere taler om angivne og afslørede præferencer. For eksempel kan en forsker spørge respondenterne, om de foretrækker at spise is eller gå i gymnastiksalen (angivne præferencer) eller kunne observere, hvor ofte folk spiser is og går i gymnastiksalen (afslørede præferencer). Der er dyb skepsis over bestemte typer af angivne præferencesdata i økonomi som beskrevet i Hausman (2012) .
Et hovedtema fra disse debatter er, at rapporteret adfærd ikke altid er korrekt. Men som beskrevet i kapitel 2 er store datakilder muligvis ikke korrekte, de må ikke indsamles på en stikprøve af interesse, og de er muligvis ikke tilgængelige for forskere. Således tror jeg, at rapporterede opførsel i nogle tilfælde kan være nyttige. Endvidere er et andet hovedtema fra disse debatter, at rapporter om følelser, viden, forventninger og meninger ikke altid er korrekte. Men hvis der kræves oplysninger om disse interne tilstande af forskere - enten for at hjælpe med at forklare en vis adfærd eller som det, der skal forklares - så spørger det måske. Selvfølgelig kan det være problematisk at lære om interne stater ved at stille spørgsmål, fordi de sommetider ikke selv er opmærksomme på deres interne tilstande (Nisbett and Wilson 1977) .
Chapter 1 of Groves (2004) gør et fremragende arbejde, der afstemmer den lejlighedsvis inkonsekvente terminologi, som undersøgelsesforskere bruger til at beskrive den samlede undersøgelsesfejlramme. For en boglængdesbehandling af den samlede undersøgelsesfejlramme, se Groves et al. (2009) , og for et historisk overblik, se Groves and Lyberg (2010) .
Ideen om at dekomponere fejl i bias og variance kommer også op i maskinindlæring; se for eksempel afsnit 7.3 af Hastie, Tibshirani, and Friedman (2009) . Dette fører ofte forskere til at snakke om en "bias-variance" trade-off.
Med hensyn til repræsentation er en stor introduktion til spørgsmålene om nonresponse og nonresponse bias National Research Councils rapport Nonresponse i Social Science Surveys: En forskningsdagsorden (2013) . Et andet nyttigt oversigt er givet af Groves (2006) . Desuden er alle særlige spørgsmål i Journal of Official Statistics , Public Opinion Quarterly og Annals of the American Academy of Political and Social Science blevet offentliggjort om emnet for manglende reaktion. Endelig er der faktisk mange forskellige måder at beregne svarhastigheden på; Disse fremgangsmåder er beskrevet detaljeret i en rapport fra The American Association of Public Opinion Researchers (AAPOR) ( ??? ) .
For mere om 1936 Literary Digest- afstemningen, se Bryson (1976) , Squire (1988) , Cahalan (1989) og Lusinchi (2012) . For en anden diskussion af denne afstemning som en lignelsesadvarsel mod tilfældig dataindsamling, se Gayo-Avello (2011) . I 1936 brugte George Gallup en mere sofistikeret form for prøveudtagning og kunne producere mere præcise estimater med en meget mindre prøve. Gallups succes over den litterære digest var en milepæl i udviklingen af undersøgelsesforskning som beskrevet i kapitel 3 af @ converse_survey_1987; kapitel 4 i Ohmer (2006) ; og kapitel 3 af @ igo_averaged_2008.
Med hensyn til måling er en stor første ressource til udformning af spørgeskemaer Bradburn, Sudman, and Wansink (2004) . For mere avancerede behandlinger, se Schuman and Presser (1996) , der specifikt fokuserer på holdningsspørgsmål, og Saris and Gallhofer (2014) , som er mere generel. En lidt anden tilgang til måling er taget i psykometri, som beskrevet i ( ??? ) . Mere om pretesting er tilgængelig i Presser and Blair (1994) , Presser et al. (2004) og kapitel 8 i Groves et al. (2009) . For mere om undersøgelseseksperimenter, se Mutz (2011) .
Med hensyn til omkostningerne er den klassiske booklængdebehandling af afvejningen mellem undersøgelsesomkostninger og undersøgelsesfejl Groves (2004) .
To klassiske boglængdesbehandlinger af standard sandsynlighedsprøvetagning og estimering er Lohr (2009) (mere indledende) og Särndal, Swensson, and Wretman (2003) (mere avanceret). En klassisk boglængdesbehandling af Särndal and Lundström (2005) relaterede metoder er Särndal and Lundström (2005) . I nogle digitale aldersindstillinger kender forskere en hel del om ikke-respondenter, hvilket ikke ofte var tilfældet i fortiden. Forskellige former for ikke-responsjustering er mulige, når forskere har oplysninger om ikke-korrespondenter, som beskrevet af Kalton and Flores-Cervantes (2003) og Smith (2011) .
Xbox-undersøgelsen af W. Wang et al. (2015) bruger en teknik kaldet regenerering af flere niveauer og post-stratification ("Mr. P."), der gør det muligt for forskere at estimere gruppemedlemmer selv når der er mange, mange grupper. Selv om der er nogen debat om kvaliteten af estimaterne fra denne teknik, ser det ud som et lovende område at udforske. Teknikken blev først brugt i Park, Gelman, and Bafumi (2004) , og der har været efterfølgende brug og debat (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . For mere om sammenhængen mellem individuelle vægte og gruppevægte, se Gelman (2007) .
For andre metoder til vægtning af webundersøgelser, se Schonlau et al. (2009) , Bethlehem (2010) og Valliant and Dever (2011) . Online paneler kan bruge enten sandsynlighedsprøvetagning eller ikke-sandsynlighedsprøvetagning. For mere om online paneler, se Callegaro et al. (2014) .
Nogle gange har forskere fundet ud af, at sandsynlighedsprøver og ikke-sandsynlighedsprøver giver estimater af tilsvarende kvalitet (Ansolabehere and Schaffner 2014) , men andre sammenligninger har vist, at ikke-sandsynlighedsprøver bliver værre (Malhotra and Krosnick 2007; Yeager et al. 2011) . En mulig årsag til disse forskelle er, at ikke-sandsynlighedsprøver er forbedret over tid. For en mere pessimistisk opfattelse af ikke-sandsynlighedsprøvetagningsmetoder, se AAPOR-taskforcen om ikke-sandsynlighedsprøvetagning (Baker et al. 2013) , og jeg anbefaler også at læse kommentaren, der følger med resumérapporten.
Conrad and Schober (2008) er et redigeret volumen med titlen Envisioning Survey Interview of the Future , og det giver en række synspunkter om fremtiden for at stille spørgsmål. Couper (2011) adresserer lignende temaer, og Schober et al. (2015) giver et godt eksempel på, hvordan dataindsamlingsmetoder, der er skræddersyet til en ny indstilling, kan resultere i højere kvalitetsdata. Schober and Conrad (2015) giver et mere generelt argument om fortsat at tilpasse undersøgelsesprocessen for at matche samfundsændringer.
Tourangeau and Yan (2007) gennemgår spørgsmål om social ønskelighed, bias i følsomme spørgsmål, og Lind et al. (2013) giver nogle mulige grunde til, at folk kan udlevere mere følsomme oplysninger i et computeradministreret interview. For mere om de menneskelige interviewers rolle for at øge deltagelsesgraden i undersøgelser, se Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) , og Schaeffer et al. (2013) . For mere om mixed-mode undersøgelser, se Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) tilbyder en boglængdesbehandling af økologisk kortfattet vurdering og relaterede metoder.
For mere råd om at gøre undersøgelser til en fornøjelig og værdifuld oplevelse for deltagerne, se arbejde på den skræddersyede designmetode (Dillman, Smyth, and Christian 2014) . For et andet interessant eksempel på at bruge Facebook apps til samfundsvidenskabsundersøgelser, se Bail (2015) .
Judson (2007) beskriver processen med at kombinere undersøgelser og administrative data som "informationsintegration" og diskuterer nogle fordele ved denne tilgang, samt tilbyder nogle eksempler.
Hvad angår beriget spørgsmålet, har der været mange tidligere forsøg på at validere afstemningen. For en oversigt over den litteratur, se Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) og Berent, Krosnick, and Lupia (2016) . Se Berent, Krosnick, and Lupia (2016) for et mere skeptisk billede af resultaterne præsenteret i Ansolabehere and Hersh (2012) .
Det er vigtigt at bemærke, at selv om Ansolabehere og Hersh blev opmuntret af kvaliteten af data fra Catalist, har andre vurderinger af kommercielle leverandører været mindre entusiastiske. Pasek et al. (2014) fandt dårlig kvalitet, da data fra en undersøgelse blev sammenlignet med en forbrugerfil fra Marketing Systems Group (som selv fusionerede data fra tre udbydere: Acxiom, Experian og InfoUSA). Dvs. datafilen matchede ikke undersøgelsesresponser, som forskerne forventede at være korrekte, forbrugerfilen manglede data for et stort antal spørgsmål, og det manglende datamønster var korreleret med den rapporterede undersøgelsesværdi (dvs. den manglende data var systematisk, ikke tilfældig).
For mere om rekordforbindelse mellem undersøgelser og administrative data, se Sakshaug and Kreuter (2012) og Schnell (2013) . For mere om rekordforbindelse generelt, se Dunn (1946) og Fellegi and Sunter (1969) (historisk) og Larsen and Winkler (2014) (moderne). Lignende fremgangsmåder er også blevet udviklet inden for datalogi under navne som (Elmagarmid, Ipeirotis, and Verykios 2007) , duplikat detektion og duplikat registrering af detektering (Elmagarmid, Ipeirotis, and Verykios 2007) . Der er også privatlivsbeskyttelsesmetoder til registrering af sammenkobling, der ikke kræver overførsel af personidentificerende oplysninger (Schnell 2013) . Forskere på Facebook udviklede en procedure til probabilistisk at forbinde deres optegnelser til afstemningsadfærd (Jones et al. 2013) ; Denne forbindelse blev gjort for at evaluere et eksperiment, som jeg vil fortælle dig om i kapitel 4 (Bond et al. 2012) . For mere om opnåelse af samtykke til rekordforbindelse henvises til Sakshaug et al. (2012) .
Et andet eksempel på at sammenkæde en storstilet social undersøgelse til regeringsadministratorerne er hentet fra Health and Retirement Survey og Social Security Administration. For mere om denne undersøgelse, herunder oplysninger om godkendelsesproceduren, se Olson (1996, 1999) .
Processen med at kombinere mange kilder til administrative poster i en master-datafile - den proces, som Catalyst beskæftiger - er almindelig i de enkelte nationale regeringers statistiske kontorer. To forskere fra SCB har skrevet en detaljeret bog om emnet (Wallgren and Wallgren 2007) . For et eksempel på denne tilgang i et enkelt amt i USA (Olmstead County, Minnesota, Mayo Clinic's hjemsted), se Sauver et al. (2011) . For mere om fejl, der kan vises i administrative poster, se Groen (2012) .
En anden måde, hvorpå forskere kan bruge store datakilder i undersøgelsesundersøgelser, er som en stikprøveramme for personer med specifikke egenskaber. Desværre kan denne tilgang rejse spørgsmål vedrørende privatlivets fred (Beskow, Sandler, and Weinberger 2006) .
Hvad angår forstærket spørger, er denne tilgang ikke så ny, som det kan fremgå af, hvordan jeg har beskrevet det. Den har dybe forbindelser til tre store områder i statistik: modelbaseret postlagdeling (Little 1993) , imputation (Rubin 2004) og lille arealberegning (Rao and Molina 2015) . Det er også relateret til brugen af surrogatvariabler i medicinsk forskning (Pepe 1992) .
Omkostninger og Blumenstock, Cadamuro, and On (2015) i Blumenstock, Cadamuro, and On (2015) henviser mere til variabel pris - omkostningerne ved en yderligere undersøgelse - og inkluderer ikke faste omkostninger som omkostninger ved rengøring og behandling af opkaldsdataene. Generelt vil forstærket spørgsmålet sandsynligvis have høje faste omkostninger og lave variable omkostninger svarende til de digitale eksperimenter (se kapitel 4). For mere om Dabalen et al. (2016) undersøgelser i udviklingslande, se Dabalen et al. (2016) .
For ideer om, hvordan man forstærker, spørger bedre, vil jeg anbefale at lære mere om multiple imputation (Rubin 2004) . Også hvis forskere, der gør forstærkede, spørger om aggregerede tal, snarere end individuelle træk, kan tilgangene i King and Lu (2008) og Hopkins and King (2010) være nyttige. Endelig se James et al. (2013) For mere om maskinindlæringsmetoderne i Blumenstock, Cadamuro, and On (2015) James et al. (2013) (mere indledende) eller Hastie, Tibshirani, and Friedman (2009) (mere avanceret).
Et etisk spørgsmål vedrørende forstærket spørger er, at det kan bruges til at udlede følsomme træk, som folk måske ikke vælger at afsløre i en undersøgelse som beskrevet i Kosinski, Stillwell, and Graepel (2013) .