Mange av temaene i dette kapittelet har også blitt ekkoet i de siste presidentadressene ved American Association of Public Opinion Research (AAPOR), som de som Dillman (2002) , Newport (2011) , Santos (2014) og Link (2015) .
For mer om forskjellene mellom undersøkelsesforskning og dybdeintervjuer, se Small (2009) . I tilknytning til dybdeintervjuer er en familie av tilnærminger kalt etnografi. I etnografisk forskning bruker forskere generelt mye mer tid med deltakere i sitt naturlige miljø. For mer om forskjellene mellom etnografi og dybdeintervjuer, se Jerolmack and Khan (2014) . For mer om digital etnografi, se Pink et al. (2015) .
Min beskrivelse av forskningsundersøkelsens historie er altfor kort for å inkludere mange av de spennende utviklingene som har skjedd. For mer historisk bakgrunn, se Smith (1976) , Converse (1987) og Igo (2008) . For mer om ideen om tre epoker av undersøkelsesforskning, se Groves (2011) og Dillman, Smyth, and Christian (2008) (som bryter opp de tre epokerne litt annerledes).
Groves and Kahn (1979) gir en titt i overgangen fra første til andre epoke i undersøkelsesforskning ved å gjøre en detaljert sammenligning mellom ansikt til ansikt og telefonundersøkelse. ( ??? ) se tilbake på den historiske utviklingen av tilfeldige sifferoppringte prøvetakingsmetoder.
For mer hvordan undersøkelsesforskningen har endret seg tidligere som svar på endringer i samfunnet, se Tourangeau (2004) , ( ??? ) og Couper (2011) .
Styrker og svakheter ved å spørre og observere har blitt debattert av psykologer (f.eks. Baumeister, Vohs, and Funder (2007) ) og sosiologer (f.eks. Jerolmack and Khan (2014) ; Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) , Jerolmack and Khan (2014) . Forskjellen mellom spør og observasjon oppstår også i økonomi, hvor forskere snakker om uttalt og avslørte preferanser. For eksempel kan en forsker spørre respondentene om de foretrekker å spise is eller gå på treningsstudio (angitte preferanser), eller kunne observere hvor ofte folk spiser iskrem og går til treningsstudioet (avslørte preferanser). Det er dyp skepsis om visse typer angitte preferansedata i økonomi som beskrevet i Hausman (2012) .
Et hovedtema fra disse debattene er at rapporterte atferd ikke alltid er nøyaktig. Men som beskrevet i kapittel 2, kan store datakilder ikke være nøyaktige, de kan ikke samles på en prøve av interesse, og de er kanskje ikke tilgjengelige for forskere. Dermed tror jeg at rapporterte atferd i noen situasjoner kan være nyttige. Videre er et annet hovedtema fra disse debattene at rapporter om følelser, kunnskap, forventninger og meninger ikke alltid er nøyaktige. Men hvis informasjon om disse interne tilstandene er nødvendig av forskere, enten for å bidra til å forklare noe atferd eller som ting å bli forklart, så kan det være aktuelt å spørre. Selvfølgelig kan læring om interne stater ved å stille spørsmål være problematisk fordi noen ganger ikke respondentene selv er oppmerksomme på deres interne tilstander (Nisbett and Wilson 1977) .
Kapittel 1 i Groves (2004) gjør en utmerket jobb for å forene den sporadiske inkonsekvente terminologien som undersøkelsesforskere bruker for å beskrive det totale spørreundersøkelsen. For en boklengdsbehandling av den totale undersøkelsesfeilrammen, se Groves et al. (2009) , og for en historisk oversikt, se Groves and Lyberg (2010) .
Ideen om å dekomponere feil i bias og varians kommer også opp i maskinlæring; se for eksempel avsnitt 7.3 av Hastie, Tibshirani, and Friedman (2009) . Dette fører ofte forskere til å snakke om en "bias-variance" -avvik.
Når det gjelder representasjon, er en god introduksjon til spørsmålene om ikke-respons og ikke-respons-bias, Norges forskningsråds rapport Nonresponse in Social Science Surveys: En forskningsagenda (2013) . En annen nyttig oversikt er gitt av Groves (2006) . Dessuten har hele spesielle utgaver av Journal of Official Statistics , Public Opinion Quarterly og Annals of the American Academy of Political and Social Science blitt publisert om temaet manglende respons. Til slutt er det faktisk mange forskjellige måter å beregne responsrate på; Disse tilnærmingene er beskrevet i detalj i en rapport fra The American Association of Public Opinion Researchers (AAPOR) ( ??? ) .
For mer på 1936 Literary Digest- undersøkelsen, se Bryson (1976) , Squire (1988) , Cahalan (1989) og Lusinchi (2012) . For en annen diskusjon av denne meningsmålingen som en lignelsesvarsel mot tilfeldig datainnsamling, se Gayo-Avello (2011) . I 1936 brukte George Gallup en mer sofistikert form for prøvetaking og kunne produsere mer nøyaktige estimater med en mye mindre prøve. Gallups suksess over den litterære fordøyelsen var en milepæl i utviklingen av undersøkelsesforskning som beskrevet i kapittel 3 i @ converse_survey_1987; Kapittel 4 i Ohmer (2006) ; og kapittel 3 av @ igo_averaged_2008.
Når det gjelder måling, er en stor første ressurs for utforming av spørreskjemaer Bradburn, Sudman, and Wansink (2004) . For mer avanserte behandlinger, se Schuman and Presser (1996) , som er spesielt fokusert på holdningsspørsmål, og Saris and Gallhofer (2014) , som er mer generell. En litt annen tilnærming til måling er tatt i psykometri, som beskrevet i ( ??? ) . Mer om pretesting er tilgjengelig i Presser and Blair (1994) , Presser et al. (2004) og kapittel 8 i Groves et al. (2009) . For mer om undersøkelseseksperimenter, se Mutz (2011) .
Når det gjelder kostnad, er den klassiske boklengdsbehandlingen av avviket mellom undersøkelseskostnader og undersøkelsesfeil Groves (2004) .
To klassiske boklengdsbehandlinger av standard sannsynlighetssampling og estimering er Lohr (2009) (mer innledende) og Särndal, Swensson, and Wretman (2003) (mer avansert). En klassisk boklengdsbehandling av stratifisering og relaterte metoder er Särndal and Lundström (2005) . I noen digitale aldersinnstillinger vet forskerne ganske mye om ikke-respondenter, noe som ikke ofte var sant i fortiden. Ulike former for ikke-responsjustering er mulig når forskere har informasjon om ikke-respondenter, som beskrevet av Kalton and Flores-Cervantes (2003) og Smith (2011) .
Xbox-studien av W. Wang et al. (2015) bruker en teknikk som kalles multilevelregresjon og post-stratifisering ("Mr. P.") som tillater forskere å estimere gruppemedlemmer selv når det er mange, mange grupper. Selv om det er noen debatt om kvaliteten på estimatene fra denne teknikken, virker det som et lovende område å utforske. Teknikken ble først brukt i Park, Gelman, and Bafumi (2004) , og det har vært etterfølgende bruk og debatt (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . For mer om sammenhengen mellom individuelle vekter og gruppevekter, se Gelman (2007) .
For andre tilnærminger til vekting av Schonlau et al. (2009) , se Schonlau et al. (2009) , Bethlehem (2010) , og Valliant and Dever (2011) . Nettpanelene kan bruke enten sannsynlighetstesting eller ikke-sannsynlighetstesting. For mer på elektroniske paneler, se Callegaro et al. (2014) .
Noen ganger har forskere funnet at sannsynlighetsprøver og ikke-sannsynlighetsprøver gir estimater av tilsvarende kvalitet (Ansolabehere and Schaffner 2014) , men andre sammenligninger har funnet ut at ikke-sannsynlighetsprøver blir verre (Malhotra and Krosnick 2007; Yeager et al. 2011) . En mulig årsak til disse forskjellene er at ikke-sannsynlighetsprøver har blitt bedre over tid. For en mer pessimistisk oppfatning av ikke-sannsynlige prøvetakingsmetoder, se AAPOR Task Force on Probability Sampling (Baker et al. 2013) , og jeg anbefaler også å lese kommentaren som følger oppsummeringsrapporten.
Conrad and Schober (2008) er et redigert volum med tittelen Envisioning Survey Interview of the Future , og det gir en rekke synspunkter om fremtiden for å stille spørsmål. Couper (2011) adresserer lignende temaer, og Schober et al. (2015) gir et godt eksempel på hvordan datainnsamlingsmetoder som er skreddersydd til en ny innstilling, kan resultere i høyere kvalitetsdata. Schober and Conrad (2015) gir et mer generelt argument om å fortsette å justere prosessen med undersøkelsesforskning for å matche endringer i samfunnet.
Tourangeau and Yan (2007) vurderer problemer med sosial ønskelighet forvirrende i sensitive spørsmål, og Lind et al. (2013) gir noen mulige grunner til at folk kan avsløre mer sensitiv informasjon i et datautstyrt intervju. For mer om rollen som menneskelige intervjuere i økende deltakelse i undersøkelser, se Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) , og Schaeffer et al. (2013) . For mer om blandemodusundersøkelser, se Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) tilbyr en boklengdsbehandling av økologisk momentvurdering og relaterte metoder.
For mer råd om å gjøre undersøkelser til en fornøyelig og verdifull opplevelse for deltakerne, se arbeidet med den skreddersydde designmetoden (Dillman, Smyth, and Christian 2014) . For et annet interessant eksempel på bruk av Facebook apps for samfunnsvitenskapelige undersøkelser, se Bail (2015) .
Judson (2007) beskriver prosessen med å kombinere undersøkelser og administrative data som "informasjonsintegrasjon" og diskuterer noen fordeler med denne tilnærmingen, samt å tilby noen eksempler.
Når det gjelder beriket spør, har det vært mange tidligere forsøk på å validere avstemning. For en oversikt over den litteraturen, se Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , og Berent, Krosnick, and Lupia (2016) . Se Berent, Krosnick, and Lupia (2016) for et mer skeptisk syn på resultatene presentert i Ansolabehere and Hersh (2012) .
Det er viktig å merke seg at selv om Ansolabehere og Hersh ble oppmuntret av kvaliteten på data fra katalisten, har andre evalueringer av kommersielle leverandører vært mindre entusiastiske. Pasek et al. (2014) fant dårlig kvalitet når data fra en undersøkelse ble sammenlignet med en forbrukerfil fra Marketing Systems Group (som selv fusjonerte data fra tre leverandører: Acxiom, Experian og InfoUSA). Dvs. datafilen stemte ikke overens med undersøkelsesresponsene som forskerne antok å være korrekte, forbrukerfilen manglet data for et stort antall spørsmål, og det manglende datamønsteret var korrelert med den rapporterte undersøkelsesverdien (med andre ord manglende data data var systematisk, ikke tilfeldig).
For mer om rekordkobling mellom undersøkelser og administrative data, se Sakshaug and Kreuter (2012) og Schnell (2013) . For mer på rekordbinding generelt, se Dunn (1946) og Fellegi and Sunter (1969) (historisk) og Larsen and Winkler (2014) (moderne). Liknende tilnærminger er også blitt utviklet i datavitenskap under navn som dataduplisering, forekomstidentifikasjon, (Elmagarmid, Ipeirotis, and Verykios 2007) duplikat deteksjon og duplikatregistrering (Elmagarmid, Ipeirotis, and Verykios 2007) . Det er også personvernbeskyttende tilnærminger for å registrere koblinger som ikke krever overføring av personlig identifiserende informasjon (Schnell 2013) . Forskere på Facebook utviklet en prosedyre for å probabilistisk koble rekordene til stemmeoppførsel (Jones et al. 2013) ; Denne koblingen ble gjort for å evaluere et eksperiment som jeg skal fortelle om i kapittel 4 (Bond et al. 2012) . For mer om å få samtykke til rekordkobling, se Sakshaug et al. (2012) .
Et annet eksempel på å knytte en storstilt sosial undersøkelse til regjeringens administrative rekord kommer fra helse- og pensjonsundersøkelsen og sosial sikkerhetstilsynet. For mer om denne studien, inkludert informasjon om samtykkeprosedyren, se Olson (1996, 1999) .
Prosessen med å kombinere mange kilder til administrative poster i en masterdatafile - prosessen som Catalyst sysselsetter - er vanlig i de enkelte staters statistiske kontorer. To forskere fra SCB har skrevet en detaljert bok om emnet (Wallgren and Wallgren 2007) . For et eksempel på denne tilnærmingen i et enkelt fylke i USA (Olmstead County, Minnesota, hjemsted for Mayo Clinic), se Sauver et al. (2011) . For mer om feil som kan vises i administrative poster, se Groen (2012) .
En annen måte som forskere kan bruke store datakilder på i undersøkelsesforskning, er som en samplingsramme for personer med spesifikke egenskaper. Dessverre kan denne tilnærmingen stille spørsmål knyttet til personvernet (Beskow, Sandler, and Weinberger 2006) .
Når det gjelder forsterket spør, er denne tilnærmingen ikke så ny som det kan se ut fra hvordan jeg har beskrevet det. Den har dype forbindelser til tre store områder i statistikk: modellbasert etterlagring (Little 1993) , imputation (Rubin 2004) og liten arealestimering (Rao and Molina 2015) . Det er også relatert til bruk av surrogatvariabler i medisinsk forskning (Pepe 1992) .
Kostnads- og Blumenstock, Cadamuro, and On (2015) i Blumenstock, Cadamuro, and On (2015) refererer mer til variabel kostnad - kostnaden for en ytterligere undersøkelse - og inkluderer ikke faste kostnader, som for eksempel kostnadene ved rengjøring og behandling av anropsdataene. Generelt vil forsterket spørring sannsynligvis ha høye faste kostnader og lave variable kostnader som ligner på digitale eksperimenter (se kapittel 4). For mer om mobilbaserte undersøkelser i utviklingsland, se Dabalen et al. (2016) .
For ideer om hvordan å gjøre forsterket spørre bedre, vil jeg anbefale å lære mer om flere imputation (Rubin 2004) . Også, hvis forskere som gjør forsterket spør om aggregerte teller, i stedet for individuelle egenskaper, kan tilnærmingene i King and Lu (2008) og Hopkins and King (2010) være nyttige. Til slutt, for mer om maskininnlæringsmetoder i Blumenstock, Cadamuro, and On (2015) , se James et al. (2013) (mer innledende) eller Hastie, Tibshirani, and Friedman (2009) (mer avansert).
Et etisk problem angående forsterket spør er at det kan brukes til å utlede sensitive egenskaper som folk kanskje ikke velger å avsløre i en undersøkelse som beskrevet i Kosinski, Stillwell, and Graepel (2013) .