Veel van de thema's in dit hoofdstuk zijn ook terug te vinden in recente presidentiële adressen van de Amerikaanse vereniging van opinieonderzoeken (AAPOR), zoals die van Dillman (2002) , Newport (2011) , Santos (2014) en Link (2015) .
Zie Small (2009) voor meer informatie over de verschillen tussen survey-onderzoek en diepte-interviews. Gerelateerd aan diepte-interviews is een familie van benaderingen genaamd etnografie. In etnografisch onderzoek brengen onderzoekers over het algemeen veel meer tijd door met deelnemers in hun natuurlijke omgeving. Kijk voor meer informatie over de verschillen tussen etnografie en diepte-interviews met Jerolmack and Khan (2014) . Voor meer informatie over digitale etnografie, zie Pink et al. (2015) .
Mijn beschrijving van de geschiedenis van survey-onderzoek is veel te kort om veel van de opwindende ontwikkelingen op te nemen die hebben plaatsgevonden. Voor meer historische achtergrond, zie Smith (1976) , Converse (1987) en Igo (2008) . Voor meer informatie over het idee van drie tijdperken van survey-onderzoek, zie Groves (2011) en Dillman, Smyth, and Christian (2008) (wat de drie tijdperken enigszins anders verdeelt).
Groves and Kahn (1979) bieden een kijkje in de overgang van het eerste naar het tweede tijdperk in survey-onderzoek door een gedetailleerde vergelijking te maken tussen face-to-face en telefonisch onderzoek. ( ??? ) terugkijken op de historische ontwikkeling van bemonsteringsmethoden met willekeurige cijfers.
Zie Tourangeau (2004) , ( ??? ) en Couper (2011) voor meer informatie over het feit dat survey-onderzoek in het verleden is veranderd als reactie op veranderingen in de maatschappij.
De sterke en zwakke kanten van vragen en observeren zijn besproken door psychologen (bijv. Baumeister, Vohs, and Funder (2007) ) en sociologen (bijv. Jerolmack and Khan (2014) ; Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) ; Jerolmack and Khan (2014) ] Het verschil tussen vragen en observeren doet zich ook voor in de economie, waar onderzoekers praten over verklaarde en geopenbaarde voorkeuren, bijvoorbeeld een onderzoeker die respondenten zou kunnen vragen of ze liever ijs eten of naar de sportschool gaan (aangegeven voorkeuren), of kon observeren hoe vaak mensen ijs eten en naar de sportschool gaan (onthulde voorkeuren) .Er is diepe scepsis over bepaalde soorten verklaarde voorkeurengegevens in de economie zoals beschreven in Hausman (2012) .
Een hoofdthema uit deze debatten is dat gerapporteerd gedrag niet altijd accuraat is. Maar zoals beschreven in hoofdstuk 2 zijn big data-bronnen mogelijk niet juist, ze worden mogelijk niet verzameld op een steekproef van interesse en zijn mogelijk niet toegankelijk voor onderzoekers. Dus ik denk dat in sommige situaties gerapporteerd gedrag nuttig kan zijn. Verder is een tweede hoofdthema uit deze debatten dat rapporten over emoties, kennis, verwachtingen en meningen niet altijd accuraat zijn. Maar als informatie over deze interne toestanden door onderzoekers nodig is - hetzij om te helpen bij het verklaren van een bepaald gedrag of als het te verklaren ding - dan kan het vragen passend zijn. Natuurlijk kan het leren over interne staten door het stellen van vragen problematisch zijn omdat soms de respondenten zelf niet op de hoogte zijn van hun interne staten (Nisbett and Wilson 1977) .
Hoofdstuk 1 van Groves (2004) doet uitstekend werk door de soms inconsistente terminologie van enquêteonderzoekers te combineren met een beschrijving van het totale kader voor enquêtefouten. Zie Groves et al. (2009) Voor een boek-lengte behandeling van het totale survey error framework Groves et al. (2009) , en voor een historisch overzicht, zie Groves and Lyberg (2010) .
Het idee om fouten in vertekening en variantie te decomprimeren, komt ook aan de orde bij machinaal leren; zie, bijvoorbeeld, sectie 7.3 van Hastie, Tibshirani, and Friedman (2009) . Dit leidt er vaak toe dat onderzoekers praten over een "bias-variantie" -ruil.
Wat representatie betreft, is een geweldige inleiding tot de vraagstukken van non-respons en non-responsbias het rapport van de National Research Council Nonresponse in Social Science Surveys: A Research Agenda (2013) . Een ander nuttig overzicht wordt gegeven door Groves (2006) . Ook zijn volledige speciale nummers van het Journal of Official Statistics , Public Opinion Quarterly en de Annals van de American Academy of Political and Social Science gepubliceerd over het onderwerp non-respons. Ten slotte zijn er eigenlijk veel verschillende manieren om de respons te berekenen; deze benaderingen worden in detail beschreven in een rapport van de American Association of Public Opinion Researchers (AAPOR) ( ??? ) .
Zie voor meer informatie over de peiling Literary Digest uit 1936 Bryson (1976) , Squire (1988) , Cahalan (1989) en Lusinchi (2012) . Zie Gayo-Avello (2011) voor een andere bespreking van deze poll als een parabel waarschuwing tegen het willekeurig verzamelen van gegevens. In 1936 gebruikte George Gallup een meer geavanceerde vorm van monstername en kon hij nauwkeurigere schattingen maken met een veel kleinere steekproef. Het succes van Gallup over de Literary Digest was een mijlpaal in de ontwikkeling van survey-onderzoek zoals beschreven in hoofdstuk 3 van @ converse_survey_1987; hoofdstuk 4 van Ohmer (2006) ; en hoofdstuk 3 van @ igo_averaged_2008.
Qua metingen zijn Bradburn, Sudman, and Wansink (2004) een geweldige eerste hulpbron voor het ontwerpen van vragenlijsten. Voor meer geavanceerde behandelingen, zie Schuman and Presser (1996) , die specifiek is gericht op attitude-vragen, en Saris and Gallhofer (2014) , die meer algemeen is. Een enigszins andere benadering van meten wordt gebruikt in psychometrie, zoals beschreven in ( ??? ) . Meer over pretesting is beschikbaar in Presser and Blair (1994) , Presser et al. (2004) en hoofdstuk 8 van Groves et al. (2009) . Zie Mutz (2011) voor meer informatie over enquête-experimenten.
Wat kosten betreft, is de klassieke, boek-lengte behandeling van de afweging tussen enquêtekosten en enquêtefouten Groves (2004) .
Twee klassieke boeken-lengte behandelingen van standaard kansberekening en Särndal, Swensson, and Wretman (2003) zijn Lohr (2009) (meer inleidend) en Särndal, Swensson, and Wretman (2003) en Särndal, Swensson, and Wretman (2003) (meer geavanceerd). Een klassieke boek-lengte behandeling van post-stratificatie en gerelateerde methoden is Särndal and Lundström (2005) . In sommige digitale-tijdperk-instellingen weten onderzoekers nogal wat van non-respondenten, wat in het verleden niet vaak waar was. Verschillende vormen van non-respons aanpassing zijn mogelijk wanneer onderzoekers informatie hebben over non- Kalton and Flores-Cervantes (2003) , zoals beschreven door Kalton and Flores-Cervantes (2003) en Smith (2011) .
De Xbox-studie van W. Wang et al. (2015) maakt gebruik van een techniek die multilevel-regressie en post-stratificatie wordt genoemd ("Mr. P."), waarmee onderzoekers groepsmiddelen kunnen schatten, zelfs als er veel, veel groepen zijn. Hoewel er enige discussie is over de kwaliteit van de schattingen van deze techniek, lijkt het een veelbelovend gebied om te verkennen. De techniek werd voor het eerst gebruikt in Park, Gelman, and Bafumi (2004) en er is vervolgens gebruik en debat geweest (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Zie Gelman (2007) voor meer informatie over het verband tussen individuele gewichten en Gelman (2007) .
Voor andere benaderingen voor het wegen van webenquêtes, zie Schonlau et al. (2009) , Bethlehem (2010) en Valliant and Dever (2011) . Online panels kunnen probabiliteitssteekproeven of niet-waarschijnlijkheidssteekproeven gebruiken. Voor meer informatie over online panels, zie Callegaro et al. (2014) .
Soms hebben onderzoekers geconstateerd dat kanssteekproeven en niet-waarschijnlijkheidsmonsters schattingen van vergelijkbare kwaliteit (Ansolabehere and Schaffner 2014) , maar uit andere vergelijkingen is gebleken dat niet-kanssteekproeven het slechter doen (Malhotra and Krosnick 2007; Yeager et al. 2011) . Een mogelijke reden voor deze verschillen is dat niet-waarschijnlijkheidsmonsters met de tijd zijn verbeterd. Voor een meer pessimistisch beeld van probabiliteitsmethoden voor niet-waarschijnlijkheid, zie de AAPOR-taskforce over probabiliteitssampling (Baker et al. 2013) , en ik raad ook aan het commentaar dat volgt op het samenvattende rapport te lezen.
Conrad and Schober (2008) is een bewerkte bundel getiteld Envisioning the Survey Interview of the Future , en biedt een verscheidenheid aan standpunten over de toekomst van het stellen van vragen. Couper (2011) behandelt vergelijkbare thema's, en Schober et al. (2015) bieden een mooi voorbeeld van hoe methoden voor gegevensverzameling die zijn afgestemd op een nieuwe instelling, kunnen leiden tot gegevens van hogere kwaliteit. Schober and Conrad (2015) bieden een algemener argument over het verder aanpassen van het proces van survey-onderzoek aan veranderingen in de samenleving.
Tourangeau and Yan (2007) bespreken kwesties met betrekking tot de voorkeur voor sociale wenselijkheid bij gevoelige vragen, en Lind et al. (2013) bieden enkele mogelijke redenen waarom mensen meer gevoelige informatie zouden kunnen onthullen in een door de computer beheerd interview. Zie Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) , voor meer informatie over de rol van menselijke interviewers bij het verhogen van de participatiegraad in enquêtes Conrad et al. (2013) , en Schaeffer et al. (2013) . Zie Dillman, Smyth, and Christian (2014) voor meer informatie over enquêtes uit verschillende modi.
Stone et al. (2007) bieden een boek-lengte behandeling van ecologische tijdelijke beoordeling en aanverwante methoden.
Voor meer advies over het maken van enquêtes een plezierige en waardevolle ervaring voor deelnemers, zie werk over de Tailored Design Method (Dillman, Smyth, and Christian 2014) . Zie Bail (2015) voor een ander interessant voorbeeld van het gebruik van Facebook-apps voor enquêtes over sociale wetenschappen.
Judson (2007) beschrijft het proces van het combineren van enquêtes en administratieve gegevens als "informatie-integratie" en bespreekt enkele voordelen van deze aanpak, evenals enkele voorbeelden.
Met betrekking tot het verrijkt vragen, zijn er veel eerdere pogingen geweest om het stemmen te valideren. Voor een overzicht van die literatuur, zie Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , en Berent, Krosnick, and Lupia (2016) . Zie Berent, Krosnick, and Lupia (2016) voor een meer sceptisch beeld van de resultaten gepresenteerd in Ansolabehere and Hersh (2012) .
Het is belangrijk op te merken dat hoewel Ansolabehere en Hersh werden aangemoedigd door de kwaliteit van de gegevens van Catalist, andere beoordelingen van commerciële verkopers minder enthousiast waren. Pasek et al. (2014) vond slechte kwaliteit wanneer gegevens van een enquête werden vergeleken met een consumentenbestand van Marketing Systems Group (die zelf gegevens samenvoegde van drie providers: Acxiom, Experian en InfoUSA). Dat wil zeggen, het gegevensbestand kwam niet overeen met de antwoorden op het onderzoek waarvan de onderzoekers verwachtten dat ze correct waren, het consumentenbestand ontbrak gegevens voor een groot aantal vragen en het ontbrekende gegevenspatroon was gecorreleerd met de gerapporteerde enquêtewaarde (met andere woorden, het ontbrekende gegevens waren systematisch, niet willekeurig).
Zie Sakshaug and Kreuter (2012) en Schnell (2013) voor meer informatie over koppelingen tussen enquêtes en administratieve gegevens. Zie Dunn (1946) en Fellegi and Sunter (1969) (historisch) en Larsen and Winkler (2014) (modern) voor meer informatie over koppelingen in het algemeen. Vergelijkbare benaderingen zijn ook ontwikkeld in de informatica onder namen als datadeduplicatie, instantie-identificatie, (Elmagarmid, Ipeirotis, and Verykios 2007) duplicaatdetectie en duplicaatrecorddetectie (Elmagarmid, Ipeirotis, and Verykios 2007) . Er zijn ook privacybehoudende benaderingen voor recordkoppeling die geen overdracht van persoonlijk identificeerbare informatie vereisen (Schnell 2013) . Onderzoekers op Facebook hebben een procedure ontwikkeld om hun gegevens waarschijnlijk aan hun stemgedrag te koppelen (Jones et al. 2013) ; deze koppeling is gedaan om een experiment te evalueren waarover ik je in hoofdstuk 4 zal vertellen (Bond et al. 2012) . Zie Sakshaug et al. (2012) Voor meer informatie over het verkrijgen van toestemming voor recordlinkage Sakshaug et al. (2012) .
Een ander voorbeeld van het koppelen van een grootschalige sociale enquête aan overheidsadministraties is afkomstig van de Health and Retirement Survey en de Social Security Administration. Voor meer informatie over die studie, inclusief informatie over de toestemmingsprocedure, zie Olson (1996, 1999) .
Het combineren van vele bronnen van administratieve bestanden tot een master-datafile - het proces dat door Catalisten wordt gebruikt - is gebruikelijk in de statistische bureaus van sommige nationale regeringen. Twee onderzoekers van Statistics Sweden hebben een gedetailleerd boek geschreven over het onderwerp (Wallgren and Wallgren 2007) . Zie Sauver et al. (2011) Voor een voorbeeld van deze aanpak in een enkele provincie in de Verenigde Staten (Olmstead County, Minnesota, de thuisbasis van de Mayo Clinic) Sauver et al. (2011) . Zie Groen (2012) voor meer informatie over fouten die kunnen voorkomen in administratieve records.
Een andere manier waarop onderzoekers grote gegevensbronnen kunnen gebruiken in survey-onderzoek is als een steekproefkader voor mensen met specifieke kenmerken. Helaas kan deze aanpak vragen oproepen met betrekking tot privacy (Beskow, Sandler, and Weinberger 2006) .
Wat betreft versterkt vragen, deze benadering is niet zo nieuw als het zou kunnen lijken uit hoe ik het heb beschreven. Het heeft diepe verbindingen met drie grote gebieden in de statistiek: op het model gebaseerde poststratificatie (Little 1993) , imputatie (Rubin 2004) en schatting van kleine oppervlakten (Rao and Molina 2015) . Het is ook gerelateerd aan het gebruik van surrogaatvariabelen in medisch onderzoek (Pepe 1992) .
De geschatte kosten en tijd in Blumenstock, Cadamuro, and On (2015) verwijzen meer naar variabele kosten - de kosten van één extra enquête - en omvatten geen vaste kosten, zoals de kosten voor het opschonen en verwerken van de gespreksgegevens. Over het algemeen zullen versterkte vragen waarschijnlijk hoge vaste kosten en lage variabele kosten hebben die vergelijkbaar zijn met die van digitale experimenten (zie hoofdstuk 4). Zie Dabalen et al. (2016) Voor meer informatie over enquêtes onder mobiele telefoons in ontwikkelingslanden Dabalen et al. (2016) .
Voor ideeën over hoe je beter kunt doen om beter te vragen, raad ik aan meer te leren over meerdere imputaties (Rubin 2004) . Ook als onderzoekers versterkte vragen over geaggregeerde tellingen doen, in plaats van eigenschappen op individueel niveau, kunnen de benaderingen in King and Lu (2008) en Hopkins and King (2010) nuttig zijn. Tot slot, voor meer informatie over de benaderingen van machine learning in Blumenstock, Cadamuro, and On (2015) , zie James et al. (2013) (meer inleidend) of Hastie, Tibshirani, and Friedman (2009) (meer geavanceerd).
Een ethische kwestie met betrekking tot versterkt vragen is dat het kan worden gebruikt om gevoelige eigenschappen af te leiden die mensen mogelijk niet kiezen om te onthullen in een onderzoek zoals beschreven in Kosinski, Stillwell, and Graepel (2013) .