Molti dei temi trattati in questo capitolo sono stati ripresi anche negli ultimi discorsi presidenziali all'Americ Association of Public Opinion Research (AAPOR), come quelli di Dillman (2002) , Newport (2011) , Santos (2014) e Link (2015) .
Per ulteriori informazioni sulle differenze tra la ricerca del sondaggio e le interviste approfondite, vedere Small (2009) . Relativo alle interviste approfondite è una famiglia di metodi denominati etnografia. Nella ricerca etnografica, i ricercatori generalmente trascorrono molto più tempo con i partecipanti nel loro ambiente naturale. Per ulteriori informazioni sulle differenze tra l'etnografia e le interviste approfondite, vedi Jerolmack and Khan (2014) . Per ulteriori informazioni sull'etnografia digitale, vedi Pink et al. (2015) .
La mia descrizione della storia della ricerca dell'indagine è troppo breve per includere molti degli eccitanti sviluppi che hanno avuto luogo. Per ulteriori background storici, vedi Smith (1976) , Converse (1987) e Igo (2008) . Per ulteriori informazioni sull'idea di tre ere di ricerca sul sondaggio, vedi Groves (2011) e Dillman, Smyth, and Christian (2008) (che rompe i tre periodi in modo leggermente diverso).
Groves and Kahn (1979) offrono una panoramica della transizione dalla prima alla seconda era nella ricerca dell'indagine, facendo un dettagliato confronto diretto tra un sondaggio faccia a faccia e un sondaggio telefonico. ( ??? ) ripercorrere lo sviluppo storico dei metodi di campionamento a selezione casuale.
Per ulteriori informazioni su come la ricerca sui sondaggi sia cambiata in passato in risposta ai cambiamenti nella società, vedi Tourangeau (2004) , ( ??? ) e Couper (2011) .
I punti di forza e di debolezza del chiedere e osservare sono stati discussi da psicologi (ad esempio, Baumeister, Vohs, and Funder (2007) ) e sociologi (eg Jerolmack and Khan (2014) ; Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) ; Jerolmack and Khan (2014) ]. La differenza tra chiedere e osservare si pone anche in economia, dove i ricercatori parlano di preferenze dichiarate e rivelate.Ad esempio, un ricercatore potrebbe chiedere agli intervistati se preferiscono mangiare il gelato o andare in palestra (preferenze dichiarate), o potrebbe osservare quanto spesso le persone mangiano il gelato e vanno in palestra (preferenze rivelate). C'è un profondo scetticismo su certi tipi di dati sulle preferenze dichiarate in economia, come descritto in Hausman (2012) .
Un tema principale di questi dibattiti è che il comportamento segnalato non è sempre accurato. Ma, come descritto nel capitolo 2, le grandi fonti di dati potrebbero non essere accurate, potrebbero non essere raccolte su un campione di interesse e potrebbero non essere accessibili ai ricercatori. Quindi, penso che, in alcune situazioni, il comportamento segnalato possa essere utile. Inoltre, un secondo tema principale di questi dibattiti è che le relazioni su emozioni, conoscenze, aspettative e opinioni non sono sempre accurate. Ma, se le informazioni su questi stati interni sono necessarie ai ricercatori, sia per aiutare a spiegare un comportamento o come la cosa da spiegare, chiedere potrebbe essere appropriato. Certamente, conoscere gli stati interni ponendo domande può essere problematico perché a volte gli stessi intervistati non sono consapevoli dei loro stati interni (Nisbett and Wilson 1977) .
Il Capitolo 1 di Groves (2004) svolge un ottimo lavoro riconciliando la terminologia talvolta inconsistente utilizzata dai ricercatori del sondaggio per descrivere il quadro complessivo degli errori del sondaggio. Per un trattamento a lunghezza di libro del quadro complessivo degli errori di indagine, vedi Groves et al. (2009) , e per una panoramica storica, vedi Groves and Lyberg (2010) .
Anche l'idea di scomporre gli errori in bias e variantion si presenta in machine learning; vedere, per esempio, la sezione 7.3 di Hastie, Tibshirani, and Friedman (2009) . Questo spesso porta i ricercatori a parlare di un trade-off "varianza-bias".
In termini di rappresentanza, una grande introduzione ai problemi di non risposta e di non-pregiudizio è il rapporto del Consiglio Nazionale delle Ricerche sulla mancata risposta nelle scienze sociali: un'agenda di ricerca (2013) . Un'altra utile panoramica è fornita da Groves (2006) . Inoltre, sul tema della non risposta sono stati pubblicati interi numeri speciali del Journal of Official Statistics , del Public Opinion Quarterly e degli Annals dell'American Academy of Political and Social Science . Infine, ci sono in realtà molti modi diversi per calcolare il tasso di risposta; questi approcci sono descritti in dettaglio in un rapporto dell'Associazione americana dei ricercatori di opinione pubblica (AAPOR) ( ??? ) .
Per ulteriori informazioni sul sondaggio del Literary Digest del 1936, vedi Bryson (1976) , Squire (1988) , Cahalan (1989) e Lusinchi (2012) . Per un'altra discussione su questo sondaggio come avvertimento di una parabola contro la raccolta casuale dei dati, vedi Gayo-Avello (2011) . Nel 1936, George Gallup usò una forma più sofisticata di campionamento e fu in grado di produrre stime più accurate con un campione molto più piccolo. Il successo di Gallup rispetto al Literary Digest fu una pietra miliare nello sviluppo della ricerca sui sondaggi come descritto nel capitolo 3 di @ converse_survey_1987; capitolo 4 di Ohmer (2006) ; e il capitolo 3 di @ igo_averaged_2008.
In termini di misurazione, una grande prima risorsa per la progettazione di questionari è Bradburn, Sudman, and Wansink (2004) . Per trattamenti più avanzati, vedi Schuman and Presser (1996) , che è specificamente incentrato sulle questioni attitudinali, e Saris and Gallhofer (2014) , che è più generale. Un approccio leggermente diverso alla misurazione è preso in psicometria, come descritto in ( ??? ) . Ulteriori informazioni sul pretesting sono disponibili in Presser and Blair (1994) , Presser et al. (2004) , e il capitolo 8 di Groves et al. (2009) . Per ulteriori informazioni sugli esperimenti di sondaggio, vedere Mutz (2011) .
In termini di costi, il classico trattamento contabile del compromesso tra costi di indagine e errori di indagine è Groves (2004) .
Due trattamenti classici a lunghezza di libro di campionamento e stima probabilistica standard sono Lohr (2009) (più introduttivo) e Särndal, Swensson, and Wretman (2003) (più avanzato). Särndal and Lundström (2005) trattamento classico della post-stratificazione e dei metodi correlati. In alcune impostazioni dell'era digitale, i ricercatori conoscono abbastanza i non-rispondenti, cosa che spesso non era vera in passato. Diverse forme di aggiustamento della Kalton and Flores-Cervantes (2003) sono possibili quando i ricercatori hanno informazioni sui non-respondenti, come descritto da Kalton and Flores-Cervantes (2003) e Smith (2011) .
Lo studio Xbox di W. Wang et al. (2015) utilizza una tecnica chiamata regressione multilivello e post-stratificazione ("Mr. P.") che consente ai ricercatori di stimare i mezzi di gruppo anche quando ci sono molti, molti gruppi. Sebbene ci sia un dibattito sulla qualità delle stime di questa tecnica, sembra un'area promettente da esplorare. La tecnica è stata usata per la prima volta in Park, Gelman, and Bafumi (2004) , e c'è stato un uso e un dibattito successivi (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Per ulteriori informazioni sulla connessione tra pesi singoli e pesi di gruppo, vedere Gelman (2007) .
Per altri approcci alla ponderazione dei sondaggi web, vedi Schonlau et al. (2009) , Bethlehem (2010) e Valliant and Dever (2011) . I pannelli online possono utilizzare sia il campionamento probabilistico che il campionamento non probabilistico. Per ulteriori informazioni sui pannelli online, vedi Callegaro et al. (2014) .
A volte, i ricercatori hanno scoperto che campioni di probabilità e campioni non probabilistici forniscono stime di qualità simile (Ansolabehere and Schaffner 2014) , ma altri confronti hanno rilevato che i campioni non probabilistici peggiorano (Malhotra and Krosnick 2007; Yeager et al. 2011) . Una possibile ragione di queste differenze è che i campioni non probabilistici sono migliorati nel tempo. Per una visione più pessimistica dei metodi di campionamento non probabilistico consultare la Task Force AAPOR sul campionamento non probabilistico (Baker et al. 2013) , e consiglio anche di leggere il commento che segue il rapporto di sintesi.
Conrad and Schober (2008) è un volume curato dal titolo Envisioning the Survey Interview of the Future , e offre una varietà di punti di vista sul futuro delle domande. Couper (2011) affronta temi simili, e Schober et al. (2015) offrono un bell'esempio di come i metodi di raccolta dati su misura per una nuova impostazione possano portare a dati di qualità più elevata. Schober and Conrad (2015) offrono un argomento più generale sul continuare a regolare il processo di ricerca del sondaggio per adeguarsi ai cambiamenti nella società.
Tourangeau and Yan (2007) esaminano i problemi di bias della desiderabilità sociale in domande sensibili, e Lind et al. (2013) offrono alcuni possibili motivi per cui le persone potrebbero divulgare informazioni più sensibili in un'intervista amministrata dal computer. Per ulteriori informazioni sul ruolo degli intervistatori umani nell'aumentare i tassi di partecipazione nelle indagini, vedi Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) , e Schaeffer et al. (2013) . Per ulteriori informazioni sui sondaggi in modalità mista, vedere Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) offrono un trattamento contabile di valutazione momentanea ecologica e metodi correlati.
Per ulteriori consigli su come rendere i sondaggi un'esperienza piacevole e di valore per i partecipanti, vedere i lavori sul metodo di progettazione su misura (Dillman, Smyth, and Christian 2014) . Per un altro esempio interessante di utilizzo di app Facebook per sondaggi di scienze sociali, vedi Bail (2015) .
Judson (2007) descrive il processo di combinazione di indagini e dati amministrativi come "integrazione delle informazioni" e discute alcuni vantaggi di questo approccio, oltre ad offrire alcuni esempi.
Riguardo alla richiesta arricchita, ci sono stati molti tentativi precedenti di convalidare il voto. Per una panoramica di quella letteratura, vedi Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , e Berent, Krosnick, and Lupia (2016) . Vedi Berent, Krosnick, and Lupia (2016) per una visione più scettica dei risultati presentati in Ansolabehere and Hersh (2012) .
È importante notare che, sebbene Ansolabehere e Hersh fossero incoraggiati dalla qualità dei dati del Catalista, altre valutazioni dei venditori commerciali sono state meno entusiaste. Pasek et al. (2014) trovato scarsa qualità quando i dati di un sondaggio sono stati confrontati con un file consumer di Marketing Systems Group (che ha unito i dati di tre fornitori: Acxiom, Experian e InfoUSA). Cioè, il file di dati non corrispondeva alle risposte del sondaggio che i ricercatori si aspettavano fossero corretti, il file del consumatore aveva dati mancanti per un gran numero di domande e il modello di dati mancanti era correlato al valore del sondaggio riportato (in altre parole, il mancante i dati erano sistematici, non casuali).
Per ulteriori informazioni sul collegamento record tra sondaggi e dati amministrativi, vedi Sakshaug and Kreuter (2012) e Schnell (2013) . Per ulteriori informazioni sul collegamento record in generale, vedere Dunn (1946) e Fellegi and Sunter (1969) (storico) e Larsen and Winkler (2014) (moderno). Approcci simili sono stati sviluppati anche nell'informatica con nomi come la deduplicazione dei dati, l'identificazione dell'istanza, la corrispondenza dei nomi, il rilevamento dei duplicati e il rilevamento dei record duplicati (Elmagarmid, Ipeirotis, and Verykios 2007) . Esistono anche approcci che preservano la privacy per registrare il collegamento che non richiede la trasmissione di informazioni di identificazione personale (Schnell 2013) . I ricercatori di Facebook hanno sviluppato una procedura per collegare probabilisticamente i loro record al comportamento di voto (Jones et al. 2013) ; questo collegamento è stato fatto per valutare un esperimento di cui parlerò nel capitolo 4 (Bond et al. 2012) . Per ulteriori informazioni su come ottenere il consenso per il collegamento record, vedi Sakshaug et al. (2012) .
Un altro esempio di collegamento di un'indagine sociale su vasta scala alle registrazioni amministrative del governo proviene dall'Indagine sulla salute e sul pensionamento e dall'Amministrazione della sicurezza sociale. Per ulteriori informazioni su questo studio, comprese le informazioni sulla procedura di consenso, vedi Olson (1996, 1999) .
Il processo di combinare molte fonti di record amministrativi in un master file di dati, il processo che Catalist impiega, è comune negli uffici statistici di alcuni governi nazionali. Due ricercatori di Statistics Sweden hanno scritto un libro dettagliato sull'argomento (Wallgren and Wallgren 2007) . Per un esempio di questo approccio in una singola contea negli Stati Uniti (Olmstead County, Minnesota, sede della Mayo Clinic), vedi Sauver et al. (2011) . Per ulteriori informazioni sugli errori che possono apparire nei registri amministrativi, consultare Groen (2012) .
Un altro modo in cui i ricercatori possono utilizzare le grandi fonti di dati nella ricerca sui sondaggi è come una cornice di campionamento per le persone con caratteristiche specifiche. Sfortunatamente, questo approccio può sollevare questioni relative alla privacy (Beskow, Sandler, and Weinberger 2006) .
Per quanto riguarda la domanda amplificata, questo approccio non è nuovo come potrebbe sembrare da come l'ho descritto. Ha profonde connessioni con tre grandi aree statistiche: post-stratificazione basata su modelli (Little 1993) , imputazione (Rubin 2004) e stima di piccole aree (Rao and Molina 2015) . È anche legato all'uso di variabili surrogate nella ricerca medica (Pepe 1992) .
Le stime di costi e tempi in Blumenstock, Cadamuro, and On (2015) riferiscono più al costo variabile - il costo di un sondaggio aggiuntivo - e non includono i costi fissi come il costo della pulizia e l'elaborazione dei dati di chiamata. In generale, la richiesta amplificata avrà probabilmente costi fissi elevati e costi variabili bassi simili a quelli degli esperimenti digitali (vedere il capitolo 4). Per ulteriori informazioni sui sondaggi basati su telefoni cellulari nei paesi in via di sviluppo, vedi Dabalen et al. (2016) .
Per idee su come fare una domanda amplificata meglio, consiglierei di saperne di più sull'imputazione multipla (Rubin 2004) . Inoltre, se i ricercatori si ampliano ponendo attenzione ai conteggi aggregati, piuttosto che ai tratti a livello individuale, allora gli approcci in King and Lu (2008) e Hopkins and King (2010) possono essere utili. Infine, per ulteriori informazioni sugli approcci di apprendimento automatico in Blumenstock, Cadamuro, and On (2015) , vedi James et al. (2013) (più introduttivo) o Hastie, Tibshirani, and Friedman (2009) (più avanzato).
Un problema etico riguardante la richiesta amplificata è che può essere utilizzato per dedurre tratti sensibili che le persone potrebbero non scegliere di rivelare in un sondaggio come descritto in Kosinski, Stillwell, and Graepel (2013) .