Questa sezione è progettato per essere utilizzato come riferimento, piuttosto che essere letta come una narrazione.
Molti dei temi in questo capitolo sono stati anche eco negli ultimi indirizzi presidenziali presso l'American Association of Public Opinion Research (AAPOR), come Dillman (2002) , Newport (2011) , Santos (2014) , e Link (2015) .
Per ulteriori background storico sullo sviluppo della ricerca di indagine, vedere Smith (1976) e Converse (1987) . Per ulteriori sull'idea di tre epoche di ricerca di indagine, vedere Groves (2011) e Dillman, Smyth, and Christian (2008) (che rompe le tre ere in modo leggermente diverso).
Un picco all'interno del passaggio dalla prima alla seconda era nella ricerca sondaggio è Groves and Kahn (1979) , che fa una dettagliata confronto testa a testa tra un faccia-a-faccia e sondaggio telefonico. Brick and Tucker (2007) ripercorre lo sviluppo storico di metodi di campionamento di composizione cifra casuale.
Per ulteriori come la ricerca sondaggio è cambiato in passato in risposta ai cambiamenti della società, vedere Tourangeau (2004) , Mitofsky (1989) , e Couper (2011) .
Conoscere stati interni, ponendo domande può essere problematico, perché a volte gli intervistati stessi non sono consapevoli dei loro stati interni. Ad esempio, Nisbett and Wilson (1977) hanno una splendida carta con il suggestivo titolo: "lo dice più di quanto possiamo sapere:. Resoconti verbali sui processi mentali" Nel documento gli autori concludono: "i soggetti sono a volte (a), ignaro del esistenza di uno stimolo che soprattutto influenzato una risposta, (b) conoscenza dell'esistenza della risposta, e (c) ignorare che lo stimolo ha colpito la risposta. "
Per gli argomenti che i ricercatori dovrebbero preferire comportamento osservato a comportamenti o atteggiamenti segnalati, vedi Baumeister, Vohs, and Funder (2007) (psicologia) e Jerolmack and Khan (2014) e le risposte (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologia). La differenza tra il chiedere e osservando anche si pone in economia, in cui i ricercatori parlano di preferenze dichiarate e rivelate. Ad esempio, un ricercatore potrebbe chiedere agli intervistati se essi preferiscono mangiare il gelato o andare in palestra (preferenze dichiarate) o la ricerca potrebbe osservare come spesso le persone mangiano il gelato e andare in palestra (preferenze rivelate). C'è profondo scetticismo di alcuni tipi di dati preferenze dichiarate in economia (Hausman 2012) .
Un tema principale da questi dibattiti è che il comportamento segnalato non è sempre preciso. Ma, comportamento registrate automaticamente potrebbe non essere preciso, non possono essere raccolte su un campione di interesse, e non può essere accessibili ai ricercatori. Così, in alcune situazioni, penso che il comportamento segnalato può essere utile. Inoltre, un secondo tema principale da questi dibattiti è che i rapporti sulle emozioni, conoscenze, aspettative e opinioni non sono sempre precisi. Ma, se le informazioni su questi stati interni sono necessari dai ricercatori: o per aiutare a spiegare alcuni comportamenti o come la cosa da spiegare, poi chiedendo può essere opportuno.
Per i trattamenti di lunghezza libro su errore totale sondaggio, vedi Groves et al. (2009) o Weisberg (2005) . Per una storia dello sviluppo di errore totale sondaggio, vedi Groves and Lyberg (2010) .
In termini di rappresentanza, una grande introduzione ai temi della non-risposta e pregiudizi non risposta è il rapporto Consiglio Nazionale delle Ricerche su mancata risposta in Scienze Sociali Surveys: A Research Agenda (2013) . Un'altra panoramica utile è fornito da (Groves 2006) . Inoltre, interi numeri speciali del Journal of statistiche ufficiali, Public Opinion Quarterly, e The Annals of American Academy of Scienze Politiche e Sociali sono stati pubblicati sul tema della non-risposta. Infine, ci sono in realtà molti modi diversi di calcolo del tasso di risposta; questi approcci sono descritti in dettaglio in una relazione della American Association of Public Opinion ricercatori (AAPOR) (Public Opinion Researchers} 2015) .
1936 Literary Digest sondaggio è stato studiato in dettaglio (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . E 'stato anche utilizzato come una parabola per mettere in guardia contro la raccolta di dati a casaccio (Gayo-Avello 2011) . Nel 1936, George Gallup utilizzato una forma più sofisticata di campionamento, e fu in grado di produrre stime più accurate con un campione molto più piccolo. Il successo di Gallup sulla Literary Digest è stata una pietra miliare nello sviluppo della ricerca di indagine (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
In termini di misurazione, un primo grande risorsa per questionari progettazione è Bradburn, Sudman, and Wansink (2004) . Per un trattamento più avanzato incentrato specificamente sulle questioni atteggiamento, vedere Schuman and Presser (1996) . Altro su questioni pre-test è disponibile in Presser and Blair (1994) , Presser et al. (2004) , e il capitolo 8 del Groves et al. (2009) .
Il trattamento classico, libro-lunghezza del trade-off tra costi di indagine e gli errori di indagine è Groves (2004) .
Trattamento libro-classico di campionamento probabilistico di serie e la stima sono Lohr (2009) (più introduttiva) e Särndal, Swensson, and Wretman (2003) (più avanzato). Un classico trattamento di libro-lunghezza di metodi post-stratificazione e affini è Särndal and Lundström (2005) . In alcune impostazioni età digitali, i ricercatori sanno un po 'su non rispondenti, che non era spesso vero in passato. Diverse forme di regolazione mancata risposta sono possibili quando i ricercatori hanno informazioni sulla non rispondenti (Kalton and Flores-Cervantes 2003; Smith 2011) .
Lo studio Xbox di Wang et al. (2015) utilizza una tecnica chiamata di regressione multilivello e post-stratificazione (MRP, a volte chiamato "Signor P") che consente ai ricercatori di stimare cellule significa che anche quando non ci sono molte, molte cellule. Anche se vi è un certo dibattito circa la qualità delle stime di questa tecnica, sembra una zona promettente da esplorare. La tecnica è stata utilizzata la prima volta nel Park, Gelman, and Bafumi (2004) , e c'è stato il successivo utilizzo e il dibattito (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Per maggiori informazioni sul collegamento tra i singoli pesi e pesi a base di cellule vedere Gelman (2007) .
Per gli altri approcci alla sondaggi web di ponderazione, vedere Schonlau et al. (2009) , Valliant and Dever (2011) , e Bethlehem (2010) .
Corrispondenza del campione è stato proposto da Rivers (2007) . Bethlehem (2015) sostiene che le prestazioni del corrispondente campione sarà effettivamente essere simile ad altri metodi di campionamento (per esempio, campionamento stratificato) e altri approcci di regolazione (ad esempio, post-stratificazione). Per ulteriori informazioni su pannelli in linea, consultare Callegaro et al. (2014) .
A volte i ricercatori hanno scoperto che i campioni probabilistici e campioni non probabilistici producono stime di qualità simile (Ansolabehere and Schaffner 2014) , ma altri confronti hanno scoperto che i campioni non probabilistici fanno peggio (Malhotra and Krosnick 2007; Yeager et al. 2011) . Una possibile ragione per queste differenze è che i campioni non probabilistici sono migliorate nel corso del tempo. Per una visione più pessimistica dei metodi di campionamento non probabilistico vedere la la AAPOR Task Force on campionamento non probabilistico (Baker et al. 2013) , e ho anche consiglio di leggere il commento che segue la relazione di sintesi.
Per una meta-analisi sull'effetto della ponderazione per ridurre i pregiudizi nei campioni non probabilistici, si veda la Tabella 2.4 in Tourangeau, Conrad, and Couper (2013) , che porta gli autori a concludere "rettifiche sembrano essere le correzioni utili, ma fallibili. . ".
Conrad and Schober (2008) fornisce un volume curato dal titolo Immaginare il Interview Survey del futuro, e affronta molti dei temi di questa sezione. Couper (2011) affronta temi simili, e Schober et al. (2015) offre un buon esempio di come metodi di raccolta dei dati che sono su misura per una nuova impostazione può portare a dati di qualità superiore.
Per un altro interessante esempio di utilizzo di applicazioni di Facebook per le indagini delle scienze sociali, vedi Bail (2015) .
Per ulteriori consigli sul fare sondaggi un'esperienza piacevole e preziosa per i partecipanti, vedere il lavoro sul metodo Tailored design (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) offre un trattamento di lunghezza libro di valutazione momentanea ecologico e metodi relativi.
Judson (2007) ha descritto il processo di combinazione indagini e dati amministrativi come "l'integrazione delle informazioni," discute alcuni vantaggi di questo approccio, e offre alcuni esempi.
Un altro modo in cui i ricercatori possono usare le tracce digitali e dati amministrativi è una base di campionamento per le persone con caratteristiche specifiche. Tuttavia, l'accesso questi record da utilizzare una base di campionamento in grado di creare anche domande relative alla privacy (Beskow, Sandler, and Weinberger 2006) .
Per quanto riguarda chiedere amplificato, questo approccio non è così nuovo come potrebbe apparire da come ho descritto esso. Questo approccio ha profonde connessioni a tre grandi aree in statistica-model-based post-stratificazione (Little 1993) , l'imputazione (Rubin 2004) , e la stima per piccole aree (Rao and Molina 2015) . Si è anche legato all'utilizzo di variabili surrogate nella ricerca medica (Pepe 1992) .
Oltre alle questioni etiche riguardanti l'accesso ai dati di traccia digitali, chiedendo amplificato potrebbe anche essere utilizzata per dedurre i tratti sensibili che la gente potrebbe non scegliere di rivelare in un sondaggio (Kosinski, Stillwell, and Graepel 2013) .
Le stime dei costi e di tempo in Blumenstock, Cadamuro, and On (2015) si riferiscono più alla variabile costi il costo di un sondaggio costi-e supplementari non comprendono fisse come il costo per la pulizia ed elaborare i dati delle chiamate. In generale, chiedendo amplificato probabilmente avrà alti costi fissi e bassi costi variabili simili a esperimenti digitali (vedi capitolo 4). Maggiori dettagli sui dati utilizzati in Blumenstock, Cadamuro, and On (2015) carta sono in Blumenstock and Eagle (2010) e Blumenstock and Eagle (2012) . Approcci da imputuation multipla (Rubin 2004) potrebbe aiutare l'incertezza di cattura nelle stime di chiedere amplificato. Se i ricercatori facendo amplificati chiedendo solo preoccupano conti aggregati, piuttosto che i tratti a livello individuale, quindi gli approcci di King and Lu (2008) e Hopkins and King (2010) possono essere utili. Per ulteriori informazioni sui metodi di apprendimento automatico in Blumenstock, Cadamuro, and On (2015) , vedi James et al. (2013) (più introduttiva) o Hastie, Tibshirani, and Friedman (2009) (più avanzato). Un altro popolare libro di testo machine learning è Murphy (2012) .
Per quanto riguarda chiedendo arricchito, i risultati in Ansolabehere e Hersh (2012) cerniera su due punti fondamentali: 1) la capacità di Catalist di combinare molte fonti di dati disparate per produrre un accurato file di dati master e 2) la capacità di Catalist di collegare i dati di rilievo per il suo file di dati master. Pertanto, Ansolabehere e Hersh controllare ciascuno di questi passaggi con attenzione.
Per creare il file di dati master Catalist unisce e armonizza le informazioni da molte fonti diverse, tra cui: più record di voto istantanee da ogni stato, i dati di Cambio Nazionale del Registro Indirizzo del Post Office, e dati da altri provider commerciali non specificati. I dettagli scabrosi su come tutto questo la pulizia e la fusione accade sono oltre la portata di questo libro, ma questo processo, non importa come attento, si propagheranno errori nelle fonti di dati originali e introdurrà errori. Anche se Catalist era disposto a discutere la sua elaborazione dei dati e di fornire alcuni dei suoi dati grezzi, era semplicemente impossibile per i ricercatori a rivedere l'intera filiera dei dati Catalist. Piuttosto, i ricercatori sono stati in una situazione in cui il file di dati Catalist aveva un po 'sconosciuta, e forse inconoscibile, quantità di errore. Questo è un problema serio, perché un critico potrebbe ipotizzare che le grandi differenze tra i rapporti di indagine sulle CCES e il comportamento nel file di dati di base Catalist sono stati causati da errori nel file di dati di base, non da informazioni inesatte dai rispondenti.
Ansolabehere e Hersh ha preso due diversi approcci per affrontare il problema della qualità dei dati. In primo luogo, oltre al confronto tra la votazione auto-riferito al voto nel file master Catalist, i ricercatori hanno anche confrontato parte auto-riferito, la razza, l'affluenza stato di registrazione (ad esempio, registrato o non registrato) e il metodo di voto (ad esempio, in prima persona, assente scheda elettorale, ecc) per quei valori trovati nei database Catalist. Per queste quattro variabili demografiche, i ricercatori hanno trovato livelli molto più alti di accordo tra rapporto di indagine e di dati nel file master Catalist rispetto per il voto. Così, il file di dati padrone Catalist sembra avere informazioni di alta qualità per i caratteri diversi da quelli di voto, suggerendo che non è di scarsa qualità complessiva. In secondo luogo, in parte utilizzando i dati di Catalist, Ansolabehere e Hersh hanno sviluppato tre diverse misure di qualità delle registrazioni di voto della contea, e hanno trovato che il tasso stimato di un eccesso di segnalazione del voto era essenzialmente estraneo a qualsiasi di queste misure di qualità dei dati, una constatazione che suggeriscono che gli alti tassi di over-reporting non vengono guidati da contee con insolitamente bassa qualità dei dati.
Data la creazione di questo file votazione maestro, la seconda fonte di potenziali errori è il collegamento dei registri di controllo ad esso. Ad esempio, se questo legame è fatto in modo non corretto potrebbe portare ad una sovrastima della differenza tra il comportamento di voto segnalate e rese valide (Neter, Maynes, and Ramanathan 1965) . Se ogni persona aveva una stalla, identificatore univoco che era in entrambe le fonti di dati, quindi il collegamento sarebbe banale. Nella maggior parte degli Stati Uniti e in altri paesi, tuttavia, non vi è alcun identificatore universale. Inoltre, anche se ci sono stati ad esempio un identificatore persone probabilmente essere riluttanti a fornire al sondaggio i ricercatori! Così, Catalist doveva fare il collegamento utilizzando identificatori imperfetti, in questo caso quattro pezzi di informazioni su ogni rispondente: nome, sesso, anno di nascita e indirizzo di casa. Ad esempio, Catalist doveva decidere se il Homie J Simpson nei CCES era la stessa persona come l'Homer Jay Simpson nel loro file di dati master. In pratica, la corrispondenza è un processo difficile e disordinato, e, a peggiorare le cose per i ricercatori, Catalist considerata la sua tecnica di abbinamento di essere proprietarie.
Al fine di convalidare gli algoritmi di corrispondenza, hanno contato su due sfide. In primo luogo, Catalist partecipato a un concorso di corrispondenza che è stato gestito da un, terzo indipendente: la MITRE Corporation. MITRE ha fornito a tutti i partecipanti di due file di dati rumorosi da abbinare, e diverse squadre in competizione per tornare MITRE la migliore corrispondenza. Perché MITRE si conosceva l'abbinamento corretto sono stati in grado di segnare le squadre. Delle 40 aziende che hanno partecipato, Catalist arrivato al secondo posto. Questo tipo di valutazione indipendente di terze parti di tecnologia proprietaria è abbastanza raro e incredibilmente prezioso; ci deve dare fiducia che le procedure di corrispondenza di Catalist sono essenzialmente allo stato-of-the-art. Ma è lo stato-of-the-art abbastanza buono? In aggiunta a questo concorso di corrispondenza, Ansolabehere e Hersh creato la propria sfida di corrispondenza per Catalist. Da un precedente progetto, Ansolabehere e Hersh avevano raccolto record dei votanti dalla Florida. Hanno fornito alcuni di questi dischi con alcuni dei loro campi redatte a Catalist e poi a confronto le relazioni di Catalist di questi campi ai loro valori attuali. Fortunatamente, i rapporti di Catalist erano vicini ai valori trattenute, indicando che Catalist poteva competere con i record dei votanti parziali sul loro file di dati master. Queste due sfide, una ad una terza parte e uno per Ansolabehere e Hersh, ci danno più fiducia negli algoritmi di matching Catalist, anche se non siamo in grado di rivedere la loro esatta applicazione a noi stessi.
Ci sono stati molti tentativi precedenti per convalidare il voto. Per una panoramica di quella letteratura, vedi Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , e Hanmer, Banks, and White (2014) .
È importante notare che, sebbene in questo caso i ricercatori sono stati incoraggiati dalla qualità dei dati da Catalist, altre valutazioni di fornitori commerciali sono state meno entusiasmo. I ricercatori hanno trovato scarsa qualità quando i dati di un sondaggio ad un consumatore-file da Marketing Systems Group (che si fuse insieme dati provenienti da tre fornitori: Acxiom, Experian e InfoUSA) (Pasek et al. 2014) . Cioè, il file di dati non corrisponde risposte al sondaggio che i ricercatori dovrebbero essere corretto, il file di dati aveva dati per un gran numero di domande, e il modello di dati mancanti mancante è stato correlato al valore di sondaggio riportato (in altre parole, i dati mancanti era sistematica , non casuale).
Per ulteriori informazioni su record linkage tra le indagini e dati amministrativi, vedi Sakshaug and Kreuter (2012) e Schnell (2013) . Per ulteriori informazioni su record linkage in generale, vedere Dunn (1946) e Fellegi and Sunter (1969) (storica) e Larsen and Winkler (2014) (moderna). Approcci simili sono stati sviluppati anche in informatica con le denominazioni quali la deduplicazione dei dati, l'identificazione esempio, nome corrispondente, rilevamento dei duplicati e duplicare il rilevamento di registrazione (Elmagarmid, Ipeirotis, and Verykios 2007) . Ci sono anche privacy preservare approcci per registrare linkage che non richiedono la trasmissione delle informazioni di identificazione personale (Schnell 2013) . I ricercatori di Facebook hanno sviluppato una procedura per collegare probabilisticsly loro record di comportamento di voto (Jones et al. 2013) ; questo legame è stato fatto per valutare un esperimento che io ti racconto nel capitolo 4 (Bond et al. 2012) .
Un altro esempio di collegamento di un grande indagine sociale ai documenti amministrativi del governo viene dalla salute e la Survey pensionamento e la Social Security Administration. Per ulteriori informazioni su questo studio, comprese le informazioni sulla procedura di autorizzazione, vedere Olson (1996) e Olson (1999) .
Il processo di combinare molte fonti di dati amministrativi in un file di dati maestro-processo che Catalist dipendenti-è comune negli uffici di statistica di alcuni governi nazionali. Due ricercatori di Statistics Sweden hanno scritto un libro dettagliato sul tema (Wallgren and Wallgren 2007) . Per un esempio di questo approccio in una sola contea negli Stati Uniti (Olmstead County, Minnesota, sede della Mayo Clinic), vedi Sauver et al. (2011) . Per ulteriori informazioni su errori che possono essere visualizzati nei registri amministrativi, vedere Groen (2012) .