Dette afsnit er beregnet til at blive brugt som reference, i stedet for at blive læst som en fortælling.
Mange af temaerne i dette kapitel er også blevet gentaget i de seneste præsidentvalg adresser på American Association of Public Opinion Research (AAPOR), såsom Dillman (2002) , Newport (2011) , Santos (2014) , og Link (2015) .
For mere historisk baggrund om udviklingen af undersøgelsen forskning, se Smith (1976) og Converse (1987) . For mere om ideen om tre epoker af undersøgelsen forskning, se Groves (2011) og Dillman, Smyth, and Christian (2008) (som bryder op lidt anderledes de tre epoker).
En top inde i overgangen fra den første til den anden æra i undersøgelsen forskning er Groves and Kahn (1979) , der gør en detaljeret head-to-head sammenligning mellem et ansigt-til-ansigt og telefonisk undersøgelse. Brick and Tucker (2007) ser tilbage på den historiske udvikling af tilfældig cifret opkald prøveudtagningsmetoder.
For mere hvordan undersøgelse forskning har ændret sig i fortiden som reaktion på ændringer i samfundet, se Tourangeau (2004) , Mitofsky (1989) , og Couper (2011) .
Læring om indre tilstande ved at stille spørgsmål kan være problematisk, fordi nogle gange respondenterne selv er ikke klar over deres indre tilstande. For eksempel Nisbett and Wilson (1977) har en vidunderlig papir med den stemningsfulde titel: "Telling mere, end vi kan vide:. Verbale rapporter om mentale processer" I papiret konkluderer forfatterne: "fag er nogle gange (a) uvidende om eksistensen af en stimulus, der vigtigere påvirket et svar, (b) uvidende om eksistensen af svaret, og (c), uvidende om, at stimulus er påvirket svaret. "
For argumenter, at forskere bør foretrække observeret adfærd til rapporteret adfærd eller holdninger, se Baumeister, Vohs, and Funder (2007) (psykologi) og Jerolmack and Khan (2014) og reaktioner (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologi). Forskellen mellem at spørge og observere opstår også i økonomi, hvor forskere taler om angivne og afslørede præferencer. For eksempel kunne en forsker spørge respondenterne om de foretrækker at spise is eller gå til gym (angivne præferencer) eller forskningen kunne observere, hvor ofte folk spiser is og gå til gymnastik (afsløret præferencer). Der er dyb skepsis af visse typer angivne præferencer data i økonomi (Hausman 2012) .
Et hovedtema fra disse debatter er, at rapporterede adfærd ikke altid er korrekte. Men, kan optages automatisk adfærd ikke være nøjagtige, må ikke indsamles på en stikprøve af interesse, og kan ikke være tilgængelige for forskere. I nogle situationer, jeg tror derfor, at rapporterede adfærd kan være nyttig. Endvidere et andet hovedemne fra disse debatter er, at rapporter om følelser, viden, forventninger og udtalelser er ikke altid præcise. Men, hvis der er behov oplysninger om disse indre tilstande af forskere-enten til at forklare nogle adfærd eller som ting skal forklares: saa beder kan være passende.
For bogen længde behandlinger på total undersøgelse fejl, se Groves et al. (2009) eller Weisberg (2005) . For en historien om udviklingen af den samlede undersøgelse fejl, se Groves and Lyberg (2010) .
Med hensyn til repræsentation, en god introduktion til spørgsmålene om manglende respons og non-respons bias er National Research Council rapport om nonresponse i Samfundsfag Undersøgelser: En forskningsdagsorden (2013) . En anden nyttig oversigt leveres af (Groves 2006) . Desuden har hele særlige udgaver af Tidende officielle statistikker, Public Opinion Quarterly, og annaler American Academy of Political og samfundsfag blevet offentliggjort om emnet af ikke-svar. Endelig er der er faktisk mange forskellige måder at beregne svarprocenten; disse tilgange er beskrevet i detaljer i en rapport fra American Association of Public Opinion Forskere (AAPOR) (Public Opinion Researchers} 2015) .
Den 1936 Literary Digest meningsmåling er blevet undersøgt i detaljer (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Det er også blevet brugt som en lignelse at advare mod tilfældig dataindsamling (Gayo-Avello 2011) . I 1936, George Gallup brugte en mere sofistikeret form for prøvetagning, og var i stand til at producere mere nøjagtige skøn med en meget mindre stikprøve. Gallups succes over litterære Digest var en milepæl for udviklingen af undersøgelsen forskning (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Med hensyn til måling, en stor første ressource for designe spørgeskemaer er Bradburn, Sudman, and Wansink (2004) . For en mere avanceret behandling fokuseret specifikt på holdningsspørgsmål, se Schuman and Presser (1996) . Mere om præ-test spørgsmål er tilgængelig i Presser and Blair (1994) , Presser et al. (2004) , og kapitel 8 i Groves et al. (2009) .
Den klassiske, bog-længde behandling af trade-off mellem omkostninger undersøgelse og fejl undersøgelsen er Groves (2004) .
Klassisk bog-længde behandling af standard sandsynlighed prøvetagning og estimering er Lohr (2009) (mere indledende) og Särndal, Swensson, and Wretman (2003) (mere avanceret). En klassisk bog-længde behandling af post-lagdeling og beslægtede metoder er Särndal and Lundström (2005) . I nogle digitale indstillinger alder, forskere kender ganske lidt om ikke-respondenter, som ikke var ofte tilfældet i fortiden. Forskellige former for ikke-svar justering er mulige, når forskerne har oplysninger om ikke-respondenter (Kalton and Flores-Cervantes 2003; Smith 2011) .
Xbox undersøgelse af Wang et al. (2015) anvender en teknik kaldet multilevel regression og efterfølgende stratificering (MRP, undertiden kaldet "Mister P"), der tillader forskerne at anslå celle betyder selv når der er mange, mange celler. Selv om der er en vis debat om kvaliteten af estimaterne fra denne teknik, det virker som en lovende område at udforske. Teknikken blev første gang brugt i Park, Gelman, and Bafumi (2004) , og der har været efterfølgende anvendelse og debat (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . For mere om sammenhængen mellem indbyrdes vægtning og cellebaserede vægte se Gelman (2007) .
For andre tilgange til vægtning web-undersøgelser, se Schonlau et al. (2009) , Valliant and Dever (2011) , og Bethlehem (2010) .
Prøve matching blev foreslået af Rivers (2007) . Bethlehem (2015) hævder, at udførelsen af prøve matching faktisk vil svare til andre prøveudtagning tilgange (f.eks stratificeret prøveudtagning) og andre justering tilgange (f.eks post-lagdeling). For mere om online-paneler, se Callegaro et al. (2014) .
Sommetider forskere har fundet, at stikprøver med tilfældig udvælgelse og ikke-sandsynlighed prøver giver estimater af tilsvarende kvalitet (Ansolabehere and Schaffner 2014) , men andre sammenligninger har fundet, at der ikke sandsynlighed prøver gøre værre (Malhotra and Krosnick 2007; Yeager et al. 2011) . En mulig årsag til disse forskelle er, at ikke-sandsynlighed prøver har forbedret over tid. For en mere pessimistisk syn på ikke-sandsynlighed prøveudtagningsmetoder se den AAPOR taskforce om ikke-sandsynlighed Sampling (Baker et al. 2013) , og jeg anbefaler også at læse kommentar, der følger af den sammenfattende rapport.
For en meta-analyse af effekten af vægtning for at reducere skævhed i ikke-sandsynlighed prøver, se tabel 2.4 i Tourangeau, Conrad, and Couper (2013) , som fører forfatterne til at konkludere "justeringer synes at være nyttige, men fejlbarlige korrektioner. . . "
Conrad and Schober (2008) giver en redigeret volumen titlen envisioning Survey Interview af Future, og det tager fat på mange af temaerne i dette afsnit. Couper (2011) omhandler lignende temaer, og Schober et al. (2015) giver et fint eksempel på, hvordan dataindsamlingsmetoder, der er skræddersyet til en ny indstilling kan resultere i højere datakvalitet.
For en anden interessant eksempel på brug af Facebook apps til naturvidenskabelige undersøgelser sociale, se Bail (2015) .
For flere råd om at gøre undersøgelser en fornøjelig og værdifuld oplevelse for deltagerne, se arbejdet på Skræddersyet Design Method (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) giver en bog længde behandling af økologisk momentan vurdering og relaterede metoder.
Judson (2007) beskrev processen med at kombinere undersøgelser og administrative data som "information integration," diskuterer nogle fordele ved denne tilgang, og tilbyder nogle eksempler.
En anden måde at forskerne kan bruge digitale spor og administrative data er et udsnit ramme for mennesker med særlige karakteristika. Men få adgang til disse registre, der skal bruges en prøveudtagning ramme kan også oprette spørgsmål vedrørende privatlivets fred (Beskow, Sandler, and Weinberger 2006) .
Med hensyn forstærket spørge, denne tilgang er ikke så nyt som det kan se ud fra hvordan jeg har beskrevet det. Denne tilgang har dybe forbindelser til tre store områder i statistikken-modelbaseret post-stratificering (Little 1993) , imputering (Rubin 2004) , og lille område estimering (Rao and Molina 2015) . Det er også i forbindelse med brugen af surrogat variabler i medicinsk forskning (Pepe 1992) .
Ud over de etiske aspekter i forbindelse adgang til digitale spor data, kunne forstærkes spørger også bruges til at udlede følsomme træk, at folk ikke kan vælge at afsløre i en undersøgelse (Kosinski, Stillwell, and Graepel 2013) .
Omkostninger og tid estimater i Blumenstock, Cadamuro, and On (2015) refererer mere til variable omkostninger-prisen for en yderligere syn-og ikke omfatter faste omkostninger såsom omkostninger til at rense og behandle dataene opkald. Generelt vil forstærket spørger sandsynligvis har høje faste omkostninger og lave variable omkostninger svarende til digitale eksperimenter (se kapitel 4). Flere detaljer om de anvendte data i Blumenstock, Cadamuro, and On (2015) papir er i Blumenstock and Eagle (2010) og Blumenstock and Eagle (2012) . Tilgange fra flere imputuation (Rubin 2004) kan hjælpe fange usikkerhed estimater fra forstærket spørge. Hvis forskere opleve forstærket spørger kun bekymre sig om aggregerede tæller, snarere end individuelle niveau træk, så tilgange i King and Lu (2008) og Hopkins and King (2010) kan være nyttige. For mere om maskinens læringstilgange i Blumenstock, Cadamuro, and On (2015) , se James et al. (2013) (mere indledende) eller Hastie, Tibshirani, and Friedman (2009) (mere avanceret). En anden populær maskine learning lærebog er Murphy (2012) .
Med hensyn beriget spørger, resultaterne i Ansolabehere og Hersh (2012) hængsel på to centrale trin: 1) evne Catalyst til at kombinere mange forskellige datakilder til at producere en præcis mester datafil og 2) evne Catalyst at sammenkæde undersøgelsens data til sin herre datafil. Derfor Ansolabehere og Hersh kontrollere hvert af disse trin omhyggeligt.
For at oprette master datafil, Catalyst kombinerer og harmoniserer oplysninger fra mange forskellige kilder, herunder: multiple stemmerettigheder optegnelser snapshots fra hver stat, data fra postvæsenets National Adresseændring Registry, og data fra andre uspecificerede kommercielle udbydere. De blodige detaljer om, hvordan alt dette rengøring og sammenlægning sker er uden for rammerne af denne bog, men denne proces, uanset hvor forsigtig, vil udbrede fejl i de oprindelige datakilder og vil indføre fejl. Selvom Catalyst var villig til at diskutere sin databehandling og give nogle af sine rådata, det var simpelthen umuligt for forskerne at gennemgå hele Catalyst data pipeline. Snarere, forskerne var i en situation, hvor Catalyst datafilen havde nogle ukendte, og måske ukendte, mængde fejl. Dette er en alvorlig bekymring, fordi en kritiker kunne spekulere i, at de store forskelle mellem de synsrapporter på CCES og adfærd i master datafilen Catalyst skyldtes fejl i master datafilen, ikke ved fejlrapportering af respondenterne.
Ansolabehere og Hersh tog to forskellige tilgange til at behandle data kvalitet bekymring. Først, ud over at sammenligne selvrapporteret stemme til stemme i Catalyst master file, forskerne også sammenlignet selvrapporteret parti, race, registrering af vælgere status (f.eks, registreret eller ikke registreret) og stemme metode (fx personligt, fraværende afstemning, etc.) til disse værdier findes i Catalyst databaser. For disse fire demografiske variabler, fandt forskerne meget højere niveauer af aftale mellem synsrapporten og data i Catalyst master file end for at stemme. Synes således Catalyst stamdata fil at have oplysninger af høj kvalitet til andre formål end stemme træk, hvilket tyder på, at det ikke er af dårlig kvalitet generelt. For det andet, dels ved hjælp af data fra Catalyst, Ansolabehere og Hersh udviklet tre forskellige mål for kvaliteten af amtet afstemningsresultaterne, og de fandt, at den estimerede på over-rapportering af afstemningen var hovedsagelig relateret til nogen af disse data kvalitetsmål, en konstatering af, at tyder på, at den høje over-rapportering ikke bliver drevet af amterne med usædvanlig lav datakvalitet.
I betragtning oprettelsen af denne mester stemme fil, er den anden kilde til potentielle fejl forbinder synsrapporter til det. For eksempel, hvis denne kobling er gjort forkert det kunne føre til en overvurdering af forskellen mellem indberettet og valideret vælgeradfærd (Neter, Maynes, and Ramanathan 1965) . Hvis hver person havde en stabil, entydig identifikator, der var i begge datakilder, så sammenkædning ville være trivielt. I USA og de fleste andre lande, men der er ingen universel identifikator. Endvidere, selvom der var sådan en identifikator folk ville nok være tilbageholdende med at give det til undersøgelse forskere! Således Catalyst havde at gøre forbindelsen ved hjælp af ufuldkomne identifikatorer, i dette tilfælde fire stykker af oplysninger om hver enkelt respondent: navn, køn, fødselsår, og privatadresse. For eksempel, Catalyst måtte beslutte, om Homie J Simpson i CCES var den samme person som Homer Jay Simpson i deres stamdata fil. I praksis matchning er en vanskelig og rodet proces, og for at gøre tingene værre for forskerne, Catalyst overvejet sin matching teknik til at være proprietær.
For at validere de matchende algoritmer, de har påberåbt sig to udfordringer. Først Catalyst deltog i en matchende konkurrence, der blev kørt af en uafhængig, tredjeparts: The Mitre Corporation. MITRE forudsat alle deltagere to støjende datafiler at blive matchet, og forskellige hold konkurrerede at vende tilbage til MITRE den bedste matchning. Fordi MITRE selv vidste det korrekte matching de var i stand til at score holdene. Af de 40 virksomheder, der konkurrerede, Catalyst kom på andenpladsen. Denne form for uafhængig, tredjeparts evaluering af proprietær teknologi er ret sjælden og utrolig værdifuld; Det bør give os tillid til, at Catalyst s matchende procedurer er væsentlige på state-of-the-art. Men er state-of-the-art god nok? Ud over denne matching konkurrence, Ansolabehere og Hersh skabt deres egen matchende udfordring for Catalyst. Fra et tidligere projekt, havde Ansolabehere og Hersh indsamlet vælgere optegnelser fra Florida. De gav nogle af disse registre med nogle af deres marker redigeret til Catalyst og derefter sammenlignet Catalyst rapporter fra disse felter til deres faktiske værdier. Heldigvis Catalyst rapporter var tæt på de tilbageholdte værdier, hvilket indikerer, at Catalyst kunne matche partielle vælgere poster på deres herre datafil. Disse to udfordringer, den ene af en tredjepart og en efter Ansolabehere og Hersh, give os mere tillid til Catalyst matchende algoritmer, selv om vi ikke kan gennemgå deres nøjagtige implementering os.
Der har været mange tidligere forsøg på at validere at stemme. For en oversigt over den litteratur, se Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , og Hanmer, Banks, and White (2014) .
Det er vigtigt at bemærke, at selv i dette tilfælde forskere blev opmuntret af kvaliteten af data fra Catalyst, har andre evalueringer af kommercielle leverandører været mindre begejstrede. Forskere har fundet dårlig kvalitet, når data fra en undersøgelse til en forbruger-fil fra Marketing Systems Group (som selv fusionerede sammen data fra tre leverandører: Acxiom, Experian, og infoUSA) (Pasek et al. 2014) . Det vil sige, datafilen matchede ikke besvarelserne, at forskere forventes at være korrekte, den datafil havde manglende data for en lang række spørgsmål, og den manglende data mønster blev korreleret til rapporteret undersøgelse værdi (med andre ord den manglende data var systematisk , ikke tilfældigt).
For mere om rekord kobling mellem undersøgelser og administrative data, se Sakshaug and Kreuter (2012) og Schnell (2013) . For mere om rekord kobling i almindelighed, se Dunn (1946) og Fellegi and Sunter (1969) (historical) og Larsen and Winkler (2014) (moderne). Der er også udviklet lignende tiltag i datalogi under navne som datadeduplikering, eksempelvis identifikation, navn matcher, dubletter, og duplikere rekord detektion (Elmagarmid, Ipeirotis, and Verykios 2007) . Der er også privatliv bevare tilgange til at registrere kobling, der ikke kræver transmission af personlige oplysninger (Schnell 2013) . Forskere på Facebook udviklet en procedure for probabilisticsly forbinde deres poster til vælgeradfærd (Jones et al. 2013) ; denne kobling blev gjort for at vurdere et eksperiment, som jeg vil fortælle dig om i kapitel 4 (Bond et al. 2012) .
Et andet eksempel på at knytte en storstilet social undersøgelse til offentlige administrative registre kommer fra Sundhed og pensionering Survey og Social Security Administration. For mere om denne undersøgelse, herunder oplysninger om godkendelsesproceduren, se Olson (1996) og Olson (1999) .
Processen med at kombinere mange kilder til administrative registre i en master datafil-den proces, som Catalyst medarbejdere-er almindelig i de statistiske kontorer i visse nationale regeringer. To forskere fra Sveriges Statistik har skrevet en detaljeret bog om emnet (Wallgren and Wallgren 2007) . For et eksempel på denne fremgangsmåde i et enkelt amt i USA (Olmsted County, Minnesota, hjemsted for Mayo Clinic), se Sauver et al. (2011) . For mere om fejl, der kan vises i administrative registre, se Groen (2012) .