Ovaj dio je osmišljen kako bi se koristiti kao referenca, a ne da se čitati kao priče.
Mnogi od tema u ovom poglavlju također se spominje iu nedavnim predsjedničkim i adrese na American Association of Public Opinion Research (AAPOR), kao što su Dillman (2002) , Newport (2011) , Santos (2014) , te Link (2015) .
Za više povijesnu pozadinu o razvoju anketama, vidi Smith (1976) i Converse (1987) . Za više informacija o ideji o tri razdoblja u anketama, vidi Groves (2011) i Dillman, Smyth, and Christian (2008) (koji razbija tri ere malo drugačije).
Vrhunac u prijelazu iz prve u drugu eru u anketama je Groves and Kahn (1979) , koji se detaljan head-to-head usporedbu između licem-u-lice i telefonske ankete. Brick and Tucker (2007) gleda na povijesni razvoj random znamenka metode uzorkovanja biranje.
Za više kako anketa istraživanje je promijenio u prošlosti kao odgovor na promjene u društvu, vidjet Tourangeau (2004) , Mitofsky (1989) , i Couper (2011) .
Učenje o unutarnjim stanjima postavljajući pitanja može biti problematično jer ponekad sami ispitanici nisu svjesni svojih unutarnjih stanja. Na primjer, Nisbett and Wilson (1977) imaju prekrasan papir s izazivački naslovom: "Pričanje više nego što možemo znati. Verbalnih izvješća o mentalnim procesima" U radu autori zaključuju: "subjekti su ponekad (a) poštuju od postojanje stimulaciju koja važnije utjecala odgovor, (b) znao za postojanje odgovora, i (c), zaboravili da je poticaj je utjecao na odgovor. "
Za argumente koji istraživači trebaju vole promatrati ponašanje prijavljenog ponašanja ili stavova, vidi Baumeister, Vohs, and Funder (2007) (psihologija) i Jerolmack and Khan (2014) i odgovora (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologija). Razlika između traženja i promatranja proizlazi iz ekonomije, gdje su istraživači govore o navedenim i otkrio preferencijama. Na primjer, istraživač pitati ispitanike jesu li oni vole jesti sladoled ili ide u teretanu (navedene postavke) ili istraživanja mogla promatrati kako ljudi često jedu sladoled i ići u teretanu (pojavljuje preferencijama). Tu je dubok skepticizam nekih vrsta navedenih sklonosti podataka u ekonomiji (Hausman 2012) .
Glavna tema ovih rasprava je osoba koje su prijavili ponašanje nije uvijek točna. No, automatski se bilježe ponašanje ne može biti točna, ne može se prikupljaju na uzorku od interesa, i možda neće biti dostupan istraživačima. Tako je, u nekim situacijama, mislim da Iznesena ponašanje može biti korisno. Nadalje, drugi glavna tema ovih rasprava je da se izvješća o emocijama, znanju, očekivanja i mišljenja nisu uvijek točne. Ali, ako se informacije o ovim unutarnjim stanjima potrebna istraživača-ili kako bi se objasniti neki ponašanje ili kao što se može objasniti-onda pita može biti prikladno.
Za duljinu knjiga tretmana na ukupnu pogrešku ankete, vidjet Groves et al. (2009) ili Weisberg (2005) . Za povijest razvoja ukupne greške ankete, vidjet Groves and Lyberg (2010) .
Što se tiče reprezentacije, veliki uvod u problematiku neodaziva i pristranosti bez odgovora je izvještaj National Research Council o odbijanjima anketa u Social Science anketama: Istraživački Program (2013) . Još jedan koristan pregled pruža (Groves 2006) . Isto tako, cijela posebna izdanja časopisa Journal of službene statistike javnog mnijenja Quarterly, a Annals of American Academy of političke i društvene znanosti su objavljeni na temu ne-odgovora. Konačno, tu su zapravo mnogo različitih načina izračuna stope odgovora; Ovi pristupi su detaljno opisane u izvješću American Association of Public Opinion istraživača (AAPOR) (Public Opinion Researchers} 2015) .
1936. Književna Digest Anketa je studirao u detalj (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . To je također bio korišten kao parabola upozoriti na slučajan prikupljanja podataka (Gayo-Avello 2011) . U 1936, George Gallup koriste sofisticiranije oblik uzorkovanja, te je bio u stanju proizvesti više točne procjene s mnogo manjem uzorku. Gallup uspjeh preko Literary Digest je bio prekretnica razvoj anketama (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Što se tiče mjerenja, veliki prvi izvor za projektiranje upitnika je Bradburn, Sudman, and Wansink (2004) . Za više napredni tretman usmjeren isključivo na stav pitanja, vidi Schuman and Presser (1996) . Više prethodno ispitivanje pitanja dostupan je na Presser and Blair (1994) , Presser et al. (2004) , te Poglavlje 8 Groves et al. (2009) .
Tretman klasik, knjiga duljina trade-off između troškova i Anketa o greškama je Groves (2004) .
Klasični tretman knjiga duljina standardne vjerojatnosti uzorkovanja i procjene su Lohr (2009) (više uvodni) i Särndal, Swensson, and Wretman (2003) (napredniji). Klasični tretman knjiga duljina nakon stratifikacije i srodnih metoda je Särndal and Lundström (2005) . U nekim digitalnim postavkama dobi, znanstvenici znaju vrlo malo o ne-ispitanika, što nije bilo često slučaj u prošlosti. Različiti oblici prilagodbe bez odgovora su moguće kada znanstvenici imaju informacije o ne-ispitanika (Kalton and Flores-Cervantes 2003; Smith 2011) .
Xbox Proučavanje Wang et al. (2015) koristi tehniku zvanu višerazinski regresije i post-stratifikacija (MRP, ponekad zvan "Mister P") koji omogućuje istraživačima da procijene stanica znači čak i kada postoji mnogo, mnogo stanica. Iako postoji određena rasprava o kvaliteti procjene iz ove tehnike, čini se kao obećavajući područja za istraživanje. Tehnika je prvi put korišten u Park, Gelman, and Bafumi (2004) , a tu je naknadno korištenje i rasprava (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Za više informacija o povezanosti pojedinih težina i težina se temelje na stanici vidi Gelman (2007) .
Za ostale pristupa ponderiranja web anketama, vidi Schonlau et al. (2009) , Valliant and Dever (2011) , a Bethlehem (2010) .
Podudaranje uzorak je predložio Rivers (2007) . Bethlehem (2015) tvrdi da su performanse uzorak podudaranja će zapravo biti sličan drugim pristupima uzorkovanja (npr slojevitog uzorkovanja) i drugim pristupima prilagodbe (npr nakon stratifikacije). Za više informacija o online panela, vidi Callegaro et al. (2014) .
Ponekad istraživači su otkrili da su uzorci vjerojatnost i uzorci nisu vjerojatnost prinos procjene slične kvalitete (Ansolabehere and Schaffner 2014) , ali i druge usporedbe su otkrili da uzorci nisu vjerojatnost gora (Malhotra and Krosnick 2007; Yeager et al. 2011) . Jedan od mogućih razloga za ove razlike je da su uzorci nisu vjerojatnost poboljšana tijekom vremena. Za više pesimističan pogled na metode nisu vjerojatnosti uzorkovanja vidjeti na AAPOR Task Force on Non-vjerojatnosti uzorkovanja (Baker et al. 2013) , i ja također preporučujem čitanje komentara koji slijedi sažetak izvješća.
Za meta-analiza o utjecaju ponderiranja se smanjila pristranost u uzorcima koji nisu vjerojatnosti, vidi tablicu 2.4 u Tourangeau, Conrad, and Couper (2013) , što dovodi autore na zaključak "prilagodbe Čini se da su korisni, ali pogrešiva korekcije. , ".
Conrad and Schober (2008) daje zbornika pod naslovom kojim se predviđa Anketa Intervju za budućnost, a to rješava mnoge od tema u ovom poglavlju. Couper (2011) bavi slične teme, a Schober et al. (2015) pruža lijep primjer kako metode prikupljanja podataka koji su prilagođeni novom okruženju može rezultirati višim kvalitete podataka.
Za još jedan zanimljiv primjer korištenja Facebook aplikacija za istraživanja društvenih znanosti, vidi Bail (2015) .
Za više savjeta o tome anketama ugodan i vrijedno iskustvo za sve sudionike, vidjeti rad na skrojen dizajn metoda (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) nudi tretman dužina knjiga ekološke trenutne procjene i srodnim metodama.
Judson (2007) je opisao proces kombiniranja istraživanja i administrativne podatke kao "integracije informacija", govori neke prednosti ovog pristupa, i nudi neke primjere.
Drugi način na koji znanstvenici mogu koristiti digitalne tragove i administrativnih podataka je okvir uzorkovanja za osobe s posebnim karakteristikama. Međutim, pristup ti podaci će se koristiti okvir uzorkovanja također može stvoriti pitanja koja se odnose na privatnost (Beskow, Sandler, and Weinberger 2006) .
Što se tiče pojačan molba, ovaj pristup nije toliko nova jer bi to moglo pojaviti od kako sam ga opisao. Ovaj pristup ima duboke veze na tri velika područja statistike model-based post-stratifikacije (Little 1993) , predodžbe (Rubin 2004) , a procjenjuje mali prostor (Rao and Molina 2015) . Također se odnose na korištenje zamjenskih varijabli u medicinskim istraživanjima (Pepe 1992) .
Osim etičkih pitanja koja se tiču pristupa podacima digitalni trag, pojačan molba može se koristiti i za zaključiti osjetljive osobine koje ljudi ne bi mogli izabrati da bi se otkrilo u anketi (Kosinski, Stillwell, and Graepel 2013) .
Troškove i vrijeme procjene u Blumenstock, Cadamuro, and On (2015) više se odnose na varijablu troškova trošak jedne dodatne anketa-a ne uključuju fiksne troškove kao što su troškovi čišćenja i obrade podataka poziva. Općenito, pojačan molba će vjerojatno imati visoke fiksne troškove, a mali varijabilnih troškova slične digitalne pokusa (vidi poglavlje 4). Više detalja o podacima koji se koriste u Blumenstock, Cadamuro, and On (2015) Rad u Blumenstock and Eagle (2010) i Blumenstock and Eagle (2012) . Pristupi iz više imputuation (Rubin 2004) može pomoći hvatanje nesigurnosti u procjenama pojačanim pitanju. Ako se radi istraživači pojačan traži samo brigu o skupnim točkama, a ne pojedinac razini osobina, tada pristupi King and Lu (2008) i Hopkins and King (2010) može biti korisna. Za više informacija o pristupima strojnog učenja u Blumenstock, Cadamuro, and On (2015) , vidi James et al. (2013) (više uvodni) ili Hastie, Tibshirani, and Friedman (2009) (napredniji). Još jedno popularno udžbenik strojnog učenja je Murphy (2012) .
Što se tiče obogaćen pitam, rezultati u Ansolabehere i Hersh (2012) zglob na dva ključna koraka: 1) sposobnost Catalist kombinirati više različitih izvora podataka za izradu točne majstor datafile i 2) sposobnost Catalist povezati podatke ankete za njegov gospodar datafile. Dakle, Ansolabehere i Hersh provjeriti svaki od tih koraka pažljivo.
Za izradu master datafile, Catalist objedinjuje i usklađuje podatke iz različitih izvora, uključujući: više glasačkih evidencija snimke iz svake države, podaci iz poštanskog ureda Nacionalnog promjeni adrese registra i podataka iz drugih neodređenih komercijalnih usluga. Podrobne pojedinosti o tome kako je sve to čišćenje i spajanje događa izvan opsega ove knjige, ali taj proces, bez obzira na to koliko je oprezan, širiti će se greške u originalnim izvorima podataka i da će uvesti pogreške. Iako Catalist bio spreman razgovarati o njegovu obradu podataka, te dati neke od svojih neobrađenih podataka, to je jednostavno nemoguće istraživači pregledati cijeli Catalist podataka plinovoda. Umjesto toga, znanstvenici su bili u situaciji u kojoj je Catalist datoteke podataka imao neku nepoznatu, a možda i nepristupačan, iznos pogreške. To je ozbiljan problem, jer kritičar može nagađati da su velike razlike između anketa izvješća o CCE-ova i ponašanja u Catalist datoteke matični podaci su uzrokovane pogreškama u datoteci matični podaci, a ne netočno ispitanika.
Ansolabehere i Hersh uzeo dva različita pristupa rješavanju kvalitete podataka zabrinutost. Prvo, osim usporedbe samostalni izvijestio glasovanje za glasovanje u Catalist matičnoj datoteci, istraživači su također u odnosu samostalno prijavio stranke, rasu, status registracije birača (npr registriran ili nije registriran) i način glasovanja (npr, osobno, u odsustvu glasovanje, itd) na one vrijednosti koje nalazimo u Catalist bazama podataka. Za ove četiri demografskih varijabli, istraživači su pronašli mnogo više razine sporazuma između izvještaja o pregledu i podaci u Catalist matičnoj datoteci nego za glasovanje. Dakle, Catalist datoteka Master Data čini se da imaju visoke kvalitetne informacije za koje nisu glasovanja osobine, što sugerira da to nije loše ukupnu kvalitetu. Drugo, u dijelu koji koristi podatke iz Catalist, Ansolabehere i Hersh razvio tri različite mjere kvalitete županija glasovanja zapisa, a otkrili su da je procijenjena stopa nad-izvješćivanje glasovanja bio je u biti povezana s bilo kojim od ovih kvalitetnih podataka mjera, utvrditi da ukazuju na to da su visoke stope nad-izvješćivanje se ne pokreće po županijama s neuobičajeno niske kvalitete podataka.
S obzirom na stvaranje ovog majstora glasovanja datoteke, drugi izvor mogućih pogrešaka povezuje zapise ankete na njega. Na primjer, ako je to veza je učinjeno na pogrešan način bi to moglo dovesti do precjenjuju razlike između prijavljene i potvrđene ponašanje birača (Neter, Maynes, and Ramanathan 1965) . Ako je svaka osoba imala stabilnu, jedinstveni identifikator koji je bio u oba izvora podataka, onda veza bila beznačajna. U SAD-u i većini drugih zemalja, međutim, ne postoji univerzalni identifikator. Nadalje, čak i ako su takav identifikator ljudi će vjerojatno biti neodlučan da ga dati na pregled istraživače! Dakle, Catalist morao učiniti povezanost pomoću nesavršenih identifikatora, u ovom slučaju četiri komada informacije o svakom ispitaniku: ime i prezime, spol, godine rođenja i adresa stanovanja. Na primjer, Catalist morao odlučiti da li Homie J Simpson u CCE-ova bila je ista osoba kao i Homer Jay Simpson u matične podatke datoteke. U praksi, slaganje je teško i neredu proces, a da stvar bude gora za istraživače, Catalist smatra odgovarajućoj tehnici da se vlasnički.
U cilju potvrđivanja podudaranje algoritama, oslanjali su se na dva izazova. Prvo, Catalist sudjelovao u odgovarajući natjecanje koje se vodi od strane neovisne treće strane: na Mitre Corporation. Mitre pruža svim sudionicima dvije bučnih podatkovne datoteke koje treba uskladiti, a različiti timovi natjecali su se vratili na Mitre najbolje odgovara. Budući da sama Mitre znao točan podudaranja su bili u mogućnosti postići timova. Od 40 tvrtki koje su se natjecali, Catalist je došao na drugo mjesto. Ova vrsta neovisnog, treće strane vrednovanja vlasnička tehnologija je vrlo rijetka i izuzetno vrijedna; to bi nam trebalo dati povjerenje da Catalist u zadanim uvjetima postupci su u osnovi na stanje-of-the-art. Ali je stanje-of-the-art dovoljno dobro? Pored ovog podudaranja natjecanja, Ansolabehere i Hersh stvorili vlastiti odgovarajući izazov za Catalist. Iz ranijeg projekta, Ansolabehere i Hersh je prikupio birača zapisa iz Floride. Oni su pod uvjetom neke od tih zapisa s nekim svojim područjima mijenjaju se da Catalist, a zatim u usporedbi Catalist je izvještaje o tim područjima na njihove stvarne vrijednosti. Srećom, izvješća Catalist bili blizu zadržana vrijednosti, što znači da Catalist može odgovarati parcijalne birača zapisa na matične podatke datoteke. Ta dva izazova, jedan od treće strane, a jedan od Ansolabehere i Hersh, daj nam više povjerenja u Catalist podudaranja algoritama, iako ne možemo provjeriti njihovu točnu provedbu sebe.
Bilo je puno pokušaja da potvrdiš glasovanje. Za pregled toj literaturi, vidi Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , a Hanmer, Banks, and White (2014) .
Važno je napomenuti da, iako je u ovom slučaju znanstvenici su ohrabreni kvaliteti podataka iz Catalist, druge procjene komercijalnih dobavljača bili manje oduševljeni. Istraživači su otkrili loše kvalitete podataka iz ankete potrošača-datoteku iz Marketing Systems Group (koja je i sama spojene podatke iz tri davatelja: Acxiom, experian, i infoUSA) (Pasek et al. 2014) . To je, podatkovna datoteka ne odgovara odgovore na anketu da istraživači se očekuje da će biti točna, datafile je podatke koji nedostaju za veliki broj pitanja, a nedostaje uzorak podataka je povezana s prijavljen ankete vrijednosti (drugim riječima podataka nestalih bila sustavno , a ne slučajna).
Za više informacija o rekordnom veze između istraživanja i administrativnih podataka, vidi Sakshaug and Kreuter (2012) i Schnell (2013) . Za više informacija o rekordnom povezanosti u cjelini, vidi Dunn (1946) i Fellegi and Sunter (1969) (povijesnu) i Larsen and Winkler (2014) (moderna). Slični se pristupi Također su razvijeni u računalnoj znanosti pod imenima kao što deduplication podataka, primjerice identifikaciju, ime podudaranja, duple otkrivanje, i duple rekord otkrivanje (Elmagarmid, Ipeirotis, and Verykios 2007) . Tu su i privatnost očuvanja pristupa za snimanje veze koje ne zahtijevaju prijenos podatke za osobnu identifikaciju (Schnell 2013) . Istraživači na Facebook razvio postupak za probabilisticsly povezati svoje zapise u ponašanju birača (Jones et al. 2013) ; ova veza je učinjeno za procjenu eksperiment koji ću vam reći o u poglavlju 4 (Bond et al. 2012) .
Još jedan primjer povezivanja velikih razmjera socijalnu anketu za državne administrativne evidencije proizlazi iz mirovinsko i zdravstveno izmjeri i Social Security Administration. Za više informacija o tom studiju, uključujući i informacije o postupku suglasnosti, vidi Olson (1996) i Olson (1999) .
Proces kombinirajući mnogo izvora administrativnih evidencija u master Datafile-procesa koji Catalist zaposlenici-je uobičajeno u statističkim uredima pojedinih nacionalnih vlada. Dva istraživača iz statistike Švedske napisali detaljan knjigu o toj temi (Wallgren and Wallgren 2007) . Za primjer ovog pristupa u jednoj županiji u Sjedinjenim Američkim Državama (Olmstead županije, Minnesota, domaći od Mayo Clinic), vidi Sauver et al. (2011) . Za više informacija o pogreškama koje se mogu pojaviti u administrativnim evidencijama, vidi Groen (2012) .