Ovaj dio je dizajniran da se koristi kao referenca, a ne da se čita kao narativ.
Mnogi od tema u ovom poglavlju su i odjeknula u nedavnim predsedničkim Adrese na Američkog udruženja za istraživanje javnog mišljenja (AAPOR), kao što su Dillman (2002) , Newport (2011) , Santos (2014) , i Link (2015) .
Za više istorijsku pozadinu o razvoju istraživanju, pogledajte Smith (1976) i Converse (1987) . Za više informacija o ideji tri epohe u istraživanju, pogledajte Groves (2011) i Dillman, Smyth, and Christian (2008) (koji razbija tri epohe malo drugačije).
A vrhunac unutar tranzicije od prvog do drugog doba u istraživanju je Groves and Kahn (1979) , koja se bavi detaljnu usporedbu glava-to-head između licem u lice i telefonska anketa. Brick and Tucker (2007) osvrće na povijesni razvoj slučajnih cifra metoda biranje uzorkovanja.
Za više kako istraživanju promijenio u prošlosti, kao odgovor na promjene u društvu, pogledajte Tourangeau (2004) , Mitofsky (1989) , i Couper (2011) .
Učenje o unutrašnja stanja postavljanjem pitanja može biti problematično, jer ponekad sami ispitanici nisu svjesni svojih unutrašnjih stanja. Na primjer, Nisbett and Wilson (1977) imaju prekrasan papir sa upečatljive naslovom: "odgovora više nego što možemo znati:. Verbalni izvještaje o mentalnim procesima" U radu autori zaključuju: "subjekti su ponekad (a) ne zna se postojanje stimulans koji važnije uticala na odgovor, (b) ne znaju za postojanje odgovora, i (c) ne znaju da je stimulans je uticala na odgovor. "
Za argumente da istraživači treba vole posmatrati ponašanje na prijavljene ponašanje ili stavove, pogledajte Baumeister, Vohs, and Funder (2007) (psihologija) i Jerolmack and Khan (2014) i odgovora (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (sociologija). Razlika između pita i pridržavajući se javlja u ekonomiji, gdje istraživači govore o naveo i otkrio preferencije. Na primjer, istraživač bi mogao pitati ispitanika da li oni vole jesti sladoled ili će teretanu (navedeno preferencije) ili istraživanja mogla posmatrati kako često ljudi jedu sladoled i idem u teretanu (otkrio preferencije). Postoji duboki skepticizam određenih vrsta podataka navedenih preferencije u ekonomiji (Hausman 2012) .
A glavna tema iz ovih rasprava je da prijavljenih ponašanje nije uvijek precizan. Ali, automatski snimaju ponašanje ne može biti precizan, ne mogu biti prikupljeni na uzorku od interesa, i možda neće biti dostupan istraživačima. Tako je, u nekim situacijama, mislim da prijavljenih ponašanje može biti korisna. Nadalje, drugi glavna tema iz ovih rasprava je da su izvještaji o emocijama, znanje, očekivanja, i mišljenja nisu uvijek precizne. Ali, ako se informacije o ovim unutrašnja stanja potrebne istraživači-bilo da pomogne objasniti neke ponašanja ili kao stvar koju treba objasniti-onda pita može biti prikladno.
Za dužina knjiga tretmane na ukupno greške ankete, pogledajte Groves et al. (2009) ili Weisberg (2005) . Za povijest razvoja ukupne greške ankete, pogledajte Groves and Lyberg (2010) .
U pogledu zastupljenosti, veliki uvod u pitanjima neodaziva i pristrasnost ne-odgovor je izvještaj National Research Council na Nonresponse u Social Science Istraživanja: A Research Agenda (2013) . Još jedan koristan pregled pruža (Groves 2006) . Također, čitav posebna izdanja časopisa službene statistike, javno mnjenje Quarterly, i Anali Američke akademije za političke i društvene nauke su objavljeni na temu neodaziva. Na kraju, tu su zapravo mnogo različitih načina obračuna stopa odgovora; ovi pristupi su detaljno opisana u izvještaju Američkog udruženja javnog mnjenja Istraživači (AAPOR) (Public Opinion Researchers} 2015) .
1936. Literary Digest anketa je studirao u detalj (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Također je koristi kao parabolu da upozori na nasumičnom prikupljanje podataka (Gayo-Avello 2011) . Godine 1936., George Gallup koristi sofisticiraniji oblik uzorkovanja, i bio je u stanju proizvesti preciznije procjene sa znatno manjem uzorku. Uspjeh Gallup nad Književni Digest je bila prekretnica u razvoju anketnog istraživanja (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Što se tiče mjerenja, sjajan prvi resurs za dizajniranje upitnika je Bradburn, Sudman, and Wansink (2004) . Za naprednije tretman usmjerena posebno na odnos pitanja, pogledajte Schuman and Presser (1996) . Više o pitanjima pred-testiranje je dostupan u Presser and Blair (1994) , Presser et al. (2004) , i poglavlje 8 Groves et al. (2009) .
Tretman klasična, knjiga-dužina trade-off između troškova istraživanja i grešaka istraživanja je Groves (2004) .
Klasični knjiga dužine tretman standardnih vjerovatnoće uzorkovanja i procjene su Lohr (2009) (još uvodni) i Särndal, Swensson, and Wretman (2003) (napredniji). Klasične knjige dužine tretman post-stratifikacije i srodnih metoda je Särndal and Lundström (2005) . U nekim digitalnom dobu postavke, istraživači zna dosta o non-ispitanika, što nije bilo često istina u prošlosti. Moguće su različite oblike prilagođavanja neodaziva kada su istraživači imaju informacije o non-ispitanika (Kalton and Flores-Cervantes 2003; Smith 2011) .
Xbox studiji Wang et al. (2015) koristi tehniku koja se zove više nivoa regresije i post-stratifikacije (MRP, ponekad se naziva "Mister P") koji omogućava istraživačima procijeniti ćelije znači da čak i kada postoji mnogo, mnogo ćelija. Iako postoji neka rasprava o kvalitetu procjene iz ove tehnike, čini se kao područje obećavajući za istraživanje. Tehnika je prvi put koristi u Park, Gelman, and Bafumi (2004) , a došlo je i kasniju upotrebu i rasprava (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Za više informacija o vezi između pojedinih težine i težine ćelija na bazi vidjeti Gelman (2007) .
Za ostale pristupi ponderisanja web ankete, pogledajte Schonlau et al. (2009) , Valliant and Dever (2011) , i Bethlehem (2010) .
Uzorak podudaranje je predložio Rivers (2007) . Bethlehem (2015) tvrdi da je učinak uzorka odgovarajući će zapravo biti sličan drugim pristupima uzorkovanja (npr slojevitog uzorkovanja) i drugi pristupi podešavanje (npr, nakon stratifikacije). Za više informacija o online ploče, pogledajte Callegaro et al. (2014) .
Ponekad istraživači su otkrili da uzoraka vjerojatnost i uzorci nisu verovatnoća daju procjene sličnih kvaliteta (Ansolabehere and Schaffner 2014) , ali drugi usporedbe su otkrili da uzorci nisu verovatnoća i gore (Malhotra and Krosnick 2007; Yeager et al. 2011) . Jedan od mogućih razloga za ove razlike je da uzorci ne verovatnoća su se poboljšali tokom vremena. Za više pesimističan pogled na ne-vjerovatnoće metodama uzorkovanja vidjeti na AAPOR Radna grupa za Non-vjerojatnost uzorkovanja (Baker et al. 2013) , i preporučujem čitajući komentare koji slijedi izvještaj sažetak.
Za meta-analiza o efektima pondera kako bi se smanjila pristranost u uzorcima ne verovatnoća, vidi tabelu 2.4 u Tourangeau, Conrad, and Couper (2013) , koji vodi autori zaključuju "prilagođavanja izgleda da su korisne, ali pogrešivo korekcije. . . "
Conrad and Schober (2008) daje uređivanje volumen pod nazivom Vizioniranja Ankete Intervju budućnosti, a to se odnosi na mnoge od tema u ovom poglavlju. Couper (2011) bavi sličnim temama, i Schober et al. (2015) pruža lijep primjer kako metode prikupljanja podataka koji su prilagođeni na novu postavku može dovesti do viših kvalitetnih podataka.
Za još jedan zanimljiv primjer putem Facebooka aplikacija za istraživanja društvenih nauka, pogledajte Bail (2015) .
Za više savjeta o izradi ankete ugodno i vrijedno iskustvo za sudionike, vidjeti rad na Tailored Design Method (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) nudi dužina knjiga tretman ekoloških trenutne procjene i srodnih metoda.
Judson (2007) opisao je proces kombiniranja istraživanja i administrativnih podataka kao "informacija integracije", govori neke prednosti ovog pristupa, i nudi neke primjere.
Drugi način da istraživači mogu koristiti digitalne tragove i administrativnih podataka je uzorkovanje okvir za ljude sa specifičnim karakteristikama. Međutim, pristup ovi podaci će se koristiti okvir uzorkovanja može kreirati pitanja koja se odnose na privatnost (Beskow, Sandler, and Weinberger 2006) .
Što se tiče pojačan pitam, ovaj pristup nije toliko nova jer se mogu pojaviti od kako sam ga opisao. Ovaj pristup ima duboke veze sa tri velika područja u statistici-model-based post-stratifikacije (Little 1993) , podmetanje (Rubin 2004) , i mali procjena području (Rao and Molina 2015) . To se odnosi i na upotrebu surogat varijabli u medicinskim istraživanjima (Pepe 1992) .
Osim etičkih pitanja u vezi pristupa podacima digitalni trag, pojačan pitam se takođe mogu koristiti za zaključiti osjetljivih osobine koje ljudi možda neće izabrati da otkrije u istraživanju (Kosinski, Stillwell, and Graepel 2013) .
Troškovi i vrijeme procjene u Blumenstock, Cadamuro, and On (2015) odnosi više na varijabilni troškovi-troškovi jednog dodatnog istraživanja-a ne uključuju fiksne troškove kao što su troškovi za čišćenje i obradu podataka poziv. U principu, pojačan pitam će vjerojatno imaju visoke fiksne troškove i nizak varijabilni troškovi sličan digitalni eksperimente (vidi poglavlje 4). Više detalja o podacima koji se koriste u Blumenstock, Cadamuro, and On (2015) rad su u Blumenstock and Eagle (2010) i Blumenstock and Eagle (2012) . Pristupi sa više imputuation (Rubin 2004) može pomoći hvatanje nesigurnosti u procjenama iz pojačan pitam. Ako radite istraživači pojačan pita samo stalo agregat računa, a ne osobina pojedinca nivou, onda se pristupa u King and Lu (2008) i Hopkins and King (2010) može biti korisna. Za više informacija o pristupima učenju mašina u Blumenstock, Cadamuro, and On (2015) , vidi James et al. (2013) (više uvodni) ili Hastie, Tibshirani, and Friedman (2009) (napredniji). Još jedna popularna udžbenik za učenje mašina je Murphy (2012) .
Što se tiče obogaćen pitam, rezultati u Ansolabehere i Hersh (2012) šarka na dva ključna koraka: 1) sposobnost Catalist kombinirati više različitih izvora podataka za izradu precizne majstor datafile i 2) sposobnost Catalist za povezivanje podataka istraživanja u njegov gospodar datafile. Stoga, Ansolabehere i Hersh provjeriti svaki od ovih koraka pažljivo.
Za kreiranje master datafile, Catalist objedinjuje i usklađuje informacije iz različitih izvora, uključujući: višestruko glasanje zapisa snimaka iz svake države, podaci iz Pošte Nacionalni Promjena Adresa registra, i podaci iz drugih neodređene komercijalnih usluga. Krvave detalje o tome kako se dešava sve ovo čišćenje i spajanje su izvan okvira ove knjige, ali ovaj proces, bez obzira na to koliko je pažljiv, će propagandom greške u originalnom izvora podataka i da će uvesti greške. Iako Catalist bila spremna da razgovaraju svoje obrade podataka i daju neke od svojih sirovih podataka, to je jednostavno nemoguće za istraživače koji će napisati komentar na cijelu Catalist podataka cjevovoda. Umjesto toga, istraživači su bili u situaciji u kojoj je Catalist datoteku podataka imao neki nepoznati, a možda i nepoznat, iznos pogreške. Ovo je ozbiljan problem jer je kritičar može nagađati da je velika razlika između izvještaja istraživanja o CCES i ponašanje u Catalist datoteku matičnih podataka su uzrokovane greškama u datoteci matičnih podataka, a ne pogrešnim ispitanika.
Ansolabehere i Hersh je dva različita pristupa rješavanju kvaliteta podataka zabrinutost. Prvo, osim u odnosu samoprijavljenih glasanje na glasanje u glavnoj datoteci Catalist, istraživači su također u odnosu samoprijavljenih stranke, rase, status registracije birača (npr registrovani ili nije registrovan) i način glasanja (npr, u osoba, u odsustvu glasački listić, itd) na te vrijednosti nalaze u Catalist bazama podataka. Za ove četiri demografske varijable, istraživači su otkrili mnogo viši nivo sporazuma između izvještaja istraživanja i podataka u Catalist master file nego za glasanje. Stoga, čini se da Catalist datoteku matične podatke da imaju kvalitetne informacije za osobine osim glasa, što ukazuje da nije loše ukupne kvalitete. Drugo, u dijelu koristeći podatke iz Catalist, Ansolabehere i Hersh razvio tri različite mjere kvaliteta županijskih glasanja evidencije, i otkrili su da je procijenjena stopa od preko-izvještavanje glasanja bio je u suštini nemaju veze sa bilo kojim od ovih kvaliteta podataka mjere, zaključak da ukazuju na to da su visoke stope preko-izvještavanje ne voze po županijama sa neuobičajeno niske kvalitete podataka.
S obzirom na stvaranje ovog majstora glasanja datoteku, drugi izvor potencijalnih grešaka se povezuje evidencije ankete na njega. Na primjer, ako se to povezivanje se vrši na pogrešan način može dovesti do više-procjena razlika između prijavljenih i potvrđeni glasanja ponašanje (Neter, Maynes, and Ramanathan 1965) . Ako svaka osoba ima stabilnu, jedinstveni identifikator koji je bio u oba izvora podataka, onda povezanost bi bilo trivijalno. U SAD-u i većini drugih zemalja, međutim, ne postoji univerzalni identifikator. Osim toga, čak i ako je bilo takvih identifikator ljudi bi vjerojatno biti neodlučni da obezbijedi da ankete istraživača! Stoga, Catalist morao povezanost koristeći nesavršene identifikatora, u ovom slučaju četiri komada informacije o svakoj ispitanik: ime, pol, godina rođenja, i kućnu adresu. Na primjer, Catalist morao da odluči da li je Homi J Simpson u CCES bila ista osoba kao i Homer Jay Simpson u svojim matičnim podacima datoteke. U praksi, usklađivanje je težak i neuredan proces, i, da stvar bude gora za istraživače, Catalist smatra svoj odgovarajući tehniku da bude u vlasništvu.
Kako bi se potvrdili odgovarajući algoritmi, oslanjali su se na dva izazova. Prvo, Catalist učestvovali u odgovarajući takmičenju koje je vodio nezavisni, treća strana: u MITRE Corporation. MITRE pruža sve učesnike dva bučna datoteke podataka koji se poklapaju, i različite ekipe takmičile da se vrati u Mitre najbolje podudaranje. Jer sama MITRE znao tačan odgovarajući su bili u stanju da postigne timova. Od 40 kompanija koje su se takmičili, Catalist našao na drugom mjestu. Ova vrsta nezavisne treće strane vrednovanje vlasničkih tehnologija je prilično rijedak i izuzetno vrijedan; trebalo bi nam dati povjerenje da odgovarajući postupci Catalist su u suštini u state-of-the-art. Ali je stanje-of-the-art dovoljno dobro? Pored toga odgovarajući konkurencije, Ansolabehere i Hersh stvorili svoju odgovarajući izazov za Catalist. Od ranije projekta, Ansolabehere i Hersh je sakupio birača zapisa iz Floride. Oni su dali neke od tih zapisa uz neke od svojih polja redigovane da Catalist a zatim u odnosu izvještaje Catalist je od tih polja na njihove stvarne vrijednosti. Srećom, izvještaji Catalist bili blizu obustavljenih vrijednosti, što ukazuje da Catalist mogao odgovaraju parcijalne birača zapisa na svoje matične podatke datoteke. Ova dva izazova, jedan od treće strane i jedan od Ansolabehere i Hersh, dajte nam više povjerenja u Catalist odgovarajući algoritmi, iako ne možemo preispitaju svoje točne realizacije sebe.
Bilo je mnogo raniji pokušaji da se potvrdi glasanje. Za pregled da književnost, pogledajte Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , i Hanmer, Banks, and White (2014) .
Važno je napomenuti da, iako je u ovom slučaju istraživači su ohrabreni kvaliteta podataka iz Catalist, druge procjene komercijalnih proizvođača su manje entuzijazma. Istraživači su otkrili loše kvalitete kada podaci iz ankete na potrošačke datoteku iz Marketing Systems Group (koja je i sama spajaju podatke od tri operatora: Acxiom, Experian, i infoUSA) (Pasek et al. 2014) . To je, datoteka podataka ne odgovara odgovora istraživanje koje istraživači očekuje da će biti ispravan, datafile je podataka koji nedostaju za veliki broj pitanja, a nedostaju obrazac podaci su u korelaciji na prijavljene vrijednosti istraživanje (drugim riječima podacima nedostaju je sistematski , a ne slučajna).
Za više informacija o zapisnik veze između istraživanja i administrativnih podataka, pogledajte Sakshaug and Kreuter (2012) i Schnell (2013) . Za više informacija o zapisnik povezanosti u cjelini, pogledajte Dunn (1946) i Fellegi and Sunter (1969) (historical) i Larsen and Winkler (2014) (moderne). Slična pristupi su i razvijeni u računarstvu pod imenima kao što su deduplikaciju podataka, identifikaciju primjer, ime usklađivanje, duplikat otkrivanje, kao i umnožavanje rekord otkrivanje (Elmagarmid, Ipeirotis, and Verykios 2007) . Tu su i privatnost očuvanje pristupa za snimanje spoj koji ne zahtijevaju prijenos osobno identifikaciju informacija (Schnell 2013) . Istraživači na Facebook razvili postupak probabilisticsly povežu svoje evidencije glasanja ponašanje (Jones et al. 2013) ; ova povezanost je učinjeno da proceni eksperiment da ću vam reći u poglavlju 4 (Bond et al. 2012) .
Još jedan primjer povezivanja velikih razmjera društvenih istraživanja na vlasti administrativnih evidencija dolazi od zdravlja i ankete umirovljenika i Uprava socijalne sigurnosti. Za više informacija o toj studiji, uključujući informacije o postupku odobrenja, pogledajte Olson (1996) i Olson (1999) .
Proces kombinacije mnogih izvora administrativnih evidencija u master datafile-proces koji Catalist zaposleni-je uobičajena u uredima za statistiku nekih nacionalnih vlada. Dva istraživača iz Švedske statistike napisali detaljan knjigu na temu (Wallgren and Wallgren 2007) . Na primjer ovog pristupa u jednoj županiji u Sjedinjenim Američkim Državama (Olmstead County, Minnesota; dom Mayo Clinic), pogledajte Sauver et al. (2011) . Za više informacija o greškama koje se mogu pojaviti u administrativnih evidencija, pogledajte Groen (2012) .