Številne teme v tem poglavju so bile tudi na nedavnih naslovih ameriške zveze za raziskave javnega mnenja (AAPOR), kot so Dillman (2002) , Newport (2011) , Santos (2014) in Link (2015) .
Več o razlikah med raziskovalnimi raziskavami in poglobljenimi intervjuji glej Small (2009) . V zvezi z poglobljenimi intervjuji je družina pristopov, imenovanih etnografija. V etnografskih raziskavah raziskovalci običajno preživijo veliko več časa s sodelujočimi v svojem naravnem okolju. Več o razlikah med etnografijo in poglobljenimi intervjuji glej Jerolmack and Khan (2014) . Za več o digitalni etnografiji glej Pink et al. (2015) .
Moj opis zgodovine raziskovalnega raziskovanja je preveč kratek, da vključuje številne vznemirljive dogodke, ki so se zgodili. Za več zgodovinskega ozadja glej Smith (1976) , Converse (1987) in Igo (2008) . Več o zamisli o treh obdobjih raziskav, glej Groves (2011) in Dillman, Smyth, and Christian (2008) (ki rahlo razčlenjujejo tri erase).
Groves and Kahn (1979) ponujata peek znotraj prehoda od prve do druge raziskave v ankete tako, da opravijo podrobno primerjavo med direktnim in telefonskim anketiranjem. ( ??? ) pogled nazaj na zgodovinski razvoj naključno številčnega izbiranja metod vzorčenja.
Več o tem, kako se je raziskava raziskav v preteklosti spremenila v odziv na spremembe v družbi, glej Tourangeau (2004) , ( ??? ) in Couper (2011) .
Jerolmack and Khan (2014) in opazovanje so razpravljali psihologi (npr. Baumeister, Vohs, and Funder (2007) ) in sociologi (npr. Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) , Jerolmack and Khan (2014) ] Razlika med postavljanjem in opazovanjem se pojavlja tudi v ekonomiji, kjer se raziskovalci pogovarjajo o navedenih in razkritih preferencah. Na primer, raziskovalec bi vprašal anketirance, ali raje jedo sladoled ali gremo v telovadnico (navedene preferenciale) ali opazili, kako pogosto ljudje jedo sladoled in pojdite v telovadnico (razkrili želje). Obstaja globok skepticizem o določenih vrstah navedenih preferencnih podatkov v ekonomiji, kot je opisano v Hausman (2012) .
Glavna tema teh razprav je, da poročano vedenje ni vedno točno. Toda, kot je opisano v poglavju 2, veliki viri podatkov morda niso točni, jih ne smejo zbirati na vzorcu zanimanja in morda niso dostopni raziskovalcem. Zato menim, da je lahko v nekaterih situacijah prijavljeno vedenje koristno. Poleg tega druga glavna tema teh razprav je, da poročila o čustvih, znanju, pričakovanjih in mnenjih niso vedno točna. Če pa raziskovalci potrebujejo informacije o teh notranjih stanjih, bodisi da bi pomagali razložiti nekaj vedenja ali kako je treba pojasniti, potem je morda vprašljivo. Seveda je spoznavanje notranjih držav s postavljanjem vprašanj lahko problematično, saj včasih anketiranci sami ne vedo za svoje notranje stanje (Nisbett and Wilson 1977) .
Poglavje 1 Groves (2004) naredi odlično delo, ki usklajuje občasno nedosledno terminologijo, ki so jo raziskovalni raziskovalci uporabili za opis celotnega okvira napak v anketi. Za knjigovodsko obdelavo celotnega okvira napak v pregledu glej Groves et al. (2009) in za zgodovinski pregled glej Groves and Lyberg (2010) .
Ideja razgradnje napak v pristranskost in variance se pojavlja tudi v strojnem učenju; glej na primer oddelek 7.3 Hastie, Tibshirani, and Friedman (2009) . To pogosto vodi do raziskovalcev, da govorijo o kompromisu "pristranskosti".
Kar zadeva zastopanje, je velik uvod v vprašanja nepriznanja in neprizadevanja pristranskosti poročilo Nacionalnega raziskovalnega sveta o nesoglasju v raziskavah družbenih ved: raziskovalni program (2013) . Drugi koristen pregled je Groves (2006) . Tudi na temo neodgovora so bila objavljena tudi celotna posebna izdaja Statističnega uradnega lista , Četrtletno mnenje javnega mnenja in Anali Ameriške akademije političnih in družbenih ved . Na koncu je dejansko veliko različnih načinov za izračun stopnje odziva; ti pristopi so podrobno opisani v poročilu Ameriškega združenja raziskovalcev javnega mnenja (AAPOR) ( ??? ) .
Več o anketi Literary Digest iz leta 1936 glej Bryson (1976) , Squire (1988) , Cahalan (1989) in Lusinchi (2012) . Za drugo razpravo o tej anketi kot opozorilno opozorilo o zbiranju naključnih podatkov glej Gayo-Avello (2011) . Leta 1936 je George Gallup uporabil bolj prefinjeno obliko vzorčenja in je lahko izdelal natančnejše ocene z veliko manjšim vzorcem. Gallupov uspeh nad literarnim dnevnikom je bil mejnik pri razvoju raziskovalnega raziskovanja, kot je opisano v poglavju 3 @ converse_survey_1987; 4. poglavje Ohmer (2006) ; in poglavje 3 @ igo_averaged_2008.
V smislu merjenja je odličen prvi vir za oblikovanje vprašalnikov Bradburn, Sudman, and Wansink (2004) . Za bolj napredne tretmane glej Schuman and Presser (1996) , ki je posebej osredotočena na postavljanje vprašanj, in Saris and Gallhofer (2014) , kar je bolj splošno. Nekoliko drugačen način merjenja je psihometrija, kot je opisano v ( ??? ) . Več o preoblikovanju je na voljo v Presser and Blair (1994) , Presser et al. (2004) in poglavje 8 Groves et al. (2009) . Za več o poskusih raziskav glejte Mutz (2011) .
Z vidika stroškov je klasična, knjigovodska obravnava kompromisa med stroški raziskav in napakami v raziskovanju Groves (2004) .
Lohr (2009) (bolj uvodno) sta klasična verjetnostna vzorčenje in ocena klasičnih knjigovodskih obdelav in Särndal, Swensson, and Wretman (2003) (bolj napredna). Klasična obdelava post-stratifikacije in s tem povezanih metod klasične knjige je Särndal and Lundström (2005) . V nekaterih okoliščinah digitalne dobe raziskovalci vedo precej o nepopisnikih, ki v preteklosti niso bili pogosto resnični. Različne oblike nespremenjene prilagoditve so možne, kadar raziskovalci razpolagajo z informacijami o nepopisnikih, kot so opisali Kalton and Flores-Cervantes (2003) in Smith (2011) .
Raziskava Xboxa W. Wang et al. (2015) uporablja tehniko, ki se imenuje večstopenjska regresija in post-stratifikacija ("g. P."), ki raziskovalcem omogoča, da ocenijo skupinsko sredstvo, tudi če obstaja veliko, veliko skupin. Čeprav obstaja nekaj razprave o kakovosti ocen iz te tehnike, se zdi, da je obetavno območje za raziskovanje. Tehnika je bila prvič uporabljena v Park, Gelman, and Bafumi (2004) , kasneje pa je bila uporabljena in razprava (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Več o povezavi med posameznimi uteži in utežmi skupine glej Gelman (2007) .
Za druge pristope k ponderiranju spletnih anket glej Schonlau et al. (2009) , Bethlehem (2010) in Valliant and Dever (2011) . Spletne plošče lahko uporabljajo vzorčenje verjetnosti ali vzorčenje brez verjetnosti. Za več informacij o spletnih panelih glej Callegaro et al. (2014) .
Včasih so raziskovalci ugotovili, da vzorci verjetnosti in vzorci brez verjetnosti privedejo do ocen podobne kakovosti (Ansolabehere and Schaffner 2014) , vendar so druge primerjave ugotovile, da vzorci z verjetnostjo niso slabši (Malhotra and Krosnick 2007; Yeager et al. 2011) . Eden od možnih razlogov za te razlike je, da so vzorci brez verjetnosti sčasoma izboljšali. Za bolj pesimističen pogled na načine vzorčenja brez verjetnosti glej delovno skupino AAPOR za vzorčenje brez verjetnosti (Baker et al. 2013) , in priporočam tudi branje komentarja, ki sledi povzetemu poročilu.
Conrad and Schober (2008) je urejena knjiga z naslovom Predstavljanje anketnega intervjuja za prihodnost , in ponuja raznolike stališča o prihodnosti postavljanja vprašanj. Couper (2011) obravnava podobne teme, in Schober et al. (2015) ponujajo lep primer, kako lahko metode zbiranja podatkov, ki so prilagojene novi nastavitvi, privedejo do podatkov višje kakovosti. Schober and Conrad (2015) ponujata splošnejši argument, da še naprej prilagajata proces raziskav raziskav, da se ujemajo s spremembami v družbi.
Tourangeau and Yan (2007) pregledata vprašanja pristranskosti socialne želje pri občutljivih vprašanjih, in Lind et al. (2013) ponujajo nekatere možne razloge, zakaj bi ljudje razkrili bolj občutljive podatke v računalniško vodenem intervjuju. Za več informacij o vlogi človeških anketarjev pri povečanju stopnje udeležbe pri anketah glej Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) in Schaeffer et al. (2013) . Več o anketah z mešanim načinom si oglejte Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) ponujajo knjigovodsko obdelavo ekološke trenutne ocene in s tem povezane metode.
Za več nasvetov o tem, da bi raziskovanje priredili prijetne in dragocene izkušnje za udeležence, si oglejte delo o metodah prilagojene zasnove (Dillman, Smyth, and Christian 2014) . Za še en zanimiv primer uporabe aplikacij Facebook za raziskovanje družbenih ved, glej Bail (2015) .
Judson (2007) opisuje postopek združevanja raziskav in administrativnih podatkov kot "integracijo informacij" in obravnava nekatere prednosti tega pristopa ter ponudi nekaj primerov.
V zvezi z obogatenim vprašanjem je bilo veliko predhodnih poskusov preverjanja glasovanja. Za pregled te literature glej Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) ter Berent, Krosnick, and Lupia (2016) . Glej Berent, Krosnick, and Lupia (2016) za bolj skeptičen pogled na rezultate, predstavljene v Ansolabehere and Hersh (2012) .
Pomembno je omeniti, da čeprav sta Ansolabehere in Hersh spodbudila kakovost podatkov iz Catalista, so bila druga vrednotenja komercialnih prodajalcev manj navdušena. Pasek et al. (2014) ugotovili slabe kakovosti, kadar so bili podatki iz ankete primerjani s potrošniškim dosjejem iz skupine Marketing Systems (ki je združila podatke treh ponudnikov: Acxiom, Experian in InfoUSA). To pomeni, da se podatkovna datoteka ni ujemala z anketnimi odgovori, za katere so pričakovali, da so raziskovalci pravilni, da je potrošnikova datoteka za veliko število vprašanj manjka, manjkajoči podatkovni vzorec pa je bil v korelaciji z objavljeno vrednostjo anketiranja (z drugimi besedami, podatki so bili sistematični, ne naključni).
Več o rekordni povezavi med anketami in administrativnimi podatki glej Sakshaug and Kreuter (2012) in Schnell (2013) . Več o rekordnih povezavah na splošno glej Dunn (1946) in Fellegi and Sunter (1969) (zgodovinsko) in Larsen and Winkler (2014) (moderno). Podobni pristopi so bili razviti tudi v računalništvu pod imeni, kot so deduplikacija podatkov, identifikacija primera, ujemanje imena, dvojno zaznavanje in odkrivanje podvojenih zapisov (Elmagarmid, Ipeirotis, and Verykios 2007) . Obstajajo tudi pristopi, ki ohranjajo zasebnost, da beležijo povezavo, ki ne zahteva prenosa osebnih podatkov (Schnell 2013) . Raziskovalci na Facebooku so razvili postopek za verjetnost povezovanja svojih evidenc z glasovnim vedenjem (Jones et al. 2013) ; ta povezava je bila izvedena za ovrednotenje preizkusa, ki vam ga bom povedal v 4. poglavju (Bond et al. 2012) . Za več informacij o pridobivanju privolitve za rekordno povezavo glej Sakshaug et al. (2012) .
Drug primer povezovanja obsežnega družbenega raziskovanja z vladnimi upravnimi dokumenti izhaja iz ankete o zdravju in upokojevanju ter uprave za socialno varnost. Več o tej študiji, vključno s podatki o postopku soglasja, glej Olson (1996, 1999) .
Proces združevanja številnih virov administrativnih zapisov v podatkovni zbirki podatkov - proces, ki ga uporablja Catalist - je v statističnih uradih nekaterih nacionalnih vlad običajen. Dva raziskovalca iz Statistike Švedske sta napisali podrobno knjigo o temi (Wallgren and Wallgren 2007) . Za primer tega pristopa v eni državi v Združenih državah (okrožje Olmstead, Minnesota, dom Klinike Mayo) glej Sauver et al. (2011) . Več o napakah, ki se lahko pojavijo v administrativnih zapisih, glej Groen (2012) .
Drug način, kako lahko raziskovalci uporabljajo velike vire podatkov v raziskavah raziskav, je vzorčni okvir za ljudi s posebnimi značilnostmi. Na žalost lahko ta pristop postavlja vprašanja v zvezi z zasebnostjo (Beskow, Sandler, and Weinberger 2006) .
V zvezi z zahtevnejšimi vprašanji tega pristopa ni tako nov, kot se morda zdi, kako sem ga opisal. Ima globoke povezave s tremi velikimi področji v statistiki: post-stratifikacija na podlagi modela (Little 1993) , imputation (Rubin 2004) in ocena majhne površine (Rao and Molina 2015) . Povezana je tudi z uporabo nadomestnih spremenljivk v medicinskih raziskavah (Pepe 1992) .
Ocene stroškov in časa v Blumenstock, Cadamuro, and On (2015) se bolj nanašajo na variabilne stroške - stroške dodatne raziskave - in ne vključujejo fiksnih stroškov, kot so stroški čiščenja in obdelave podatkov o klicu. Na splošno bo povečano povpraševanje verjetno imelo visoke fiksne stroške in nizke spremenljive stroške, podobne tistim pri digitalnih eksperimentih (glej poglavje 4). Več o raziskavah na podlagi mobilnih telefonov v državah v razvoju glej Dabalen et al. (2016) .
Za ideje o tem, kako izboljšati povpraševanje, priporočam več informacij o večkratni imputaciji (Rubin 2004) . Tudi če raziskovalci počnejo razmišljati o vprašanju skupnega števila in ne na posameznih lastnostih, so lahko koristni pristopi v King and Lu (2008) ter Hopkins and King (2010) . Končno, za več o pristopih strojnega učenja v Blumenstock, Cadamuro, and On (2015) glej James et al. (2013) (bolj uvodno) ali Hastie, Tibshirani, and Friedman (2009) (bolj napredni).
Kosinski, Stillwell, and Graepel (2013) zaprosilu je, da ga je mogo ~ e uporabiti za sklepanje občutljivih lastnosti, ki jih morda ne bodo odkrili v anketi, kot je opisano v Kosinski, Stillwell, and Graepel (2013) .