Paljusid selle peatüki teemasid on kajastatud hiljutiste Ameerika avaliku arvamuse uuringute assotsiatsiooni (AAPOR) presidendi aadressidel, nagu Dillman (2002) , Newport (2011) , Santos (2014) ja Link (2015)
Lisateavet uuringusuuringute ja põhjalike intervjuude erinevuste kohta vt Small (2009) . Põhjalikumate intervjuude seos on etnograafia käsitlusviiside perekond. Etnograafilises uurimises kulutavad teadlased tavaliselt oma looduskeskkonnas osalejatele palju rohkem aega. Täpsemat teavet etnograafia ja põhjalike intervjuude vahel vt Jerolmack and Khan (2014) . Lisateavet digitaalse etnograafia kohta vt Pink et al. (2015) .
Minu uuringuuuringute ajaloo kirjeldus on liiga lühike, et hõlmata paljusid põnevaid arenguid, mis on toimunud. Ajaloolise tausta kohta vt Smith (1976) , Converse (1987) ja Igo (2008) . Lisateavet uuringu kolme ajastu idee kohta vt Groves (2011) ja Dillman, Smyth, and Christian (2008) (mis laguneb kolmest ajastust veidi erinevalt).
Groves and Kahn (1979) pakuvad uurimistulemustes üleminekut esimesest teise ajastu, tehes üksikasjaliku näo-pilgu ja telefoniküsitluse vahelise võrdluse. ( ??? ) vaadake tagasi juhusliku numbrivalimise proovivõtumeetodite ajaloolisele arengule.
Selleks, kuidas Tourangeau (2004) minevikus muutunud vastuseks ühiskonna muutustele, vt Tourangeau (2004) , ( ??? ) ja Couper (2011) .
Psühholoogid (nt Baumeister, Vohs, and Funder (2007) , Jerolmack and Khan (2014) Baumeister, Vohs, and Funder (2007) ) ja sotsioloogid (nt Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) , Jerolmack and Khan (2014) ]. Erinevus küsimise ja jälgimise vahel tekib ka majanduses, kus teadlased räägivad märgitud ja ilmutatud eelistustest. Näiteks võib teadlane küsida vastajatelt, kas nad eelistavad süüa jäätist või jõusaalisse (märgitud eelistused) või võib jälgida, kui tihti inimesed söövad jäätist ja jõuavad jõusaali (näitavad eelistused). Hausman (2012) kirjelduses on ökonoomika teatud tüüpi eelistatud andmete teatavat liiki skeptitsism.
Nende arutelude peamine teema on see, et teatatud käitumine ei ole alati täpne. Kuid nagu on kirjeldatud peatükis 2, ei pruugi suured andmeallikad olla täpsed, neid ei pruugita koguda huvipakkuva valimi jaoks ja need ei pruugi olla teadlastele kättesaadavad. Seega arvan, et mõnes olukorras võib teatatud käitumine olla kasulik. Lisaks on nende arutelude teine peamine teema see, et emotsioonide, teadmiste, ootuste ja arvamuste aruanded ei ole alati täpsed. Kuid kui teadlased vajavad teavet nende sisemiste seisundite kohta - kas selleks, et aidata mõnda käitumist selgitada või seda selgitada, siis võib küsimine olla asjakohane. Loomulikult võib siseprobleemide tundmaõppimine küsimuste esitamisel olla problemaatiline, sest mõnikord ei ole vastajad ise oma sisemistest riikidest teadlikud (Nisbett and Wilson 1977) .
Groves (2004) 1. peatükk Groves (2004) teeb suurepärase töö, mis ühendab uuringute teadlaste aeg-ajalt ebajärjekindlalt kasutatavat terminoloogiat, et kirjeldada kogu küsitluste viga. Uuringute Groves et al. (2009) koguarvu pikkuse käsitlemiseks vt Groves et al. (2009) ja ajaloolise ülevaate saamiseks vt Groves and Lyberg (2010) .
Samuti on masinõppes ka mõtteid vigu lagundada erapoolikust ja dispersioonist; vt näiteks Hastie, Tibshirani, and Friedman (2009) punkt 7.3. See viib sageli teadlastele rääkimise kompromissi "erapoolikust varieerumisest".
Esinduse osas on suurepärane sissejuhatus mittereavastuse ja vastamata jätmise küsimuste hulka Riikliku Teadusnõukogu aruandes "Mittesekkumine sotsiaalteaduslikes uuringutes: uurimiskava" (2013) . Veel üks kasulik ülevaade on esitatud Groves (2006) . Samuti on avaldamata vastuste teemal avaldatud kogu ametliku statistika väljaande , avaliku arvamuse kvartalite ja Ameerika Ühendriikide poliitika- ja sotsiaalakadeemia aastakirjade erinumbrid. Lõpuks on reageerimise määra arvutamisel tegelikult palju erinevaid viise; neid lähenemisviise kirjeldatakse üksikasjalikult Ameerika Avaliku arvamuse uurijate ühingu (AAPOR) ( ??? ) aruandes.
Lisateavet 1936. aasta Kirjandusteaduste küsitluse kohta vt Bryson (1976) , Squire (1988) , Cahalan (1989) ja Lusinchi (2012) . Veel ühe arutelu selle küsitluse kohta, mis on sarnaste hoiatus rünnakuandmete kogumiseks, vt Gayo-Avello (2011) . 1936. aastal kasutas George Gallup keerukamaid proovivõtumeid ja suutis valmistada palju täpsemaid prognoose palju väiksemate valimitega. Gallupi edu kirjandusteatise kohta oli uuringusuuringute arendamise teetähis, nagu on kirjeldatud @ converse_survey_1987 3. peatükis; Ohmer (2006) 4. peatükk Ohmer (2006) ; ja @ igo_averaged_2008 3. peatükk.
Mõõtmise mõttes on suur küsimustike kujundamise esimene allikas Bradburn, Sudman, and Wansink (2004) . Täiendavate ravivõimaluste kohta vt Schuman and Presser (1996) , mis keskendub konkreetselt hoiakute küsimustele ja Saris and Gallhofer (2014) , mis on üldisem. Veidi teistsugust lähenemist mõõtmise tegemiseni psühhomeetria, nagu on kirjeldatud ( ??? ) . Rohkem pretestamist saab Presser and Blair (1994) , Presser et al. (2004) ja Groves et al. (2009) 8. peatükis Groves et al. (2009) . Lisateavet vaatluskatsete kohta vt Mutz (2011) .
Kulude osas on vaatluskulude ja Groves (2004) kompromisside klassikaline, pikkune käsitlemine Groves (2004) .
Kaks standardset tõenäosusproovide võtmist ja hinnangut käsitlevad klassikalised pikkused on Lohr (2009) (sissejuhatavad) ja Särndal, Swensson, and Wretman (2003) (täpsemad). Särndal and Lundström (2005) järgselt ja nendega seotud meetodite klassikaline kirjavahemärkide käsitlemine on Särndal and Lundström (2005) . Mõnes digitaalajastu seadetes teavad teadlased üsna vähe mitterespondente, mis varem ei olnud tõsi. Mitte-vastuste korrigeerimise mitmesugused vormid on võimalikud, kui teadlastel on teavet mitterespondentide kohta, nagu on kirjeldanud Kalton and Flores-Cervantes (2003) ja Smith (2011) .
W. Wang et al. (2015) Xboxi uuring W. Wang et al. (2015) kasutab tehnikat, mida nimetatakse mitmetasandilise regressiooni ja stratifitseerimisele ("hr P."), mis võimaldab teadlastel rühma vahendeid hinnata ka siis, kui on palju, palju rühmi. Kuigi selle meetodi kohta hinnangute kvaliteet on mõnevõrra arutelu, näib see olevat paljutõotav ala, mida uurida. Seda tehnikat kasutati esmakordselt Park, Gelman, and Bafumi (2004) ning selle kasutamist ja arutelu on järgnenud (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . Lisateavet üksikute kaalude ja rühmakoormuste vahelise seose kohta vt Gelman (2007) .
Schonlau et al. (2009) kaalumiseks kasutatavate muude lähenemisviiside kohta vt Schonlau et al. (2009) , Bethlehem (2010) ja Valliant and Dever (2011) . Online paneelid võivad kasutada kas tõenäosusproovide võtmist või ebatõenäolist valimit. Lisateavet Callegaro et al. (2014) vt Callegaro et al. (2014) .
Mõnikord on teadlased leidnud, et tõenäosusproovid ja (Ansolabehere and Schaffner 2014) proovid annavad sarnase kvaliteediga hinnanguid (Ansolabehere and Schaffner 2014) , kuid muud võrdlused on leidnud, et mitte tõenäolised proovid halvenevad (Malhotra and Krosnick 2007; Yeager et al. 2011) . Nende erinevuste üks võimalik põhjus on see, et mittetundlikud proovid on aja jooksul paranenud. Potentsiaalselt ebatõenäoliste proovivõtumeetodite pessimistlikumaks vaatamiseks vaadake AAPORi mittevastava proovivõtmise töökonda (Baker et al. 2013) ja ma soovitan ka lugeda kokkuvõtlikku aruannet järgivat kommentaari.
Conrad and Schober (2008) on väljaandev kogu, mille pealkiri on "Uuringu tulevikuteemaline intervjueerimine" ja pakub erinevaid seisukohti küsimuste esitamise tulevikust. Couper (2011) käsitleb sarnaseid teemasid ja Schober et al. (2015) on hea näide sellest, kuidas uue seadistusega kohandatud andmete kogumise meetodid võivad kaasa tuua kvaliteetsemaid andmeid. Schober and Conrad (2015) pakuvad üldisemat argumenti uuringutealase uurimistöö protsessi kohandamise jätkamiseks ühiskonna muutustega.
Tourangeau and Yan (2007) käsitlevad tundlikes küsimustes sotsiaalse soovi kõrvalekaldeid ja Lind et al. (2013) pakuvad mõningaid võimalikke põhjuseid, miks inimesed võivad arvutisisene intervjuu käigus avaldada tundlikumat teavet. Lisateavet inimeste intervjueerijate rolli kohta uurimuste osatähtsuse suurendamisel vt Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) ja Schaeffer et al. (2013) . Lisateavet segatüüpi vaatluste kohta vt Dillman, Smyth, and Christian (2014) .
Stone et al. (2007) pakuvad ökoloogilise hetkearvestuse ja sellega seotud meetodite raamatupikkust.
Lisateavet osalejate jaoks uuringute tegemiseks nauditavast ja väärtuslikust kogemusest leiate teemast Tailored Design Method (Dillman, Smyth, and Christian 2014) . Veel üks huvitav näide Facebooki rakenduste kasutamisest sotsiaalteaduslike uuringute jaoks leiate Bail (2015) .
Judson (2007) kirjeldab uuringute ja administratiivsete andmete kombineerimise protsessi kui "teabe integratsiooni" ning arutleb selle lähenemisviisi mõningate eeliste ja näidete esitamise üle.
Mis puudutab rikastatud küsimusi, siis on olnud palju eelmisi hääli kinnitamise katseid. Kirjanduse ülevaate saamiseks vaadake Belli et al. (1999) Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) ning Berent, Krosnick, and Lupia (2016) . Vaadake Berent, Krosnick, and Lupia (2016) , et Ansolabehere and Hersh (2012) tulemusi skeptiliselt.
On oluline märkida, et kuigi Ansalabehere ja Hersh julgustasid Katalisti andmete kvaliteeti, on kommertstoodete müüjate hinnangud olnud vähem entusiastlikud. Pasek et al. (2014) leiti halva kvaliteediga, kui uuringu andmeid võrreldi Marketing System Groupi (kes ühendas endas kokku kolme teenusepakkuja andmed: Acxiom, Experian ja InfoUSA) tarbijafaili. See tähendab, et andmefail ei vastanud uuringu vastustele, mida teadlased oodati õigesti, oli tarbijafailil palju andmeid küsimuste kohta puudu ja puuduv andmete muster oli korrelatsioonis teatatud uuringu väärtusega (teisisõnu, puuduvate andmetega andmed olid süstemaatilised, mitte juhuslikud).
Vaata rohkem uuringute ja administratiivsete andmete vahelise seose kohta vt Sakshaug and Kreuter (2012) ja Schnell (2013) . Lisateavet rekordite ühendamise kohta üldiselt leiate Dunn (1946) ja Fellegi and Sunter (1969) (ajalooliselt) ja Larsen and Winkler (2014) (tänapäevased). Sarnased lähenemised on välja töötatud ka infotehnoloogias selliste nimede all nagu andmetöötlus, nt identifitseerimine, nimede sobitamine, duplikaadide tuvastamine ja duplikaadi tuvastamine (Elmagarmid, Ipeirotis, and Verykios 2007) . Samuti on olemas eraelu puutumatust säilitavad lähenemisviisid, et salvestada sidet, mis ei nõua isikuandmete edastamist (Schnell 2013) . Facebookis asuvatel teadlastel on välja töötatud kord, mis tõenäoliselt seostab oma arvestust hääletamise käitumisega (Jones et al. 2013) ; see seos tehti, et hinnata eksperimenti, mida ma teile 4. peatükis (Bond et al. 2012) . Lisateavet salvestuste ühendamise nõusoleku saamise kohta vt Sakshaug et al. (2012) .
Teine näide ulatusliku sotsiaalse küsitluse sidumisest valitsuse administratiivsete dokumentidega on seotud tervise ja pensionide uuringuga ja sotsiaalkindlustusametiga. Lisateavet selle uuringu kohta, sealhulgas teavet nõusolekumenetluse kohta vt Olson (1996, 1999) .
Paljude riikide valitsuste statistikaametitel on ühine paljude administratiivsete dokumentide allikate peamine andmetabel - protsess, mida Katalista töötab. Kaks statistikatööstuse teadlast on sellel teemal kirjutanud üksikasjaliku raamatu (Wallgren and Wallgren 2007) . Selle lähenemise näitena ühes Ameerika Ühendriikide maakonnas (Olmsteadi maakond, Minnesota, Mayo kliiniku kodu) vt Sauver et al. (2011) . Lisateavet haldusaktidel kuvatavate vigade kohta vt Groen (2012) .
Teine viis, kuidas teadustöötajad saavad uuringuuringutes kasutada suuri andmeallikaid, on proovivõturaam eripäraga inimestele. Kahjuks võib see lähenemine tekitada privaatsusega seotud küsimusi (Beskow, Sandler, and Weinberger 2006) .
Suuremate küsimuste puhul pole see lähenemine nii uus, kui see võib ilmneda selle põhjal, mida ma seda kirjeldasin. Sellel on sügavad ühendused kolme suure statistilise valdkonnaga: mudelipõhine post-kihistumine (Little 1993) , imputeerimine (Rubin 2004) ja väike ala hinnang (Rao and Molina 2015) . See on seotud ka asendusnäitajate kasutamisega meditsiinilises uuringus (Pepe 1992) .
Blumenstock, Cadamuro, and On (2015) kulude ja aja hinnangud viitavad rohkem muutuvatele kuludele - ühe lisauuringu maksumusele - ja ei sisalda püsikulusid, näiteks kõneandmete puhastamise ja töötlemise kulusid. Üldiselt on laiendatud küsitlustel tõenäoliselt suured püsikulud ja väikesed muutuvad kulud, mis on sarnased digitaalsete katsetega (vt 4. peatükk). Lisateavet arengumaade mobiiltelefoni põhiste uuringute kohta vt Dabalen et al. (2016) .
Ideede kohta, kuidas võimendusi paremini küsida, soovitaksin rohkem teada saada mitmest arvestusest (Rubin 2004) . Kui aga teadlased, kes täidavad võimendusi ja nõuavad pigem täiskasvanute arvu arvestamist kui üksikisiku tunnuseid, võivad olla kasulikud lähenemisviisid King and Lu (2008) ja Hopkins and King (2010) . Lõpuks, selleks, et saada rohkem teavet masinõppe meetodite kohta Blumenstock, Cadamuro, and On (2015) , vaata James et al. (2013) (sissejuhatavad) või Hastie, Tibshirani, and Friedman (2009) (täpsemalt).
Üks võimendava küsimisega seotud eetiline probleem on see, et seda saab kasutada selliste tundlike tunnuste leidmiseks, mida inimesed Kosinski, Stillwell, and Graepel (2013) kirjelduses kirjeldatud uuringus ei pruugi avaldada.