Овој дел е дизајниран да се користи како референца, а не да се чита како приказна.
Повеќето од темите во ова поглавје исто така се повтори во последните претседателски адреси на Американската асоцијација за истражување на јавното мислење (AAPOR), како што Dillman (2002) , Newport (2011) , Santos (2014) , и Link (2015) .
За повеќе историска позадина за развојот на анкетно истражување, видете Smith (1976) и Converse (1987) . За повеќе информации за идејата на три периоди на анкетно истражување, видете Groves (2011) и Dillman, Smyth, and Christian (2008) (кој ја разбива три периоди малку поинаку).
А врв во внатрешноста на преминот од првиот до вториот ера во истражувањето Истражувањето е Groves and Kahn (1979) , која се занимава со детален глава-до-глава споредба на лице-в-лице и телефонска анкета. Brick and Tucker (2007) изгледа се врати на историскиот развој на методи за земање примероци по случаен избор цифрен бирање.
За повеќе како анкета истражување промени во минатото, како одговор на промените во општеството, види Tourangeau (2004) , Mitofsky (1989) , и Couper (2011) .
Учиме за внатрешни состојби со поставување на прашања може да биде проблематична, бидејќи понекогаш самите испитаници не се свесни за нивните внатрешни состојби. На пример, Nisbett and Wilson (1977) имаат прекрасен хартија со примамлив наслов: "кажува повеќе отколку што може да се знае. Вербална извештаи за ментални процеси" Во документот од страна на авторите заклучуваат: "предмети се понекогаш (а) не се свесни за постоењето на стимул што е најважно влијание одговор, (б) не се свесни за постоењето на одговор, и (в) не се свесни дека стимул влијаеше на одговор. "
За аргументи дека истражувачите треба да претпочитаат забележани однесување на пријавени однесување или ставови, види Baumeister, Vohs, and Funder (2007) (психологија) и Jerolmack and Khan (2014) и одговори (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (социологија). Разликата помеѓу поставување и следење, исто така, се појави во економијата, каде истражувачите се зборува за што е наведено и откри параметри. На пример, истражувач може да побара од испитаниците дали тие сакаат да јадат сладолед или да оди во теретана (наведени параметри) или истражувањето може да се забележи колку често луѓето јадат сладолед и да одат во теретана (откри параметри) на. Постои голем скептицизам на одредени видови на податоците наведени параметри во економијата (Hausman 2012) .
А главната тема од овие дебати е дека пријавени однесување не е секогаш точна. Но, автоматски снимени однесување не може да биде точна, не можат да се собираат на примерок од интерес, и да не е достапен на истражувачите. Така, во некои ситуации, мислам дека пријавени однесување може да биде корисно. Понатаму, втората главна тема од овие дебати е дека извештаите за чувствата, знаење, очекувања и мислења не се секогаш точни. Но, ако се потребни информации во врска со овие внатрешни состојби од страна на истражувачите, или да помогне да се објасни некои однесување или како нешто што треба да се објасни, а потоа барајќи може да биде соодветно.
За лекување во должина книга на вкупниот грешка истражувањето, види Groves et al. (2009) или Weisberg (2005) . За историјата на развојот на вкупната грешка истражувањето, види Groves and Lyberg (2010) .
Во поглед на застапеноста, голем вовед во прашања на неодговор и пристрасност неодговарање е извештајот на Националниот истражувачки совет на nonresponse во Општествена наука истражувања: А агенда за истражување (2013) . Друга корисна преглед е обезбедена од страна (Groves 2006) . Исто така, целиот посебни прашања на весник на официјалната статистика, јавното мислење тримесечни и аналите на Американската академија за политички и социјални науки се објавени на темата на не-одговор. Конечно, таму се всушност многу различни начини на пресметување на стапката на одговор; овие пристапи се детално опишани во извештајот на Американската асоцијација на јавното мислење во истражувањето (AAPOR) (Public Opinion Researchers} 2015) .
1936 книжевна Уметност анкетата на е проучен во детали (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . Тоа е исто така се користи како парабола да ги предупреди против случаен собирање на податоци (Gayo-Avello 2011) . Во 1936 година, Џорџ Галуп користи пософистицирана форма на земање примероци, и беше во можност да се произведе повеќе точни проценки со многу помал примерок. Успехот на Галуп над книжевна Уметност беше пресвртница во развојот на анкетно истражување (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
Во однос на мерењето, голем прв извор на информации за дизајнирање на прашалници е Bradburn, Sudman, and Wansink (2004) . За повеќе напредни третман фокусирани конкретно на став прашања, види Schuman and Presser (1996) . Повеќе за прашања пред-тестирање е достапна во Presser and Blair (1994) , Presser et al. (2004) , и Поглавје 8 од Groves et al. (2009) .
Третман на класиката, книга-должина на трампа помеѓу трошоците за премер и грешки анкета е Groves (2004) .
Класичен третман книга должина на стандардни теоријата на веројатност и проценка се Lohr (2009) (повеќе воведен) и Särndal, Swensson, and Wretman (2003) (повеќе напредно). Класичен третман книга должина на пост-стратификација и поврзаните методи е Särndal and Lundström (2005) . Во некои дигитални поставувања возраст, истражувачите знаат доста за не-испитаниците, што не беше често случај во минатото. Различни форми на прилагодување на неодговор се можни кога истражувачите имаат информации за не-испитаници (Kalton and Flores-Cervantes 2003; Smith 2011) .
Студијата на Xbox Wang et al. (2015) го користи техника наречена многоетапна регресија и пост-стратификација (MRP, понекогаш се нарекува "Господин Па"), кој им овозможува на истражувачите да се процени клетки значи дека дури и кога има многу, многу клетки. Иако има некои дебата за квалитетот на проценките од оваа техника, се чини како ветувачки област за истражување. Оваа техника е прв пат употребен во Park, Gelman, and Bafumi (2004) , а има и понатамошна употреба и дебата (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . За повеќе информации за врската меѓу одделни пондери и мобилни базирани на тегови види Gelman (2007) .
За други пристапи за пондерирање веб истражувања, видете Schonlau et al. (2009) , Valliant and Dever (2011) , како и Bethlehem (2010) .
Појавување на примерокот беше предложен од страна на Rivers (2007) . Bethlehem (2015) тврди дека ефикасноста на примерок за појавување на, всушност, ќе биде слична на другите пристапи за земање примероци (на пример, стратификуван примерок) и други пристапи прилагодување (на пример, пост-стратификација). За повеќе информации за онлајн панели, види Callegaro et al. (2014) .
Понекогаш истражувачи откриле дека веројатноста примероци и не-веројатност примероци дадат проценки на сличен квалитет (Ansolabehere and Schaffner 2014) , но и други споредби се покажа дека не-веројатност примероци се полоши (Malhotra and Krosnick 2007; Yeager et al. 2011) . Една од можните причини за овие разлики е тоа што не веројатност примероци се подобри со текот на времето. За повеќе песимистички поглед на методите за не-теоријата на веројатност се види на Работната група за AAPOR за Не-теоријата на веројатност (Baker et al. 2013) , и јас исто така препорачувам читање на коментарите што следува сумарниот извештај.
На мета-анализа на ефектот на тежина за намалување на пристрасност во не-веројатност примероци, види Табела 2.4 во Tourangeau, Conrad, and Couper (2013) , што доведува авторите да се заклучи "корекција се чини дека се корисни, но грешат корекции. . ".
Conrad and Schober (2008) обезбедува пат изменето волумен со наслов Предвидуваат Истражување Интервју на иднината, а тоа се однесува на голем број на теми во овој дел. Couper (2011) се однесува на слични теми и Schober et al. (2015) нуди убав пример за тоа како собирање на податоци методи кои се прилагодени на новата поставка може да резултира во повисоки квалитетни податоци.
За уште еден интересен пример за користење на Фејсбук апликации за истражување на општествените науки, видете Bail (2015) .
За повеќе совети за правење истражувања пријатно и корисно искуство за учесниците, видете работат на дизајн Метод Прилагодена (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) нуди третман должина книга на еколошки моментална проценка и поврзани методи.
Judson (2007) го опиша процесот на комбинирање на истражувања и административни податоци како "информации интеграција", зборува за некои од предностите на овој пристап, и нуди некои примери.
Друг начин на кој истражувачите можат да користат дигитални траги и административни податоци е рамка на примерокот за лица со специфични карактеристики. Сепак, пристап до овие податоци да се користи рамка за земање мостри исто така може да се создаде прашања поврзани со приватноста (Beskow, Sandler, and Weinberger 2006) .
Во врска со засилена прашам, овој пристап не е како нов како што може да се појави од како сум го опиша. Овој пристап има длабоки врски со три големи области во областа на статистиката-модел базиран пост-стратификација (Little 1993) , импутација (Rubin 2004) , и мали проценка област (Rao and Molina 2015) . Таа, исто така се однесува на употребата на сурогат променливи во медицински истражувања (Pepe 1992) .
Во прилог на етичките прашања во врска со пристап до дигитални податоци трага, засилена прашува исто така, може да се користи за да заклучиме чувствителни карактеристики кои луѓето не би можеле да изберат да се открие во анкета (Kosinski, Stillwell, and Graepel 2013) .
Проценки на трошоците и времето во Blumenstock, Cadamuro, and On (2015) се однесува повеќе на варијабилни трошоци и трошоците за една дополнителна анкета и не вклучува фиксни трошоци како што се трошоците за чистење и обработка на податоците за повик. Во принцип, засилена прашува веројатно ќе имаат високи фиксни трошоци и ниски варијабилни трошоци слични на дигитални експерименти (види Поглавје 4). Повеќе детали за податоци кои се користат во Blumenstock, Cadamuro, and On (2015) хартија се во Blumenstock and Eagle (2010) и Blumenstock and Eagle (2012) . Пристапи од повеќе imputuation (Rubin 2004) може да помогне во неизвесност снимање во проценките од засилена прашува. Ако истражувачите прави засилена бара само се грижат за агрегат точки, наместо поединечни ниво на карактеристики, тогаш пристапи во King and Lu (2008) и Hopkins and King (2010) може да биде корисно. За повеќе информации околу пристапи на машина за учење во Blumenstock, Cadamuro, and On (2015) , видете James et al. (2013) (повеќе воведен) или Hastie, Tibshirani, and Friedman (2009) (повеќе напредно). Друг популарен учебник за учење на машината е Murphy (2012) .
Во врска со збогатен прашува, резултатите во Ansolabehere и Херш (2012) зависат од два клучни чекори: 1) способноста на катализатор да се комбинираат многу различни извори на податоци за да се произведе точна господар datafile и 2) способноста на катализатор за поврзување на податоците од истражувањето на својот господар datafile. Затоа, Ansolabehere и Херш провери секоја од овие чекори внимателно.
За да се создаде господар datafile, катализатор комбинира и усогласува информации од многу различни извори, вклучувајќи: повеќекратни записи гласање сликите од секоја држава, податоци од Националниот Промена на адреса регистар на Поштата, и податоци од други неодреден комерцијални добавувачи. Крвави детали за тоа како сето ова чистење и спојување се случува надвор од опсегот на оваа книга, но овој процес, без разлика колку внимателно, ќе ја пропагира грешки во оригинални извори на податоци и ќе се воведе грешки. Иако катализатор е подготвен да разговараат за својата обработка на податоци и да се обезбеди некои од сурова податоци, тоа е едноставно невозможно за истражувачите да се разгледа целиот цевковод податоци катализатор. Наместо тоа, истражувачите беа во ситуација каде што Датотека со податоци катализатор имаше некои непознати, а можеби и непознати, износот на грешка. Ова е сериозен проблем, бидејќи критичар може да се шпекулира дека големи разлики помеѓу извештаите за истражување на CCES и однесувањето во датотеката господар податоци катализатор беа предизвикани од грешки во датотека господар на податоци, а не со погрешно од страна на испитаниците.
Ansolabehere и Херш се два различни пристапи за решавање на загриженоста на квалитет на податоците. Прво, во прилог на споредување на само-објави на глас на гласањето во господар датотека катализатор, истражувачите во споредба само-објави партијата, раса, статус регистрација на гласачите (на пример, регистрирани или нерегистрирани) и начинот на гласање (на пример, во лице, отсутни гласање, итн) за да тие вредности се наоѓаат во базите на податоци катализатор. За овие четири демографските варијабли, истражувачите откриле многу повисоки нивоа на договор меѓу анкета извештај и податоци во господар датотека од катализатор за гласање. Така, датотеката господар податоци катализатор се чини дека има квалитетни информации за особини освен гласањето, што укажува дека не е со лош севкупниот квалитет. Второ, делумно користење на податоци од катализатор, Ansolabehere и Херш развивме три различни мерки на квалитетот на евиденција округот гласање, и тие откриле дека проценетата стапка на над-пријавување на гласање, во суштина, не се поврзани со некоја од овие мерки на квалитетот на податоците, откритие што укажуваат на тоа дека високите стапки на над-известување не се поттикнати од земји со невообичаено ниска квалитет на податоците.
Со оглед на создавањето на овој мајстор на датотеката гласање, вториот извор на потенцијални грешки е поврзување податоци од истражувањето на него. На пример, ако оваа поврзаност е направено погрешно тоа би можело да доведе до над-проценка на разликата помеѓу пријавени и потврдени однесување гласање (Neter, Maynes, and Ramanathan 1965) . Ако секој човек имаше стабилен, единствен идентификатор кој беше во двата извори на податоци, тогаш врската ќе биде тривијални. Во другите земји САД и повеќето, сепак, не постои универзален идентификатор. Покрај тоа, дури и ако имало такви идентификатор луѓе, најверојатно, ќе биде спремна да го обезбеди за истражување истражувачите! Така, катализатор мораше да го направи поврзување со користење на несовршени идентификатори, во овој случај, четири парчиња на информации за секој испитаник: име, пол, раѓање година, и домашна адреса. На пример, катализатор мораше да се одлучи дали homie Џеј Симпсон во CCES бев истата личност како Хомер Џеј Симпсон во нивната датотека господар на податоци. Во пракса, за појавување е тешка и неуредна процес, и, за да бидат работите уште полоши за истражувачите, катализатор смета своите појавување на техника да се заштитени.
Со цел да се провери на појавување на алгоритми, тие се потпираа на два предизвици. Прво, катализатор учествуваа на појавување натпревар кој беше водена од страна на независен, за трети лица: на Митре корпорација. Митре обезбедени сите учесници две бучни датотеки со податоци да бидат исти, и различни тимови се натпреваруваа да се врати на Митре најдобрите појавување. Бидејќи самата Митре знаеше точно појавување тие беа во можност да го постигне тимови. Од 40 компании кои се натпреваруваа, катализатор на второто место. Овој вид на независна, трета страна оценка на сопствената технологија е доста ретки и неверојатно вредни; тоа треба да ни даде доверба дека појавување процедури катализатор се во основа на state-of-the-art. Но, дали е на state-of-the-art доволно добри? Во прилог на ова појавување на конкуренцијата, Ansolabehere и Херш креирано свој појавување предизвик за катализатор. Од почетокот на проектот, Ansolabehere и Херш собрала гласачите записи од Флорида. Тие се предвидени некои од овие записи со некои од нивните полиња редактирана на катализатор и потоа ги споредува извештаи на овие области за да се нивните вистински вредности катализатор е. За среќа, извештаи катализатор беа блиску до уапсено вредности, што покажува дека катализатор може да се поклопува делумно евиденција на гласачите на нивниот господар на податоци датотека. Овие два предизвици, еден од трети страни и еден по Ansolabehere и Херш, да ни даде повеќе доверба во појавување на алгоритми на катализатор, иако не можеме да се разгледа нивната точна имплементација.
Имало многу обиди да се провери гласање. За преглед на литературата, видете Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , и Hanmer, Banks, and White (2014) .
Важно е да се напомене дека иако во овој случај истражувачите беа охрабрени од страна на квалитетот на податоците од катализатор, други проценки на комерцијални продавачите имаат помал ентузијазам. Истражувачите откриле лош квалитет кога податоците од анкетата на потрошувачите-датотека од маркетинг системи група (која и самата се спои заедно податоците од три провајдери: Acxiom, Експириан, и InfoUSA) (Pasek et al. 2014) . Тоа е, податоците датотека не се поклопува со одговори анкета која истражувачите се очекува да биде во ред, datafile го недостасуваат податоци за голем број на прашања, и исчезнати модел на податоци е во корелација со почетната вредност анкета (со други зборови, податоците кои недостасуваат систематска , не е случаен).
За повеќе информации за евиденција на поврзаноста помеѓу анкети и административни податоци, видете Sakshaug and Kreuter (2012) и Schnell (2013) . За повеќе информации за евиденција поврзување во принцип, да се види Dunn (1946) и Fellegi and Sunter (1969) (историски) и Larsen and Winkler (2014) (модерна). Слични пристапи биле развиени во компјутерски науки под имињата како што се податоци deduplication, идентификација пример, името на појавување, дупликат откривање, и дупликат евиденција за откривање (Elmagarmid, Ipeirotis, and Verykios 2007) . Постојат, исто така, зачувување на приватноста пристапи за снимање на поврзување кои не бараат пренос на лични информации (Schnell 2013) . Истражувачите на Фејсбук развиена постапка за probabilisticsly поврзат своите записи на однесувањето на гласање (Jones et al. 2013) ; оваа поврзаност е направено за да се оцени експеримент кој јас ќе ви кажам за во Глава 4 (Bond et al. 2012) .
Друг пример за поврзување на големи социјални истражување на владините административни евиденции доаѓа од здравствено и пензиско осигурување Истражување и администрација за социјално осигурување. За повеќе информации за оваа студија, вклучувајќи и информации за постапката за издавање, видете Olson (1996) и Olson (1999) .
Процесот на комбинирање на повеќе извори на административните евиденции во еден господар datafile-процесот кој катализатор вработените-е честа појава во статистичките заводи на некои национални влади. Двајца истражувачи од Шведската статистика имаат напишано детален книга на оваа тема (Wallgren and Wallgren 2007) . Како пример за овој пристап во една област во Соединетите Американски Држави (Olmstead Каунти, Минесота, домот на клиниката Мајо), види Sauver et al. (2011) . За повеќе информации за грешки кои може да се појави во административни евиденции, види Groen (2012) .