Представљање је о прављењу закључака из ваших саговорника у вашој циљној популацији.
Да би се схватило врсту грешке које могу да се догоде када закључујете од испитаника у већој популацији, размотримо Књижевни Дигест сламе анкету у којој је покушао да предвиди исход председничке изборе 1936. године. Иако је било пре више од 75 година, овај дебакл и даље има важну лекцију данас уче истраживаче.
Књижевни Дигест је популарна општи интерес часопис, а почетком 1920. почели су ради сламе анкета предвидети исход председничких избора. Да би ова предвиђања да ће послати гласачке листиће на много људи, а затим једноставно пребројавање до гласачке листиће који су враћени; Књижевни Преради поносно је известио да су гласачки листићи су добили нису ни "мерење, променити, нити тумачити." Ова процедура правилно предвидео победника од избора у 1920, 1924, 1928. и 1932. u 1936., усред Велике депресије, Књижевни Дигест послао листиће до 10 милиона људи, чија имена углавном долазе из телефонских именика и регистрацију аутомобила евиденције. Ево како су описали своје методе:
"Дигеста је Лакоходни Машина се помера са брзом прецизношћу од тридесет година искуства да се смањи нагађања у чврстим чињеницама. . . .То Недељно 500 оловке изгребан више од четврт милиона адреса дневно. Сваки дан, у великој сали високо изнад мотора-тракама Фоуртх Авенуе, у Њујорку, 400 радника спретно клизи милион комада штампани материјал-довољно да отвори четрдесет градских блокова-у су се обратили ковертама [сиц]. Сваки сат, у свари сопствене Пост Оффице трафо-станица, три брбљање поштарина мјерење машине затворена и печатом беле Облонгс; квалификовани радници поштанске их је постигао у заобљена маилсацкс; флота Дигест возила убрзала да изразе маил-возове. . . Следеће недеље, први одговори из ових десет милиона ће почети долазећи плима израженим листића, да буде троструко проверио, верификован, пет-пута крос-поверљива и износио. Када је последњи цифра је тоттед и проверени, ако досадашња искуства је критеријум, земља ће знати да у делићу 1 посто стварно изборима од четрдесет милиона [бирача]. "(Аугуст 22, 1936)
Тхе Дигест је фетишизација величине је одмах препознатљив у било које "велики података" истраживач данас. Од 10 милиона листићи распоређени, невероватних 2,4 милиона гласачких листића враћено-то је отприлике 1.000 пута већи од модерних политичких анкете. Из тих 2,4 милиона испитаника је пресуда јасна: Књижевни Дигест предвиђа да је изазивач Алф Ландон је требало да победи садашњег Франклин Рузвелт. Али, у ствари, управо супротно догодило. Рузвелт је победио Ландон у великом већином. Како би Књижевни Преради ићи у реду са толико података? Наше модерно разумевање узорковања чини грешке књижевним Дигест је јасан и помаже нам да избегну прављење сличних грешака у будућности.
јасно размишљање о узорковање захтева од нас да размотримо четири различите групе људи (слика 3.1). Прва група људи је циљна популација; ово је група која је истраживање дефинише као становништво интереса. У случају књижевног Дигест циљна популација била гласачи у 1936. на председничким изборима. После одлуке о циљну популацију, истраживач поред мора развити списак људи који могу да се користе за узорковање. Ова листа се зове оквир за узорковање и становништво на оквиру узорка се зове оквир становништво. У случају књижевног Дигест рам становништво било 10 милиона људи чија имена је претежно из телефонских именика и регистрацију аутомобила евиденције. Идеално циљна популација и оквир становништво ће бити иста, али у пракси то често није случај. Разлике између циљне популације и оквира становништва називају покривеност грешка. Грешка покривеност не, само по себи гарантује проблеме. Али, ако су људи у оквиру популације систематски разликују од људи који нису у оквира становништва биће покривеност пристрасност. Грешка покривеност је био први од главних недостатака са Књижевни Дигест анкети. Они су желели да науче о бирачима-то је био њихов циљна популација-а су изградили оквир узорковања углавном из телефонских именика и аутомобила регистре, извора који презаступљени богатији Американци који су веће шансе да подржи: Алф Ландон (Подсетимо се да оба ова технологија, који су заједнички данас, били су релативно нови на време и да су САД биле усред Велике депресије).
Након дефинисања оквира становништво, следећи корак је да истраживач да бисте изабрали узорка становништва; то су људи који ће истраживач покушавају да интервјуише. Ако је узорак има различите карактеристике од оквира становништва, онда можемо увести грешке узорковања. Ово је врста грешке квантификоване на маргини грешке које обично прати процене. У случају Књижевни Дигест фијаска, није заправо било узорка; они су покушали да контактирају све у оквира популацији. Иако није било грешка узорка, очигледно је да је и даље грешке. Ово појашњава да су маргине грешке које се обично пријављене са проценама из истраживања су обично погрешно мали; они не обухватају све изворе грешке.
Коначно, истраживач покушава да разговара све у узорку популације. Ти људи који су успешно испитани називају испитаника. У идеалном случају, узорак становништва и испитаници би били потпуно исти, али у пракси постоји не-одговора. То је, људи који су изабрани у узорку одбијају да учествују. Ако су људи који су одговорили другачији од оних који не реагују, онда не може бити пристрасности не одговора. Нон-одговор предрасуда је био други главни проблем са Књижевни Дигест анкети. Само 24% људи који су добили гласачки листић одговорила, а испоставило се да људи који су подржали Ландон су веће шансе да реагују.
Иза само што пример за увођење идеје представљања, Књижевни Дигест анкета је често понавља парабола, упозорава истраживаче о опасностима од случајан узорковања. На жалост, мислим да је лекција коју многи људи извући из ове приче је погрешна. Најчешћи Поука приче је да истраживачи не могу научити ништа од узорака не вероватноћа (тј узорака без строгих правила вероватноће заснован за избор учесника). Али, као што сам касније у овом поглављу показују, то није сасвим у реду. Уместо тога, мислим да заиста постоје два морал за ову причу; морал који су и данас, као што су били у 1936. Прво, велика количина насумице прикупљених података не гарантује добру процену. Друго, истраживачи треба да објасни како је њихов подаци прикупљени када праве процене од њега. Другим речима, због тога што је процес прикупљања података у књижевном Дигест анкети је систематски нагиње ка неких испитаника, истраживачи морају да користе сложенији процес процене да тегови неки испитаници више од других. Касније у овом поглављу, ја ћу да ти покажем један такав пондерисање поступак-пост-раслојавања-која може да вам омогући да боље процене са узорцима не вероватноће.