Представителството е за правенето на изводи от вашите респонденти да си целеви групи от населението.
За да разберем вида грешки, които могат да се случат при взимането от респондентите на по-голямо население, нека разгледаме проучването на сламените книги " Литературен анализ ", което се опита да предскаже изхода от президентските избори през 1936 г. в САЩ. Въпреки, че това се случи преди повече от 75 години, този дебат все още има важен урок за преподаване на изследователи днес.
Литературният бюлетин е популярно списание за общите интереси и от 1920 г. те започнаха да провеждат проучвания за слама, за да прогнозират резултатите от президентските избори. За да направят тези прогнози, те ще изпратят бюлетини на много хора и след това просто ще натрупат гласовете, които са били върнати; Литературно Digest гордо съобщава, че бюлетините са получили нито са "претеглени, коригирана, нито тълкува." Тази процедура правилно прогнозира победителите в изборите през 1920 г., 1924 г., 1928 г. и 1932 г. През 1936 г. в разгара на Голямата депресия, литературни Digest изпрати бюлетини до 10 милиона души, чиито имена дойдоха предимно от телефонни указатели и записи за регистрация на автомобили. Ето как описаха методологията си:
"Машината с гладко движение на DIGEST се движи с бърза точност от тридесет години опит, за да се намалят догадките до твърди факти ... Тази седмица 500 писалки надраскаха повече от една четвърт милион адреси на ден. Всеки ден във великолепно помещение над Ню Йорк, над високоскоростния квартал "Четвърто авеню", 400 работници плъзгаха милион броя печатни материали - достатъчно, за да прокарат четиридесет градски блока - в адресираните пликове. Всеки час, в собствената поща на DIGEST, три барабанни пощенски мерителни машини запечатаха и подпечатаха белите продълговати; квалифицираните пощенски служители ги прегърнаха в изпъкнали пощенски кутии; флота DIGEST камиони ги изпрати да експресират пощенски влакове. , , Следващата седмица първите отговори от тези десет милиона ще започнат да приливат с маркирани бюлетини, да бъдат тройно проверени, проверени, петкратно класифицирани и обобщени. Когато последната цифра е изчислена и проверена, ако миналият опит е критерий, страната ще знае, че в рамките на 1% от реалния народен глас на четиридесет милиона [избиратели]. "(22 август 1936 г.)
Фетишизирането на размерите на литературния бюлетин е незабавно разпознаваемо за всеки изследовател на "големи данни" днес. От разпределените от 10 милиона бюлетини бяха върнати невероятни 2,4 милиона - това е приблизително 1000 пъти по-голямо от съвременните политически анкети. От тези 2.4 милиона респонденти присъдата е очевидна: Алф Ландън щеше да победи действащия Франклин Рузвелт. Но всъщност Рузвелт побеждава Ландън при свлачище. Как би могъл Литературният бюлетин да се обърка с толкова много данни? Нашето съвременно разбиране за вземането на проби прави грешките на Литературния бюлетин ясни и ни помага да избегнем подобни грешки в бъдеще.
Да мислим ясно за вземането на проби изисква да разгледаме четири различни групи от хора (фигура 3.2). Първата група е целевата група ; това е групата, която изследователят определя като населението, представляващо интерес. В случая с литературния бюлетин целевата популация е била гласоподавател на президентските избори през 1936 г.
След като се вземе решение за целева популация, изследователят трябва да разработи списък с хора, които могат да бъдат използвани за вземане на проби. Този списък се нарича рамка за вземане на проби, а хората, които се намират в него, се наричат популацията на рамката . В идеалния случай целевата популация и рамковата популация биха били същите, но на практика това често не е така. Например, в случая с литературния бюлетин населението на рамката е 10-те милиона души, чиито имена произхождат предимно от телефонни указатели и регистрационни файлове за автомобили. Разликите между целевата популация и популацията на рамката се наричат грешка на покритието . Грешката при покриването само по себе си не гарантира проблеми. Това обаче може да доведе до пристрастност към обхвата, ако хората в рамката на населението систематично се различават от хората в целевата популация, които не са в рамката на популацията. Това всъщност е точно това, което се случи в анкетата " Литературно проучване". Хората в рамките на тяхната популация са по-склонни да подкрепят Alf Landon, отчасти защото са по-богати (припомнят, че и телефонът, и автомобилът са сравнително нови и скъпи през 1936 г.). Така че, в анкетата на Literary Digest , грешката в покритието доведе до пристрастност към обхвата.
След дефиниране на популацията на рамката , следващата стъпка е изследователят да избере пробната популация ; това са хората, които изследователят ще се опита да интервюира. Ако пробата има различни характеристики от популацията на рамката, тогава вземането на проби може да въведе грешка при вземането на проби . В случая с литературното фиаско, обаче, всъщност нямаше извадка - списанието да се свърже с всички в рамката на населението - и поради това нямаше грешка в извадката. Много изследователи са склонни да се съсредоточат върху грешката при вземането на проби - това обикновено е единственият вид грешка, засвидетелствана от границата на грешките, докладвана в проучванията - но фиаското на Literary Digest ни напомня, че трябва да разгледаме всички произволни и систематични грешки.
Накрая, след избиране на примерна популация изследовател се опитва да интервюира всичките си членове. Тези хора, които са успешно интервюирани, се наричат респонденти . В идеалния случай популацията на извадката и респондентите биха били същите, но на практика няма отговор. Това означава, че хората, които са избрани в извадката, понякога не участват. Ако хората, които отговарят, са различни от тези, които не отговарят, тогава може да има отклонение от отговора. Отклонението от отсъствията бе вторият основен проблем с анкетата на Literary Digest . Само 24% от хората, които получиха гласуване, отговориха и се оказа, че хората, които подкрепят Landon, са по-склонни да реагират.
Освен че просто е пример за представяне на идеите за представителство, изследването на литературния бюлетин е често повтаряща се притча, предупреждавайки изследователите за опасностите от случайно вземане на проби. За съжаление мисля, че урокът, който много хора черпят от тази история, е погрешно. Най-честият морал на историята е, че изследователите не могат да научат нищо от проби с нестабилност (т.е. проби без строги правила, базирани на вероятностите за избор на участници). Но, както ще покажа по-късно в тази глава, това не е съвсем правилно. Вместо това мисля, че има наистина два морала към тази история; морала, които са толкова вярно днес, колкото и през 1936 г. Първо, голямо количество случайно събрани данни няма да гарантира добра оценка. Като цяло, имайки голям брой респонденти намалява вариацията на оценките, но това не намалява непременно пристрастието. С много данни изследователите понякога могат да получат точна оценка на грешното нещо; те могат да бъдат точно неточни (McFarland and McFarland 2015) . Вторият основен урок от литературното фиаско е, че изследователите трябва да отчитат как е събрана тяхната проба, когато правят оценки. С други думи, тъй като процесът на вземане на проби в изследването " Литературно проучване" систематично се изкривяваше спрямо някои респонденти, изследователите трябваше да използват по-сложен процес на оценка, който претеглени някои респонденти повече от други. По-късно в тази глава ще ви покажа една такава процедура за претегляне - след стратификация - която може да ви позволи да направите по-добри оценки от случайни проби.