Képviselet arról szól, hogy következtetéseket a válaszadók a célcsoportot.
Annak érdekében, hogy megértsük, milyen típusú hibák történhetnek, amikor a válaszadóktól a nagyobb lakosságig következik, fontolóra vesszük az Irodalmi Digest szalmakeresztet, amely megpróbálta megjósolni az 1936-as amerikai elnökválasztás kimenetelét. Bár több mint 75 évvel ezelõtt történt, ez a csõd még mindig fontos tanulságot jelent a kutatók tanítására.
Az Irodalmi Digest népszerű közcélú magazin volt, és 1920-tól kezdődően szalmaszálákat indítottak az elnöki választások kimenetelének előrejelzésére. Hogy ezeket a jóslatokat megteremtsék, sok embernek levelet küldtek, majd egyszerűen felírják a visszahívott szavazatokat; Irodalmi Digest büszkén számolt be, hogy a szavazatok kaptak volt sem „súlyozott, be, sem nem értelmezhető.” Ez az eljárás helyesen jósolta a nyertesek a választások 1920-ban, 1924-ben, 1928 és 1932-ben 1936, a közepén a nagy gazdasági világválság, az irodalmi A Digest 10 millió embernek küldött szavazatokat, akiknek neve elsősorban a telefonkönyvekből és a gépkocsi nyilvántartásból származik. Így leírják módszertanukat:
"A DIGEST gördülékeny gépe a harmincéves tapasztalat gyorsaságával mozdul el, hogy csökkenti a kitalált tényeket ... Ez a hét 500 tollat naponta több mint negyed millió címkét kavargat. Minden nap egy nagyszerű helyiségben, a motoros szalaggal ellátott Fourth Avenue felett, New Yorkban 400 munkás elegánsan becsúsztatja egymillió darab nyomtatott anyagot - elég ahhoz, hogy negyven városi blokkot teremtsenek - a címzett borítékba [sic]. Minden órában, a DIGEST saját postahivatalában három zörgő postai adagológép zárt és lepecsételt a fehér szegélyekre; a képzett postai alkalmazottak átengedték őket bulging mailekbe; a flotta DIGEST teherautók felszedték őket a postai vonatok kifejtésére. . . A következő héten a tízmillió első válaszai megkezdik a megjelölt szavazólapok bejövő dagályát, háromszor ellenőrizve, ellenőrizve, ötször átsorolva és összegezve. Amikor az utolsó számot megvizsgálták és ellenőrizték, ha a múltbeli tapasztalat kritérium, akkor az ország tudni fogja, hogy 1 százalékos arányban negyvenmillió [szavazó] népszavazásról van szó. "(1936. augusztus 22.)
Az irodalmi Digest méretű fétishizálás azonnal felismerhető bármely "nagy adat" kutató számára. Az elosztott 10 millió szavazólapból elképesztő 2,4 millió visszajuttatott - ez durván 1000-szer nagyobb, mint a modern politikai felmérések. Ebből a 2.4 millió válaszadóból egyértelmű, hogy az Alf Landon legyőzte az inkumbens Franklin Rooseveltt. De valójában Roosevelt legyőzte Landont egy földcsuszamlásban. Hogyan tehette el az Irodalmi Digest annyira sok adatot? A mintavétel modern megértése az irodalmi Digest tévedéseit tükrözi, és segít elkerülni a hasonló hibákat a jövőben.
A mintavétel világos meggondolása alapján négy különböző embercsoportot kell figyelembe venni (3.2. Ábra). Az első csoport a célcsoport ; ez a csoport, amelyet a kutató az érdeklődő népességként határoz meg. Az Irodalmi Digest esetében a célpopuláció választók voltak az 1936-os elnökválasztáson.
A célpopuláció meghozatala után a kutatónak ki kell dolgoznia egy listát azokról az emberekről, akik mintavételre használhatók. Ez a lista az úgynevezett mintavételi keret, valamint az emberek rajta nevezik a keret lakosság. Ideális esetben a célpopuláció és a keretpopuláció pontosan ugyanaz lenne, de a gyakorlatban ez gyakran nem így van. Például az Irodalmi Digest esetében a keretpopuláció 10 millió olyan ember volt, akiknek neve elsősorban a telefonkönyvekből és a gépjármű nyilvántartásból származik. A célpopuláció és a keretpopuláció közötti különbségeket lefedettségi hibának nevezik. A lefedettségi hiba önmagában nem garantálja a problémákat. Ez azonban lefedettséghez vezethet, ha a keret lakossága szisztematikusan különbözik a célpopulációban lévõktõl, akik nem szerepelnek a kereteken belül. Valójában pontosan ez történt az Irodalmi Digeszt- felmérésben. Az alvilági lakosságuk nagyobb valószínűséggel támogatta az Alf Landont, részben azért, mert gazdagabbak voltak (emlékezzenek arra, hogy mind a telefonok, mind a gépkocsik viszonylag újak és drágák voltak 1936-ban). Így a Literary Digest felmérésében a lefedettségi hiba lefedettségi torzításhoz vezetett.
Meghatározása után a keret lakosság, a következő lépés az, egy kutató számára, hogy kiválassza a mintát lakosság ezek azok az emberek, akiket a kutató megpróbál interjút készíteni. Ha a minta eltérõ tulajdonságokkal rendelkezik, mint a keretpopuláció, akkor a mintavétel mintavételi hibát eredményezhet . Az Irodalmi Digest fiaskó esetében azonban valójában nem volt mintavételezés - a magazin, hogy kapcsolatba léphessen mindenkivel a keret lakosságával - és ezért nem volt mintavételi hiba. Sok kutató inkább a mintavételi hibára összpontosít - ez általában az egyetlen hiba, amelyet a felmérésekben feltárt hibahatár rögzít -, de a Literary Digest fiasco emlékeztet arra, hogy mind a véletlenszerű, mind a szisztematikus hibákat kell figyelembe venni.
Végül, minta populáció kiválasztása után, a kutató megpróbál minden tagot megbeszélni. Azok az emberek, akiket sikeresen megkérdeznek, válaszadóknak hívják. Ideális esetben a mintapopuláció és a válaszadók pontosan ugyanolyanok lesznek, de a gyakorlatban nincs válasz. Vagyis a mintában kiválasztott emberek néha nem vesznek részt. Ha az emberek, akik reagálnak eltérnek, akik nem reagálnak, akkor nem lehet nemválaszoló elfogultság. A Nonresponse torzítás volt a második fő probléma az irodalmi Digest- felméréssel. A szavazók szavazóinak csak 24% -a válaszolt, és kiderült, hogy a Landon támogatói nagyobb valószínűséggel reagáltak.
A példaképen túl a reprezentáció ötleteinek bemutatásán túl az irodalmi Digest- felmérés gyakran ismétlődő példázata, amely a kutatók figyelmeztetését mutatja be a véletlenszerű mintavétel veszélyeiről. Sajnos, úgy gondolom, hogy a sok ember által ebből a történetből levont lecke rossz. A történet legáltalánosabb morálja az, hogy a kutatók nem tanulhatnak semmit a nem valószükségletből származó mintákból (azaz olyan mintákból, amelyekben nincsenek szigorú valószínűségi alapú szabályok a résztvevők kiválasztására). De amint később bemutatom ezt a fejezetet, ez nem teljesen igaz. Ehelyett azt hiszem, tényleg két erkölcs van ehhez a történethez; olyan erkölcsöket, amelyek ma is igazak voltak, mint 1936-ban. Először is, nagy mennyiségű véletlenül gyűjtött adat nem garantál egy jó becslést. Általánosságban elmondható, hogy nagy számú válaszadó csökkenti a becslések szórását, de nem feltétlenül csökkenti a torzítást. Számos adat mellett a kutatók néha pontosan becsülik a rossz dolgot; pontosan pontatlanok lehetnek (McFarland and McFarland 2015) . A Literary Digest fiasco második legfontosabb leckéje, hogy a kutatóknak figyelembe kell venniük, hogy a minta gyűjtése során becsléseket készítettek. Más szóval, mivel az Irodalmi Digest- felmérés mintavételi folyamata szisztematikusan elhajlott egyes válaszadók felé, a kutatóknak egy komplexebb becslési folyamatot kellett alkalmazniuk, amely több válaszadót súlyosabban súlyoz. Később ebben a fejezetben megmutatom Önnek egy ilyen súlyozási eljárást - utólagos rétegződést -, amely lehetővé teheti, hogy jobb becsléseket készítsenek a véletlen mintákról.