Edustus on kyse siitä päätelmiä oman vastaajien omaan kohderyhmä.
Jotta voitaisiin ymmärtää sellaisten virheiden tyypit, jotka voivat tapahtua päätettäessä vastaajista suurempaan väestöön, harkitsemme Literary Digest -satutkimusta, jossa yritettiin ennustaa vuoden 1936 Yhdysvaltain presidentinvaalien tuloksia. Vaikka se tapahtui yli 75 vuotta sitten, tällä velalla on vielä tärkeä opetus opettaa tutkijoita tänään.
Literary Digest oli suosittu yleishyödyllinen aikakauslehti, ja vuodesta 1920 lähtien he alkoivat suorittaa olkihankkeita ennakoimaan presidentinvaalien tuloksia. Näiden ennusteiden tekemiseksi he lähettävät äänestysliput paljon ihmisille ja sitten yksinkertaisesti keräävät palautetut äänestysliput; Literary Digest ilmoitti ylpeänä, että heidän vastaanottamansa äänestykset eivät ole "painotettuja, säädettyjä tai tulkittuja". Tämä menettely ennusti oikein vaalien voittajat 1920, 1924, 1928 ja 1932. Vuonna 1936 suuren depression, kirjallisuuden Digest lähetti äänestyslippuja 10 miljoonalle ihmiselle, joiden nimet olivat pääasiassa puhelinluetteloista ja autojen rekisteröintitietueista. Näin he kuvaavat metodologiaansa:
"DIGESTin sileästi toimiva kone liikkuu 30-vuotisen kokemuksen nopealla tarkkuudella vähentääkseen arvailuja koville tosiseikoille ... Tällä viikolla 500 kynää naarmuivat yli neljäsosa miljoonasta osoitteesta päivässä. Joka päivä, suuressa huoneessa, joka ylitti moottorivalmiin Fourth Avenuen yläpuolella New Yorkissa, 400 työntekijää siirsi miljoona kappaletta painotuotteita, jotka riittävät kattamaan neljäkymmentä kaupunkilohkoa. Joka tunti, DIGESTin omassa Post Office -asematasossa, kolme räpyttelypainomittaria suljettiin ja leimattiin valkoisilla oblongeilla; ammattitaitoiset postialan työntekijät käänsivät heidät bulging mailsacks; laivasto DIGEST-kuorma-autot ajoivat heitä ilmaisemaan postin junia. . . Ensi viikolla ensimmäiset vastaukset näistä kymmenestä miljoonasta alkavat merkittyjen äänestyslippujen tulevan vuoroveden, joka on kolminkertainen tarkastus, vahvistettu, viisi kertaa ristikkäistyyppinen ja yhteensä. Kun viimeinen luku on otettu huomioon ja tarkistettu, jos aiempi kokemus on kriteeri, maa tuntee murto-osan 1 prosentin osuudesta neljänkymmenen miljoonan [äänestäjän] varsinaisen kansanäänestyksen puolesta. "(22. elokuuta 1936)
Literary Digestin kokoinen fetisoituminen on heti tunnistettavissa mille tahansa "suuren datan" tutkijalle. Jokaisesta 10 miljoonasta äänestyksestä palasi hämmästyttävä 2,4 miljoonaa, mikä on noin 1000 kertaa suurempi kuin nykyaikaisissa poliittisissa mielipidemittauksissa. Näistä 2,4 miljoonasta vastaajasta tuomari oli selvä: Alf Landon voitti vakiintuneen operaattorin Franklin Rooseveltin. Mutta itse asiassa Roosevelt voitti Landonin maanjäristyksessä. Kuinka Kirjallisuus Digest olisi väärässä niin paljon tietoa? Nykyaikainen käsitys näytteenotosta tekee Literary Digestin virheistä selväksi ja auttaa meitä välttämään samanlaisia virheitä tulevaisuudessa.
Miettiminen selkeästi näytteenotosta edellyttää, että tarkastelemme neljää eri ihmisryhmää (kuva 3.2). Ensimmäinen ryhmä on kohderyhmä ; tämä on ryhmä, jonka tutkija määrittelee mielenkiinnon kohteena olevan väestönä. Literary Digestin tapauksessa kohderyhmä oli äänestäjiä vuoden 1936 presidentinvaaleissa.
Kohderyhmän päätyttyä tutkijan on laadittava luettelo ihmisistä, joita voidaan käyttää näytteenottoon. Tätä luetteloa kutsutaan näytteenottokehykseksi ja sitä kutsutaan sen kehyspopulaatioksi . Ihannetapauksessa kohderyhmä ja kehysväestö olisivat täsmälleen samat, mutta käytännössä näin usein ei ole. Esimerkiksi Literary Digestin tapauksessa kehysväestö oli 10 miljoonaa ihmistä, joiden nimet olivat pääasiassa puhelinluetteloista ja autojen rekisteröintitietueista. Eroja kohderyhmän ja kehysväestön välillä kutsutaan kattavuusvirheeksi . Kattavuusvirhe ei sinänsä takaa ongelmia. Se voi kuitenkin johtaa kattavuuteen, jos kehysväestön ihmiset ovat systemaattisesti erilaisia kuin kohderyhmässä olevat ihmiset, jotka eivät ole kehysväestössä. Tämä on itse asiassa täsmälleen sama kuin kirjallisuuskatsauksessa . Kansalaisryhmät olivat yleensä todennäköisemmin tukeneet Alf Landonia, osittain siksi, että he olivat rikkaampia (muistuttavat, että molemmat puhelimet ja autot olivat suhteellisen uusia ja kalliita vuonna 1936). Niinpä kirjallisuuskatsauksessa kattavuusvirhe johti kattavuuteen.
Jälkeen määritellään perusjoukon, seuraava askel on tutkijalle valita tinäytepopulaatiossa; nämä ovat ihmisiä, jotka tutkija yrittää haastatella. Jos näytteellä on erilaiset ominaisuudet kuin kehysväestö, näytteenotto voi ottaa käyttöön näytteenottovirheen . Literary Digest fiascon tapauksessa ei kuitenkaan oikeastaan ollut näytteenottoa - lehteä ottaisi yhteyttä kaikkiin kehysväestöön - ja siksi näytteenottovirhe ei ollut. Monet tutkijat keskittyvät yleensä näytteenottovirheeseen - tämä on tyypillisesti ainoa sellainen virhetilanne, joka on otettu huomioon kyselyissä ilmoitetusta virhemarginaalista - mutta Literary Digest fiasco muistuttaa meitä siitä, että meidän on tarkasteltava kaikkia virheitä, niin satunnaisia kuin systemaattisia.
Lopuksi tutkija yrittää haastatella kaikkien jäsentensä otoskokonaisuuden valitsemisen jälkeen. Niitä ihmisiä, jotka haastatellaan menestyksekkäästi, kutsutaan vastaajiksi . Ihannetapauksessa näytevirasto ja vastaajat olisivat täsmälleen samat, mutta käytännössä vastuu ei ole. Toisin sanoen näytteessä valitut ihmiset eivät joskus osallistu. Jos vastaajat ovat erilaisia kuin ne, jotka eivät reagoi, niin vastaus voi olla epäkohta . Kato bias oli toinen pääasiallinen ongelma kirjallisten Digest kyselyssä. Vain 24 prosenttia vastaajista sai vastauksen, ja kävi ilmi, että Landonia tukevat henkilöt vastasivat todennäköisemmin.
Sen lisäksi, että esimerkki esitysten ideasta on vain esimerkki, Literary Digest -tutkimus on monesti toistuva vertaus, joka tutkii tutkijoita sattumanvaraisen näytteenoton vaaroista. Valitettavasti mielestäni oppitunti, jota monet ihmiset vetävät tästä tarinasta, on väärä. Tarinan yleisin moraali on se, että tutkijat eivät voi oppia mitään ei-todennäköisyysnäytteistä (eli näytteistä ilman tiukkoja todennäköisyysperusteisia sääntöjä osallistujien valinnasta). Mutta, kuten esitän myöhemmin tässä luvussa, se ei ole aivan oikein. Sen sijaan, mielestäni tällä tarinalla on todella kaksi moraalia; jotka ovat yhtä totta nykyään kuin vuonna 1936. Ensinnäkin suuri määrä sattumanvaraisesti kerättyjä tietoja ei takaa hyvää arviota. Yleensä ottaen suuri määrä vastaajia pienentää arvioiden vaihtelua, mutta se ei välttämättä vähennä puolueellisuutta. Useilla tiedoilla tutkijat voivat joskus saada tarkan arvion vääristä asioista; ne voivat olla tarkalleen epätarkkoja (McFarland and McFarland 2015) . Toinen tärkeä oppitunti Literary Digest fiasco on, että tutkijoiden on otettava huomioon, miten heidän otoksensa kerättiin arvioitaessa. Toisin sanoen, koska kirjallisuuden Digest- kyselyn näytteenottoprosessi oli systemaattisesti vinossa kohti jotkut vastaajat, tutkijoiden oli käytettävä monimutkaisempaa arviointimenettelyä, joka painoi joitain vastaajia enemmän kuin toiset. Myöhemmin tässä luvussa esitän sinulle yhden tällaisen painotusmenetelmän - jälkikasvuttamisen - avulla, jonka avulla voit tehdä parempia arvioita satunnaisista näytteistä.