Reprezentacja jest o co wnioski od respondentów do populacji docelowej.
Aby zrozumieć rodzaje błędów, które mogą się zdarzyć, gdy wnioskujemy od respondentów do większej populacji, rozważmy badanie słomy " Literary Digest ", które próbowało przewidzieć wynik wyborów prezydenckich w USA w 1936 roku. Chociaż stało się to ponad 75 lat temu, ta klęska nadal ma ważną lekcję do nauczania dzisiejszych naukowców.
Literary Digest było popularnym czasopismem o tematyce ogólnej, a od 1920 r. Zaczęły one prowadzić badania słomy, aby przewidzieć wyniki wyborów prezydenckich. Aby dokonać tych przewidywań, wyślą karty do wielu osób, a następnie po prostu podsumują karty do głosowania, które zostały zwrócone; Literary Digest z dumą poinformował, że otrzymane karty do głosowania nie były "ważone, dostosowane, ani interpretowane". Procedura ta poprawnie przewidziała zwycięzców wyborów w 1920, 1924, 1928 i 1932 roku. W 1936 roku, w środku Wielkiego Kryzysu, literackie Digest rozesłał karty do 10 milionów osób, których nazwiska pochodziły głównie z książek telefonicznych i rejestrów samochodowych. Oto, jak opisali swoją metodologię:
"Płynnie pracująca maszyna DIGEST porusza się z szybką precyzją trzydziestoletniego doświadczenia, aby zredukować zgadywanie do trudnych faktów ... W tym tygodniu 500 piór drapało ponad ćwierć miliona adresów dziennie. Każdego dnia, w wielkim pokoju wysoko nad czwartą aleją, w Nowym Jorku, 400 robotników zręcznie przesuwa milion sztuk materiałów drukowanych - wystarczających, by ułożyć czterdzieści bloków miejskich - w zaadresowane koperty [sic]. Co godzinę w podstacji THE DIGEST'S na stacji macierzystej trzy urządzenia do liczenia przesyłek pocztowych uszczelniły białe znaczki; Wykwalifikowani pracownicy poczty zamienili ich w wybrzuszone e-maile; flota ciężarówki DIGEST przyspieszyły ich do ekspresowych pociągów pocztowych. . . W przyszłym tygodniu pierwsze odpowiedzi z tych dziesięciu milionów rozpoczną nadchodzącą falę zaznaczonych głosów, które zostaną potrójnie sprawdzone, zweryfikowane, pięciokrotnie sklasyfikowane i zsumowane. Kiedy ostatnia cyfra zostanie podświetlona i sprawdzona, jeśli przeszłe doświadczenie jest kryterium, kraj będzie wiedział w ułamku 1 procenta faktyczny głos wyborczy czterdziestu milionów [wyborców]. "(22 sierpnia 1936 r.)
Fetyszyzacja rozmiaru literackiego Digest'a jest natychmiast rozpoznawalna dla każdego dzisiejszego badacza "dużych danych". Spośród 10 milionów rozdanych głosów, zwrócono niesamowite 2,4 miliona - to około 1000 razy więcej niż współczesne polityczne ankiety. Z tych 2,4 milionów respondentów werdykt był jasny: Alf Landon zamierzał pokonać urzędującego Franklina Roosevelta. W rzeczywistości jednak Roosevelt pokonał Landona w popłochu. W jaki sposób literackie Digest może pójść źle z tak dużą ilością danych? Nasze nowoczesne rozumienie próbkowania sprawia, że błędy Literary Digest są jasne i pomaga nam uniknąć podobnych błędów w przyszłości.
Jasne myślenie o pobieraniu próbek wymaga od nas rozważenia czterech różnych grup ludzi (rysunek 3.2). Pierwsza grupa to populacja docelowa ; jest to grupa, którą badacz definiuje jako populację będącą przedmiotem zainteresowania. W przypadku Literary Digest docelową populację stanowili wyborcy w wyborach prezydenckich w 1936 roku.
Po podjęciu decyzji o populacji docelowej naukowiec musi opracować listę osób, które można wykorzystać do pobierania próbek. Ta lista nazywana jest ramką próbkowania, a osoby na niej nazywane są populacją klatek . Idealnie, populacja docelowa i populacja ramek byłyby dokładnie takie same, ale w praktyce często tak nie jest. Na przykład w przypadku Literary Digest liczba klatek wynosiła 10 milionów ludzi, których nazwiska pochodziły głównie z książek telefonicznych i rejestrów samochodowych. Różnice między populacją docelową a populacją klatek nazywa się błąd zasięgu . Błąd pokrycia sam w sobie nie gwarantuje problemów. Może jednak prowadzić do uprzedzeń w zakresie zasięgu, jeśli ludzie w populacji ramek są systematycznie różni się od osób w populacji docelowej, którzy nie są w populacji ramki. Dokładnie tak było w ankiecie " Literary Digest ". Ludzie w ich populacji ramowej raczej częściej wspierali Alfa Landona, po części dlatego, że byli bogatsi (pamiętajcie, że zarówno telefony, jak i samochody były stosunkowo nowe i drogie w 1936 r.). Tak więc w ankiecie " Literary Digest " błąd zasięgu doprowadził do uprzedzeń dotyczących zasięgu.
Po zdefiniowaniu populacji ramek następnym krokiem jest wybór badanej populacji przez badacza; są to osoby, które badacz będzie próbował przeprowadzić wywiad. Jeśli próbka ma inną charakterystykę niż populacja ramki, pobieranie próbek może wprowadzić błąd próbkowania . Jednak w przypadku fiasku " Literary Digest" w rzeczywistości nie było próbkowania - czasopisma, w którym można było skontaktować się z każdym w populacji ramek - i dlatego nie wystąpił błąd próbkowania. Wielu badaczy skupia się na błędach próbkowania - jest to zazwyczaj jedyny rodzaj błędu uchwycony przez margines błędu zgłaszany w ankietach - ale fiasko literackiego przegięcia przypomina nam, że musimy wziąć pod uwagę wszystkie źródła błędów, zarówno przypadkowe, jak i systematyczne.
Wreszcie, po wybraniu populacji próbnej, badacz próbuje przeprowadzić wywiad z wszystkimi członkami. Osoby, z którymi przeprowadzono wywiady, są nazywane respondentami . Idealnie, populacja próby i respondenci będą dokładnie tacy sami, ale w praktyce nie ma odpowiedzi. Oznacza to, że osoby wybrane do próby czasami nie biorą udziału. Jeśli ludzie, którzy reagują, różnią się od tych, którzy nie reagują, może to oznaczać brak uprzedzeń . Brak uprzedzeń był drugim głównym problemem w plebiscycie Literary Digest . Tylko 24% osób, które otrzymały głosowanie, odpowiedziało, i okazało się, że ludzie, którzy poparli Landona, częściej odpowiadali.
Nie tylko będąc przykładem wprowadzenia idei reprezentacji, ankieta " Literary Digest " jest często powtarzaną przypowieścią, ostrzegającą badaczy przed niebezpieczeństwem przypadkowego próbkowania. Niestety uważam, że lekcja, którą wielu ludzi wyciąga z tej historii, jest zła. Najczęstszym morałem tej historii jest to, że badacze nie mogą nauczyć się niczego z próbek niepodobnych (tj. Próbek bez ściśle określonych reguł wyboru uczestników). Ale, jak pokażę w dalszej części tego rozdziału, nie jest to właściwe. Zamiast tego sądzę, że w tej historii są dwie moralności; moralności, które są tak prawdziwe dzisiaj jak w 1936 roku. Po pierwsze, duża ilość przypadkowo zebranych danych nie gwarantuje dobrego oszacowania. Ogólnie rzecz biorąc, posiadanie dużej liczby respondentów zmniejsza wariancję ocen, ale niekoniecznie zmniejsza to obciążenie. Dzięki dużej ilości danych naukowcy mogą czasami uzyskać dokładne oszacowanie niewłaściwej rzeczy; mogą być dokładnie niedokładne (McFarland and McFarland 2015) . Drugą główną lekcją z fiasku " Literary Digest" jest to, że naukowcy muszą wyjaśnić, w jaki sposób zebrano ich próbkę podczas dokonywania szacunków. Innymi słowy, ponieważ proces pobierania próbek w ankiecie " Literary Digest " był systematycznie wypaczany w stosunku do niektórych respondentów, badacze musieli zastosować bardziej złożony proces szacowania, który wyważał niektórych respondentów bardziej niż innych. W dalszej części tego rozdziału przedstawię jedną z takich procedur ważenia - po stratyfikacji - która umożliwi ci lepsze oszacowanie próbek przypadkowych.