Reprezentarea este pe cale de a face concluzii din respondenții la populația țintă.
Pentru a înțelege genul de erori care se pot întâmpla atunci când se deduce din respondenți la populația mai mare, să luăm în considerare sondajul de paie Literary Digest, care a încercat să prezică rezultatul alegerilor prezidențiale din 1936 ale SUA. Deși sa întâmplat acum mai bine de 75 de ani, acest dezastru încă mai are o lecție importantă pentru a învăța astăzi cercetătorii.
Literary Digest a fost o revistă populară de interes general, iar începând din 1920 au început să difuzeze sondaje de paie pentru a prezice rezultatele alegerilor prezidențiale. Pentru a face aceste previziuni, ei ar trimite buletine de vot pentru o mulțime de oameni și apoi pur și simplu să strângă buletinele de vot care au fost returnate; Literar Digest mândrie a raportat că buletinele de vot primite nu au fost nici „ponderate, ajustate, și nici nu a interpretat.“ Această procedură a prezis corect câștigătorii alegerilor în 1920, 1924, 1928 și 1932. În 1936, în mijlocul Marii Depresiuni, literare Digest a trimis buletine de vot la 10 milioane de persoane, ale căror nume proveneau preponderent din directoarele telefonice și înregistrările de înmatriculare a automobilelor. Iată cum au descris metodologia lor:
"Mașina netedă a DIGEST se mișcă cu o precizie rapidă de treizeci de ani de experiență pentru a reduce presupunerile la fapte dure ... În această săptămână, 500 pixuri au zgâriat peste un sfert de milion de adrese pe zi. În fiecare zi, într-o cameră mare, situată la New York, 400 de muncitori îndeplinesc cu îndemânare un milion de bucăți de materiale tipărite - suficient pentru a deschide patruzeci de blocuri de oraș - în plicurile adresate [sic]. În fiecare oră, în stația de mesagerie postala a lui DIGEST, trei mașini de contorizare a poștalelor au fost etanșate și ștampilate cu oblongurile albe; angajații poștale calificați i-au răsturnat în buzunare bulgare; flota DIGEST camioane le-a grăbit să-și exprime trenurile de corespondență. . . Săptămâna viitoare, primele răspunsuri din aceste zece milioane vor începe fluxul marcat de buletine marcate, să fie verificate triple, verificate, de cinci ori clasificate și încorporate. Atunci când ultima cifră a fost modificată și verificată, dacă experiența trecută este un criteriu, țara va cunoaște cu o fracțiune de 1 la sută votul popular actual de patruzeci de milioane [alegători] "(22 august 1936)
Literatura " Digestul" de fetișizare a dimensiunii este instantaneu recunoscută oricărui cercetător "de date mari" de azi. Dintre cele 10 milioane de buletine distribuite, au fost returnate un uimitor 2,4 milioane - adică aproximativ 1000 de ori mai mari decât sondajele politice moderne. Din aceste 2,4 milioane de respondenți, verdictul a fost clar: Alf Landon urma să învingă pe fostul președinte Franklin Roosevelt. Dar, de fapt, Roosevelt la învins pe Landon într-o alunecare de teren. Cum ar putea Literary Digest să se înșele cu atât de multe date? Înțelegerea noastră modernă a eșantionării face clar greșelile Literary Digest și ne ajută să evităm să facem greșeli similare în viitor.
Gândirea în mod clar a eșantionării ne cere să luăm în considerare patru grupuri diferite de persoane (figura 3.2). Primul grup este populația țintă ; acesta este grupul pe care cercetătorul îl definește drept populația de interes. În cazul Literary Digest , populația țintă a fost alegătorilor în alegerile prezidențiale din 1936.
După ce sa decis asupra unei populații țintă, un cercetător trebuie să elaboreze o listă de persoane care să poată fi utilizate pentru eșantionare. Această listă se numește un cadru de eșantionare, iar oamenii de pe el se numesc populația de cadre . În mod ideal, populația țintă și populația cadrelor ar fi exact aceleași, dar în practică acest lucru nu este cazul. De exemplu, în cazul Literary Digest , populația cadrelor a fost cele 10 milioane de persoane ale căror nume proveneau preponderent din directoarele telefonice și înregistrările de înmatriculare a automobilelor. Diferențele dintre populația țintă și populația cadrului sunt numite erori de acoperire . Eroarea de acoperire nu garantează, prin ea însăși, probleme. Cu toate acestea, aceasta poate duce la o tendință de acoperire dacă persoanele din populația cadrelor sunt sistematic diferite de cele din populația țintă care nu se află în populația cadrului. Aceasta este, de fapt, exact ceea ce sa întâmplat în sondajul Literary Digest . Oamenii din populația lor au avut tendința de a susține Alf Landon, în parte pentru că erau mai bogați (amintesc că atît telefoanele, cît și automobilele erau relativ noi și costisitoare în 1936). Deci, în sondajul Literary Digest , eroarea de acoperire a condus la o tendință de acoperire.
După definirea populației de cadre , următorul pas este ca un cercetător să selecteze populația eșantionului ; acestea sunt persoanele pe care cercetătorul va încerca să le intervieveze. Dacă eșantionul are caracteristici diferite față de populația de cadre, atunci eșantionarea poate introduce o eroare de eșantionare . Cu toate acestea, în cazul fiasco-ului Literary Digest , nu a existat o eșantionare - revista să contacteze pe toți cei din populația cadrelor - și, prin urmare, nu a existat o eroare de eșantionare. Mulți cercetători tind să se concentreze asupra erorii de eșantionare - aceasta este de obicei singurul tip de eroare capturat de marja de eroare raportată în sondaje - dar fiasco-ul Literary Digest ne amintește că trebuie să luăm în considerare toate sursele de eroare, atât aleatorii, cât și sistematice.
În cele din urmă, după selectarea unei populații eșantion, un cercetător încearcă să intervieveze toți membrii săi. Acei oameni care sunt intervievați cu succes sunt numiți respondenți . În mod ideal, populația eșantionului și respondenții ar fi exact aceleași, dar în practică nu există răspunsuri. Adică, persoanele selectate în eșantion nu participă uneori. Dacă oamenii care răspund sunt diferiți de cei care nu răspund, atunci poate exista părtinire nonresponsivă . Lipsa de răspuns a fost cea de-a doua problemă principală a sondajului Literary Digest . Numai 24% dintre cei care au primit vot au răspuns și sa dovedit că persoanele care au susținut Landon aveau mai multe șanse să răspundă.
Dincolo de a fi doar un exemplu pentru a introduce ideile de reprezentare, sondajul Literary Digest este o parabolă repetată de multe ori, avertizând cercetătorii despre pericolele unei eșantionări întâmplătoare. Din păcate, cred că lecția pe care mulți oameni o trag din această poveste este una greșită. Cea mai comună morală a povestirii este că cercetătorii nu pot învăța nimic din probele de non-probabilitate (adică eșantioane fără reguli stricte bazate pe probabilități pentru selectarea participanților). Dar, după cum vom arăta mai târziu în acest capitol, nu este corect. În schimb, cred că există două morale la această poveste; morale care sunt la fel de adevărate astăzi ca și în 1936. În primul rând, o cantitate mare de date colectate în mod accidental nu garantează o estimare bună. În general, având un număr mare de respondenți scade varianța estimărilor, dar nu reduce neapărat prejudecată. Cu o mulțime de date, cercetătorii pot obține uneori o estimare precisă a lucrurilor greșite; ele pot fi tocmai inexacte (McFarland and McFarland 2015) . Cea de-a doua lecție principală din fiasco Literary Digest este că cercetătorii trebuie să țină seama de modul în care eșantionul lor a fost colectat atunci când se fac estimări. Cu alte cuvinte, deoarece procesul de eșantionare în sondajul Literary Digest a fost în mod sistematic înclinat spre unii respondenți, cercetătorii au trebuit să utilizeze un proces de estimare mai complex, care a ponderat mai mulți respondenți mai mult decât alții. Mai târziu, în acest capitol, vă voi arăta o astfel de procedură de ponderare - post-stratificare - care vă va permite să faceți mai bune estimări din probele întâmplătoare.