Reprezentarea este pe cale de a face concluzii din respondenții la populația țintă.
Pentru a putea înțelege tipul de erori care se poate întâmpla atunci când deducând din respondenți la o populație mai mare, să ia în considerare sondajul de paie literar Digest , care au încercat să prezică rezultatul alegerilor prezidențiale din SUA 1936. Cu toate că a fost în urmă cu mai mult de 75 de ani, acest dezastru are încă o lecție importantă pentru a preda cercetătorii de azi.
Literar Digest a fost un popular revista de interes general, iar începând cu anul 1920 au început să fie difuzate sondaje de paie pentru a prezice rezultatele alegerilor prezidențiale. Pentru a face aceste predicții ei vor trimite buletine la o mulțime de oameni, și apoi pur și simplu inventariezi buletine de vot care au fost returnate; literar Digest mândrie a raportat că buletinele de vot le - au primit nu au fost nici "ponderate, ajustate, și nici nu a interpretat" . Această procedură a prezis corect câștigătorul alegerilor din 1920, 1924, 1928 și 1932. în 1936, în mijlocul Marii Depresiuni, literar Digest a trimis buletine la 10 de milioane de oameni, ale căror nume au predominat din directoarele de telefon și înregistrările de înmatriculare auto. Iată cum s-a descris metodologia lor:
"Digeste lui bună stare de funcționare se mută mașină cu precizie rapidă de experiență de treizeci de ani, pentru a reduce la presupunerile fapte dure. . . .Acest Săptămână 500 stilouri zgâriat mai mult de un sfert de milion de adrese pe zi. In fiecare zi, într-o cameră mare deasupra ribboned motor a patra Avenue, în New York, 400 de muncitori aluneca cu dexteritate un milion de bucăți de materiale tipărite-suficient pentru a deschide patruzeci oraș blocuri în plicuri adresate [sic]. În fiecare oră, în Digeste proprii Post Office substație, trei mașini clănțăneau de contorizare poștale sigilat și ștampilat oblongs albe; angajații poștali calificați le-a lovit ușor în bombat Mailsacks; camioane flota DIGEST le-a accelerat pentru a exprima e-mail prin trenuri. . . Săptămâna viitoare, primele răspunsuri de la aceste zece milioane vor începe valul de intrare de buletine de vot marcate, să fie triplu verificate, verificat, de cinci ori mai încrucișată clasificate și au totalizat. În cazul în care ultima cifră a fost totted și verificate, în cazul în care experiența anterioară este un criteriu, țara se va ști intr-o fractiune de 1 la suta votul real populare de patruzeci de milioane de alegători []. "(22 august 1936)
fetișizarea dimensiunea Digest este ușor de recunoscut pentru orice cercetător "mare de date" astăzi. Din cele 10 milioane de buletine de vot distribuite, un uimitor 2,4 milioane de buletine de vot s-au intors-adica aproximativ 1000 de ori mai mare decât sondajele politice moderne. Din aceste 2,4 milioane de respondenți verdictul a fost clar: Literary Digest a prezis că challenger Alf Landon urma să învingă actualul Franklin Roosevelt. Dar, de fapt, exact opusul sa întâmplat. Roosevelt a învins Landon într-o alunecare de teren. Cum ar putea literar Digest merge în neregulă cu atât de multe date? Înțelegerea noastră modernă de prelevare a probelor face greșeli literar Digest clar și ne ajută să evităm să facem greșeli similare în viitor.
Gândesc în mod clar cu privire la prelevarea de probe ne cere să ia în considerare patru grupuri diferite de oameni (Figura 3.1). Primul grup de oameni este populația țintă; acest lucru este grupul care cercetarea îl definește ca populația de interes. În cazul literar Digest populația țintă a fost alegătorii în alegerile prezidențiale din 1936. Dupa ce decide cu privire la o populație țintă, un cercetător are nevoie de lângă pentru a dezvolta o listă de persoane care pot fi utilizate pentru prelevarea de probe. Această listă este numit un cadru de eșantionare și populația de pe cadrul de eșantionare se numește populația cadru. În cazul literar Digest populația cadru a fost de 10 milioane de persoane ale căror nume au predominat din directoarele de telefon și înregistrările de înmatriculare auto. În mod ideal, populația țintă și populația cadru ar fi exact la fel, dar, în practică, acest lucru este de multe ori nu este cazul. Diferențele între populația țintă și populația cadru sunt numite de eroare de acoperire. Eroare de acoperire nu, prin ea însăși de garanție pentru probleme. Dar, în cazul în care oamenii din populație cadru sunt sistematic diferite de oameni nu în populația cadru nu va fi părtinire acoperire. Eroare de acoperire a fost prima dintre cele mai mari defecte cu sondajul literar Digest. Ei au vrut să învețe despre alegători, care a fost populația țintă, dar au construit un cadru de eșantionare predominant de la directoarele de telefon și registre de automobile, surse care supra-reprezentate mai bogați lor americani, care au o probabilitate mai mare de a sprijini Alf Landon (amintesc că ambele aceste tehnologii, care sunt comune în prezent, au fost relativ nou la momentul respectiv și că SUA a fost în mijlocul Marii Depresii).
După definirea populației cadru, pasul următor este pentru un cercetător pentru a selecta populația eșantionului; acestea sunt oameni care cercetătorul va încerca să interviu. În cazul în care eșantionul are caracteristici diferite față de populația cadru, atunci putem introduce eroarea de eșantionare. Acesta este genul de eroare cuantificate în marja de eroare care însoțește de obicei, estimări. În cazul fiasco - ul literar Digest, nu a fost de fapt nici o probă; ei au încercat să contacteze toată lumea din populația cadru. Chiar dacă nu a existat nici o eroare de eșantionare, nu a fost, evident, încă de eroare. Acest lucru clarifică faptul că marjele de erori, care sunt, de obicei raportate cu estimările din studiile sunt de obicei mici inselator; acestea nu includ toate sursele de eroare.
În cele din urmă, un cercetător încearcă să interviu pentru toată lumea în populația de probă. Acei oameni care au fost intervievați cu succes sunt numite respondenți. În mod ideal, populația eșantionului și respondenți ar fi exact la fel, dar în practică există non-răspuns. Cu alte cuvinte, oamenii care sunt selectați în eșantion refuză să participe. În cazul în care persoanele care răspund sunt diferiți de cei care nu răspund, atunci nu poate fi părtinire non-răspuns. Părtinire non-răspuns a fost de- a doua principala problemă cu sondajul literar Digest. Doar 24% dintre persoanele care au primit un buletin de vot a răspuns, și sa dovedit că persoanele care au sprijinit Landon au fost mai probabil sa raspunda.
Dincolo de a fi doar un exemplu pentru a introduce ideile de reprezentare, sondajul literar Digest este o parabolă des repetată, avertizând cercetătorii cu privire la pericolele de prelevare de probe întâmplătoare. Din păcate, cred că lecția pe care mulți oameni trage din aceasta poveste este una greșită. Cea mai frecventa morala poveștii este că cercetătorii nu pot învăța nimic din probele non-probabilitate (de exemplu, eșantioane fără reguli stricte bazate pe probabilitate pentru selectarea participanților). Dar, așa cum voi arăta mai târziu în acest capitol, nu e destul de bine. In schimb, cred că există într-adevăr două morala la această poveste; morala, care sunt la fel de adevărat astăzi, așa cum au fost în 1936. În primul rând, o cantitate mare de date colectate la întîmplare nu va garanta o bună estimare. În al doilea rând, cercetătorii trebuie să țină seama de modul în care au fost colectate datele lor atunci când fac estimări de la ea. Cu alte cuvinte, deoarece procesul de colectare a datelor în sondajul literar Digest a fost denaturate în mod sistematic către unii respondenți, cercetătorii trebuie să utilizeze un proces de estimare mai complexe , care ponderi unii respondenți au mai mult decât altele. Mai târziu, în acest capitol, voi arăta o astfel de ponderare procedură post-stratificare, care vă poate permite să facă estimări mai bune cu eșantioane non-probabilitate.