La representació es tracta de fer inferències a partir dels enquestats a la seva població objectiu.
Per tal d'entendre el tipus d'errors que poden ocórrer quan inferir a partir dels enquestats a la població més gran, considerarem el sondeig resum literari que va tractar de predir el resultat de l'elecció presidencial dels Estats Units 1936. Tot i que va ser fa més de 75 anys, aquest desastre encara té una important lliçó per ensenyar als investigadors en l'actualitat.
Resum literari era una revista d'interès general popular, ia partir de 1920 va començar a córrer sondejos per predir els resultats de les eleccions presidencials. Per fer aquestes prediccions podrien enviar paperetes per a molta gent, i després simplement comptabilitzar les paperetes que van ser retornats; Literary Digest va informar amb orgull que els vots que van rebre van ser ni "ponderat, ajustat, ni interpretada." Aquest procediment va predir correctament el guanyador de les eleccions de 1920, 1924, 1928 i 1932. el 1936, enmig de la Gran Depressió, Literary Digest va enviar les paperetes a 10 milions de persones, els noms predominantment vi de guies telefòniques i els registres d'inscripció d'automòbils. Heus aquí com descriuen la seva metodologia:
"De l'Digest de marxa suau màquina es mou amb la ràpida precisió de trenta anys d'experiència per reduir les conjectures dels fets concrets. . . .Aquesta Setmana 500 plomes ratllat a terme més d'un quart de milió d'adreces d'un dia. Cada dia, en una gran sala molt per sobre de la quarta avinguda motor ribboned, a Nova York, 400 treballadors hàbilment llisqui un milió de peces de material imprès, prou per pavimentar quaranta blocs-ciutat en els sobres abordats [sic]. Cada hora, a la mateixa oficina de correus Subestació L'COMPENDI, màquines de mesurament de franqueig 3 castanyeig segellat i segellat dels rectangles blancs; els empleats de correus experts els dóna la volta al inflor mailsacks; COMPENDI camions flota a tota velocitat que s'expressin electrònic dels trens. . . La setmana vinent, les primeres respostes d'aquests deu milions començaran la marea entrant de paperetes marcades, per ser triple comprovat, verificat, cinc vegades creuada classificada i totalitzat. Quan l'última xifra s'ha totted i comprovat, si l'experiència passada és un criteri, el país sabrà dins d'una fracció d'un 1 per cent del vot popular real de quaranta milions d'electors []. "(22 d'agost, 1936)
fetitxització de la mida del Digest és instantàniament reconeixible per a qualsevol investigador "grans dades" en l'actualitat. Dels 10 milions de paperetes distribuïdes, es van retornar-que un sorprenent 2,4 milions de paperetes és més o menys 1.000 vegades més gran que les enquestes polítiques modernes. D'aquests 2,4 milions d'enquestats que el veredicte era clar: Literary Digest va predir que el reptador Alf Landon anava a derrotar el titular Franklin Roosevelt. Però, de fet, va ocórrer exactament el contrari. Roosevelt va derrotar Landon en una esllavissada de terra. Com podria resum literari anar malament amb tantes dades? La nostra comprensió moderna de mostreig fa que els errors de Literary Digest clara i ens ajuda a evitar cometre errors similars en el futur.
Pensar amb claredat sobre mostreig ens obliga a considerar quatre diferents grups de persones (Figura 3.1). El primer grup de persones és la població objectiu; aquest és el grup que la investigació es defineix com la població d'interès. En el cas del resum literari la població objectiu va ser votants en l'elecció presidencial de 1936. Després de decidir sobre una població objectiu, un investigador pròxima necessita desenvolupar una llista de persones que poden ser utilitzats per al mostreig. Aquesta llista es diu un marc de mostreig i la població en el marc de la mostra es diu la població marc. En el cas de la població resum literari marc era els 10 milions de persones els noms van arribar predominantment de guies telefòniques i els registres d'inscripció d'automòbils. L'ideal seria que la població objectiu i la població trama seria exactament el mateix, però a la pràctica això no sol ser el cas. Les diferències entre la població destinatària i el marc es diu error de cobertura. L'error de cobertura no és així, garantir per si sol els problemes. No obstant això, si les persones de la població trama són sistemàticament diferents de la gent no en la població marc haurà biaix de cobertura. L'error de cobertura va ser el primer dels grans defectes amb el sondeig resum literari. Volien aprendre sobre els votants que era la seva població objectiu, però que construeixen un marc de mostreig predominantment de directoris telefònics i els registres d'automòbils, fonts que sobre-representats els nord-americans més rics que eren més propensos a donar suport Alf Landon (recordem que les dues tecnologies, que són comuns avui en dia, eren relativament nou en el temps i que els EUA estava enmig de la Gran Depressió).
Després de definir la població marc, el següent pas és per a un investigador per seleccionar la mostra de població; aquestes són les persones que l'investigador va a tractar d'entrevistar. Si la mostra té característiques diferents a la població marc, a continuació, podem introduir l'error de mostreig. Aquest és el tipus d'error quantificat en el marge d'error que sol acompanyar les estimacions. En el cas del fiasco resum literari, de fet, hi va haver cap mostra; que van intentar establir contacte amb tots els membres de la població marc. Tot i que no hi va haver un error de mostreig, hi havia, evidentment, encara error. Això aclareix que els marges d'errors que normalment es reporten amb les estimacions de les enquestes solen ser enganyosament petita; que no inclouen totes les fonts d'error.
Finalment, un investigador intenta entrevistar tots els membres de la població de la mostra. Aquelles persones que es van entrevistar amb èxit es diuen els enquestats. Idealment, la població de la mostra i els enquestats seria exactament el mateix, però en la pràctica no és la manca de resposta. És a dir, les persones que han estat seleccionats en la mostra es neguen a participar-hi. Si les persones que responen són diferents dels que no responen, llavors no pot haver biaix de no resposta. Biaix de no resposta va ser el segon problema principal amb el sondeig resum literari. Només el 24% de les persones que van rebre una papereta va respondre, i va resultar que les persones que van donar suport Landon eren més propensos a respondre.
Més enllà de ser un exemple per introduir les idees de la representació, l'enquesta resum literari és una paràbola molt repetida, advertint als investigadors sobre els perills de mostreig arbitrari. Per desgràcia, crec que la lliçó que moltes persones obtenen d'aquesta història no és la correcta. La moral més comuna de la història és que els investigadors no poden aprendre res de mostres no probabilístiques (és a dir, mostres sense normes estrictes basades en la probabilitat de selecció dels participants). Però, com ho mostraré més endavant en aquest capítol, que no és del tot correcte. En lloc d'això, crec que en realitat hi ha dos moral d'aquesta història; la moral que són tan cert avui com ho van ser en 1936. En primer lloc, una gran quantitat de dades recollides a l'atzar, no garanteixen una bona estimació. En segon lloc, els investigadors han de donar compte de com s'ha recollit les seves dades quan estan fent estimacions d'ella. En altres paraules, pel fet que el procés de recol·lecció de dades en l'enquesta resum literari va ser esbiaixada cap sistemàticament alguns dels enquestats, els investigadors necessiten utilitzar un procés d'estimació més complexa que els pesos algunes de les respostes més que altres. Més endavant en aquest capítol, et vaig a mostrar un tal ponderació procediment de post-estratificació que pot permetre prendre millors estimacions amb mostres no probabilístiques.