La representació es tracta de fer inferències a partir dels enquestats a la seva població objectiu.
Per entendre el tipus d'errors que poden passar quan es dedueixen els enquestats a la població més gran, considerem l'enquesta de palla de Literary Digest que va intentar predir el resultat de les eleccions presidencials dels Estats Units de 1936. Encara que va passar fa més de 75 anys, aquesta desgràcia encara té una important lliçó per ensenyar als investigadors d'avui.
Literary Digest va ser una popular revista d'interès general, i a partir de 1920 van començar a fer enquestes de palla per predir els resultats de les eleccions presidencials. Per fer aquestes prediccions, enviarien butlletes a moltes persones i, a continuació, simplement anotar les butlletes que es van tornar; Literary Digest va dir amb orgull que les votacions que van rebre no eren "ponderades, ajustades ni interpretades". Aquest procediment va predir correctament als guanyadors de les eleccions de 1920, 1924, 1928 i 1932. El 1936, enmig de la Gran Depressió, la literatura Digest va enviar vots a 10 milions de persones, els noms provenien principalment de directoris telefònics i registres d'automòbils. A continuació us expliquem com han descrit la seva metodologia:
"La màquina de lliscament de DIGEST es mou amb una precisió ràpida de trenta anys d'experiència per reduir les conjectures a fets difícils ... Aquesta setmana, 500 plomes ratllaven més d'un quart de milió d'adreces al dia. Tots els dies, a Nova York, 400 obrers treballen amb llibertat amb un milió d'exemplars impresos, suficient per emmagatzemar quaranta blocs de ciutat, en una àmplia cabanya superior a la cinquena avinguda del motor, en els embolcalls adreçats [sic]. Cada hora, a la subestació de Correus propis de THE DIGEST, tres màquines de franqueig de xafarderia segellaven i estampaven els oblongs blancs; els empleats postals qualificats els llençaren cap amunt; Els camions de la flota DIGEST els van accelerar per expressar els trens de correu. . . La setmana que ve, les primeres respostes d'aquests deu milions començaran la marea entrant de les boles marcades, que es tripliquen, es verifiquen, es classifiquen i es classifiquen cinc vegades. Quan l'última xifra s'ha mostrat i revisada, si l'experiència passada és un criteri, el país coneixerà dins d'una fracció de l'1 per cent el vot popular real de quaranta milions [votants] "(22 d'agost de 1936).
La fetitxització literària de la mida literària és instantàniament recognoscible per a qualsevol investigador de "grans dades" d'avui. Dels 10 milions de vots distribuïts, es van retornar 2.4 milions sorprenents, que són aproximadament 1.000 vegades més grans que les enquestes polítiques modernes. A partir d'aquests 2.4 milions d'enquestats, el veredicte va quedar clar: Alf Landon anava a derrotar al titular Franklin Roosevelt. Però, de fet, Roosevelt va derrotar a Landon en un deslizamiento de terra. Com podria Liter Digest malmetre tantes dades? La nostra comprensió moderna del mostreig fa que els errors de Literary Digest siguin clars i ens ajudi a evitar cometre errors similars en el futur.
Pensar clarament sobre el mostreig ens obliga a considerar quatre grups diferents de persones (figura 3.2). El primer grup és la població objectiu ; aquest és el grup que l'investigador defineix com la població d'interès. En el cas de Literary Digest , la població objectiu era elector en les eleccions presidencials de 1936.
Després de decidir sobre una població objectiu, un investigador ha de desenvolupar una llista de persones que es poden utilitzar per fer mostres. Aquesta llista s'anomena marc de mostreig i la gent que s'anomena s'anomena la població del marc . L'ideal seria que la població objectiu i la població de marcs siguin exactament iguals, però a la pràctica sovint no és així. Per exemple, en el cas de Literary Digest , la població de marcs era de 10 milions de persones, els noms provenien principalment dels directoris telefònics i dels registres d'automòbils. Les diferències entre la població objectiu i la població marc s'anomenen error de cobertura . L'error de cobertura no garanteix, per si mateix, problemes. Tanmateix, pot provocar un buidament de cobertura si les persones que pertanyen a la població de marc són sistemàticament diferents de les persones de la població objectiu que no estan en la població del marc. Això és, de fet, exactament el que va passar en l'enquesta de Literary Digest . Les persones en la seva població marc tendien a ser més propensos a donar suport a Alf Landon, en part perquè eren més rics (recordem que els telèfons i els automòbils eren relativament nous i costosos el 1936). Així doncs, en l'enquesta de Literary Digest , l'error de cobertura va provocar un biaix de cobertura.
Després de definir la població marc , el següent pas és que un investigador seleccioni la població de mostres ; aquestes són les persones que l'investigador intentarà entrevistar. Si la mostra té característiques diferents a la població del marc, el mostreig pot introduir un error de mostreig . Tanmateix, en el cas del fiasco Literary Digest , en realitat no hi havia cap mostreig, la revista per contactar amb tothom en la població del marc, i per tant no hi va haver cap error de mostreig. Molts investigadors tendeixen a centrar-se en l'error de mostreig -que sol ser l'únic tipus d'error capturat pel marge d'error denunciat en les enquestes-, però el fiasco de Literary Digest ens recorda que hem de considerar totes les fonts d'error, tant aleatòries com sistemàtiques.
Finalment, després de seleccionar una població de mostra, un investigador intenta entrevistar a tots els seus membres. Les persones que són entrevistes amb èxit es diuen els enquestats . L'ideal seria que la població de mostres i els enquestats siguin exactament iguals, però a la pràctica hi ha una resposta sense resposta. És a dir, les persones que són seleccionades a la mostra de vegades no participen. Si les persones que responen són diferents de les que no responen, llavors hi pot haver un biaix de no resposta . El biaix no respondre va ser el segon problema principal amb l'enquesta de Literary Digest . Només el 24% de les persones que van rebre una votació van respondre, i va resultar que les persones que donaven suport a Landon tenien més probabilitats de respondre.
Més enllà de ser un exemple per introduir les idees de representació, l'enquesta de Literary Digest és una paràbola repetida, que adverteix als investigadors sobre els perills de la presa de mostres. Desafortunadament, crec que la lliçó que molts dibuixa d'aquesta història és incorrecta. La moral més comuna de la història és que els investigadors no poden aprendre res de mostres que no siguin de probabilitat (és a dir, mostres sense regles estrictes basades en la probabilitat de seleccionar els participants). Però, com veuré més endavant en aquest capítol, això no està bé. En lloc d'això, crec que hi ha dues morals d'aquesta història; morts que són tan veritables avui com ho van ser el 1936. En primer lloc, una gran quantitat de dades recopilades de forma incessant no garanteixen una bona estimació. En general, tenir una gran quantitat d'enquestats disminueix la variància de les estimacions, però no necessàriament disminueix el biaix. Amb moltes dades, els investigadors de vegades poden obtenir una estimació precisa del mal; poden ser precisament inexactes (McFarland and McFarland 2015) . La segona lliçó principal del fiasco de Literary Digest és que els investigadors han de tenir en compte la forma en què es va recollir la mostra quan es feien estimacions. En altres paraules, perquè el procés de mostreig en l'enquesta de Literary Digest es va veure sistemàticament distorsionado cap a alguns dels enquestats, els investigadors necessitaven utilitzar un procés d'estimació més complex que ponderava a alguns entrevistats més que a altres. Més endavant, en aquest capítol, us mostraré un procediment de ponderació (post-estratificació) que us permetrà fer millors estimacions a partir de mostres accidentades.