Datu errepresentatiboak ez dira txarra laginketa orokorretatik kanpo, baina oso erabilgarria izan daiteke barne-lagineko konparazioak egiteko.
Zenbait gizarte-zientzialariren batek ohiko biztanleriaren probabilitate ausazko lagin batetik datozen datuekin lan egitea ohituta dago, herrialde jakin batean heldu diren guztiek bezala. Mota horretako datuak ordezkariaren datuak deritzo delako lagina "adierazten" populazio handiago. Ikertzaile askok sariaren datuak eta zenbait informazio ordezkari zientzi zorrotzaren sinonimoak dira, baina datu errepresentatiboak hutsegite sinonimoak dira. Muturrekoetan, eszeptiko batzuek uste dute ez dela ezer irudikatzen den datuetatik ezer ikasi. Egia bada, datu iturri handiak ikasi ahal izango luketela muga larriki dirudi. Horietako asko ez dira errepresentatiboak. Zorionez, eszeptiko horiek bakarrik partzialki egokiak dira. Zenbait ikerketa-helburu daude, nonpresenting datuek argi eta garbi ez datozela ondo, baina beste batzuk oso erabilgarriak izan daitezke.
Bereizketa hori ulertzeko, kontuan hartu zientzia klasiko bat: John Snow-ek Londresko kolera epiduruan 1853-54 kolpea aztertzeko. Garai hartan, medikuek uste zuten kolera "aire txarra" dela eta, baina Snowek uste zuen gaixotasun infekziosoa zela, agian ur edangarrien bidez zabaldu zen. Ideia hori probatzeko, Snowek zer egin dezakegu orain esperimentu naturala deitu genion. Bi ur-konpainien arteko zerbitzuen kolera-tasak alderatu zituen: Lambeth eta Southwark & Vauxhall. Enpresa horiek antzeko etxeak zeuden, baina oso modu desberdinean zeuden: 1849an, urte batzuk lehenago, epidemia hasi zenean, Lambeth-ek Londonen sartzeko hondakin nagusien ingesta-puntua mugitu zuen, eta Southwark eta Vauxhall-ek, berriz, ingesta-kanalizazioa utzi zuten. isurketen alta. Noiz Snow aldean heriotza tasak kolera bi enpresek zerbitzatzen dituzten etxeetan, Southwark eta Vauxhall-bezeroak bezeroei saneamendu-ur hustubideak eman zitzaizkien enpresak aurkitu zuten 10 aldiz gehiago litekeena kolera hiltzen aurkitu zuen. Emaitza honek zientziaren aurkako argudio sendoa eskaintzen du Snow-en kolera kausa bati buruzko argumentuari buruz, nahiz eta ez da Londresen jendearen lagin adierazgarria.
Bi konpainia horietako datuak, ordea, ez litzateke beste galdera bati erantzun egokia emateko: zer izan zen Londresko kolera prebalentzia agerraldiaren zehar? Bigarren galderari dagokionez, hau da garrantzitsua ere, askoz hobea izango litzateke Londresko jendearen lagin adierazgarria izatea.
Snowen lanak erakusten duen moduan, galdera zientifikoak daude, nonpresenting datuak nahiko eraginkorrak izan daitezkeen eta beste batzuk ez diren ondo egokitzen direnak. Bi galdera mota horiek bereizteko bide gordin bat galdera batzuei dagokienez, laginketa konparazioen barruan daude eta batzuk lagin orokorren ingurukoak dira. Beste bereizketa hau epidemiologiaren beste azterketa klasiko baten bidez ilustratu daiteke: British Doctors Study, paper garrantzitsua jokatu zuen erretzea minbizia eragiten duela frogatzeko. Ikerketa honetan, Richard Doll eta A. Bradford Hill-ek urte batzuk daramatzate 25.000 mediku gizonezko eta gutxi gorabehera, eta azterketa hasi zenean ketukatu zuten zenbatekoaren araberako heriotza tasa aztertu zuten. Doll and Hill (1954) esposizioaren eta erantzunaren arteko harremana sendoa aurkitu zuen: zenbat eta jende gehiagok ketua, orduan eta litekeena zen biriketako minbizia hiltzea. Jakina, oso zaila izango litzateke biriketako minbizia prebenitzea gizakion mediku taldeen artean oinarritutako britainiar guztien artean, baina lagin barruan frogatzen duenez, tabakoa biriketako minbizia eragiten du.
Orain, lagin arteko konparazioen eta lagin orokorren generalizazioen arteko aldea ilustratzen dudanean, bi ohar dira ordenan. Lehenik eta behin, modu naturalean, mediku britainiarreko lagin baten barruan dagoen harreman batek emakumeen, britainiar medikuei edo gizonezko britainiarraren fabrika edo alemaniar fabrikako langile edo beste talde askoren lagin baten barruan egongo den galderari buruzko galderari ere ekingo dio. Galdera hauek interesgarriak eta garrantzitsuak dira, baina laginetik biztanleriarengandik orokortzen dugun neurrian ezberdintzen dira. Jakina, esate baterako, seguruenik susmoa duzula Erresuma Batuko mediku maskulinoak erretzea eta minbizia izateko harremana antzeko beste taldeetan antzekoa izango dela. Estrapolazio hau egiteko gaitasuna ez da mediku britainiar gizonezkoek edozein biztanlerik ausazko lagin probabilistikoa dela. baizik eta erretzea eta minbizia estekatzen duen mekanismoa ulertzen du. Horrela, lagin batetik ateratako laginetik ateratako generalizazioa estatistika-arazo bat da, neurri handi batean estatistikari dagokionez, baina taldean beste talde batean aurkitutako ereduaren transportabilitateari buruzko galdera da, neurri handi batean, estatistika gai bat (Pearl and Bareinboim 2014; Pearl 2015) .
Puntu honetan, eszeptikoek azpimarratu dezakete eredu sozial gehienak ziurrenik gutxiago garraiatzen dituztela taldeetan erretzea eta minbizia izateko. Eta ados nago. Mugikortasun ereduak espero beharreko neurria, azken finean, teoria eta ebidentzian oinarritua izan behar den galdera zientifikoa da. Ez da automatikoki hartuko ereduek eramangarria izan behar dutela, baina ez dute garraiatzerik izango. Transportabilitateari buruzko zenbait galdera abstraktu hauek ezagunak izango zaizkizu ikasleei ikasitako zenbat ikasleren inguruko eztabaidak jarrai ditzakezue ikasleen ikasketei buruz (Sears 1986, [@henrich_most_2010] ) . Hala ere, eztabaidak izan arren, ezinezkoa litzateke ikertzaileek ez dutela ikasteko graduko ikasleei ezer ikas ditzaten.
Bigarren oharra: datu ez errepresentatzaileek duten ikertzaile gehienak Snow edo Doll and Hill bezalakoak ez dira kontuz. Beraz, zer gaizki joan daiteke denean ikerlari saiatu kanpo lagin datuak nonrepresentative batetik orokortu bat egiteko argitzeko, 2009ko Alemaniako parlamentuko hauteskundeetan azterketa bat Andranik Tumasjan eta lankideen arabera esango nuke (2010) . 100.000 tweet baino gehiago aztertuz gero, alderdi politiko bat aipatzen duten tweeten proportzioa bat dator parlamentuko hauteskundeetan alderdiaren boto proportzioa (2.3. Irudia). Beste era batera esanda, Twitteren datuak funtsean doakoak izan zirela iruditu zitzaion iritzi publikoaren inguruko inkestak ordeztuko zituztela.
Ziur Twitter-en jakitea nahi baduzu, berehala izan beharko duzu emaitza horren eszeptikoa. Alemaniako Twitteren 2009an ez ziren hautesle alemandarren ale ausazko probabilistarik, eta alderdi batzuen aldekoak beste alderdien aldekoak baino askoz ere sarritan politikari buruzko tweet egin liteke. Horrela, badirudi harrigarria iruditzen zitzaizun posibleen alborapen guztiak nolabait ezabatuko direla, datu horiek zuzenean Alemaniako hautesleek islatzen dituztela. Izan ere, emaitzak Tumasjan et al. (2010) oso ona izan da egia izateko. Andreas Jungherr, Pascal Jürgens eta Harald Schoen (2012) jarraipen-paperak adierazi du jatorrizko azterketak baztertu egin zituenak Twitterren aipamen gehien jaso dituen alderdi politikoa: Pirate Party, alderdi txikia, gobernuaren arautegia borrokatzen duena Interneten. Pirate Party azterketa horretan sartzen denean, Twitteren aipamenek hauteskundeen emaitzen aurreikuspen izugarria bihurtzen dute (2.3 irudia). Adibide hau ilustratzen den bezala, generalizazio ez-laginketa ez-errepresentatiboen datu-iturri handiak oso gaizki joan daitezke. Era berean, kontuan hartu beharra da 100.000 tweet egin direla funtsean garrantzirik ez dutenak: datu ez errepresentatzaile ugari ez dira oraindik ordezkariak, inkestak eztabaidatzen ari naizen 3. kapituluan itzuliko naizen gai bat.
Amaitzeko, datu-iturri askok ez dute ongi definitutako biztanleriaren lagin adierazgarriak. Laginaren emaitzetatik ateratako biztanleriaren emaitzak orokortzea eskatzen duten galderei dagokienez, hau arazo larria da. Baina barne-lagineko konparazioei buruzko galderei, datu errepresentatiboak ezin dira indartsuak izan, ikertzaileek beren laginaren ezaugarriak eta euskarriaren inguruko erreklamazioen inguruko argia argi erakusten dute ebidentzia teoriko edo enpirikoan. Izan ere, nire itxaropena datu-iturri handiek ikertzaileek elkarrekintza konparazio gehiago egitea ahalbidetuko dute talde ez-errepresentatibo askotan, eta nire ustez, talde desberdinetako estimazioek ikerketa soziala aurrera eramateko aukera izango dute ausazko probabilitate batetik estimazio bakar bat baino lagina.