Ùn sò fatti ghjuridificati per esse generalizazioni fora di mostra, ma pò esse uttene utili à paraguni in questione.
Certi crescianti suciali sò abituati à travaglià cume di dati chì venenu da una mostra probativi aleatoria da una pupulazioni ben definita, cum'è tutti l'adulti in un paese particular. Stu tipu di dati hè chjamatu datu rapprisintativu perchè l'esemplari "representa" a populazione più grande. Parechji circlanus prublemi di ricerca di rapprisintanti, è à certi, i dati rappresentanti sò sinonimu con scienza rigurosa mentre chì i dati non representanti sò sinonimu di sloppiness. À l'ultimi estremi, certi scettichi parce chì cridanu micca chì nunda pò esse imparutu da e dati non representanti. Se veru, questu seria di limità stretchine ciò chì pò esse appruntate da e grande infurmazioni di dati, perchè assai di elli sò micca rappresentante. Fortunatamente, questi sceptichi sò solu in parte. Ci sò certi miri di ricerca per quale ei fatti non-rappreżentante hè chjaramente micca bè adattatu, ma ci sò altri chì ponu esse uttene.
Per capiscinu sta distinzioni, cunfundini un scinziu scentificu: l'studiu di John Snow di u focu di u colore 1853-54 in Londra. À quell'èpuchju, assai medichi cundizonu chì u cholera hè stata causata da "ughjettu duffu", ma Snow creia chì era una malatie infecciosa, chì prubbabbilità per l'acqua potabilizata. Per pruvà sta idea, Snow neia apprufittante di ciò chì avemu avutu chjamatu issa pruduzione naturale. Hè compara li cholera di ei fugliali servuti da dui sucità d'acqua: Lambeth è Southwark & Vauxhall. Questi cumpagnie servuti famiglii simili, ma sò diffirenti un modu impurtante: in u 1849-uni pochi anni avanti l'epidemica accuminzau-Lambeth hà cambiatu u so puntu di ingestimentu currente da a prima purta di purtazione in Londra, mentri Southwark è Vauxhall abandunonu a catena inghacia ghjunghje da a acqua di acqua. Quandu Snow compara a furtuna di u colerà in e so domicilii da e dui società, truvò chì i clienti di Southwark & Vauxhall-a cumpagnia chì dà cunsigliu di u cacciadore d'acqua di puré de sumenti: eranu 10 probabilitati di mortu da u cholera. Questu risultatu furnisce una evidenza cientifici forti di l'argumentu di Nuzione nantu à a causa di u colerà, ancu s'ellu ùn hè fundatu nantu à una mostra rappreżentante di persone in Londra.
I dati di sti dui sociiani ùn anu micca ideale per risposta à una question differente: chì era a prevalenza di u colerus in Londra durante u focu? Per a siconda seconda, chì hè ancu impurtante, saria megliu megliu una mostra rappreżentante di persone di Londra.
Quandu u so travagliu di Neu, ponu parechji cennii scentifichi chì i dati non representanti pò esse assai efficace è chì ci sò altri chì ùn hè micca bonu adattatu. Una forma crudu di distingueru di sti dui tipi di dumanni hè chì uni pochi di quistione sò in parechje à e comparaison di mostra, è parechji circa à generalizazioni fora di mostra. Sta distinzione pò esse illustrata più da un altru studiu clàssicu in l'epidimulugia: i studienti medichi inglesa, chì hà ghjucatu un rolu impurtante in a manifestazione chì u fumu provoca cancru. In stu studiu, Richard Doll è A. Bradford Hill hà seguitu à pocu pressu circa 25 000 medichi maskili di parechji anni è paragunaru e so tassi di morte numendu annantu à a quantità ch'elli fumavanu quandu u studiu hà iniziatu. Doll and Hill (1954) truvò una relazione forte di responche-risposta: u più forte affumicatu, i più probabbe chjamà da u cancer di pulmone. Di sicuru, ùn hè impurtante per stimarna a prevalenza di u cancculu di pulmunmu trà tutti i pirsoni britannichi basati annantu à questu gruppu di i medichi masci, ma a comparsione di prufessiunale prupone evidenza chì fume pò causà u cancer di pulmone.
Avà chì aghju sculacciatu a diffarenza di e comparaison di sferenzii è generalizazioni fora di mostra, duie coseati sò in modu. Prima, ci sò naturalmenti e quistione quantu a quantità chì a relazione chì mantene nant'à una mostra di male medichi inglesi anu dettagli in un sample of female, British doctors or male British factory workers o female workers in factory in Germany, o ancu assai altri gruppi. Questi interrugazioni è impurtanti, ma sò diffirenti di e dumande nantu à a quantità à quale pudemu generalizà da un sample à una pupulazione. Avvisu, per esempiu, chì pudete sospettate chì a relazione trà u fumice è u canciu chì hè stata trovata in male medichi inglesi ùn anu da esse simule in quelli altri gruppi. A vostra capacità per fà questa extrapolazione ùn venenu micca di u fattu chì i maschi britannichi medichi sò una mostra probabilista aleatoria di ogni populazione; Pìuttostu, vene da una intrepretazione di u mekanismu chì ligame fumarone è cancer. Cusì, a generalizazione da una mostra à a populazione da quale hè stata una grande u statistique, ma e quistione nantu à a trasportabilità di u patronu truvata in un gruppu à un altru gruppu hè largamente un problema statisticu (Pearl and Bareinboim 2014; Pearl 2015) .
A stu puntu, un scetticu pò esse puntuale chì a maiò parte di i mudelli suciali sò prubabilmente mudificate per tutte i gruppi chì a rilazioni trà u fumice è u cancer. E vogliu accunsentu. A quantità à quale duvemu aspitteti chì mudelli per esse trasportable hè ultimamente una quistione scientifica chì deve esse decidi basatu in a teoria è a evidenza. Ùn devi micca devene automaticamente chì i patti seranu trasportable, ma nè mancu devi esse di chì ùn sianu micca trasportabili. Quessi parolle astratti astresii nantu à a trasportabilità seranu perfetti per voi se avete seguitu i debbati quantu i più ricchienti anu da sapè nantu à u cumpurtamentu umanu nantu à studienti studenti universitariu (Sears 1986, [@henrich_most_2010] ) . Malgradu questu dibattiti, però, ùn era micca pruduttivu di dì chì i circunsidenti ùn puderanu studià micca di studià à i studenti universitariu.
A second caveat hè chì a maiò parte di i più ricudizei cù e dati non representanti ùn sò micca cura quant'è neve o Doll è Hill. Cusì, per illustraru chì pò sbaglià chì i ricerchi pruvate à fà una generalizazione di generazione nantu à e dati non representanti, mi piace di parlà dun studiu di l'elezzioni parlamentari tudischi di u 2009 da Andranik Tumasjan è i culleghji (2010) . Per annunzià più di 100 000 tweets, truvaru chì a proporzioni di e tweets chjamannusi un partitu puliticu hà rispettu à a proporzione di voti chì u partitu ricevutu in l'elezzioni parlamentari (figura 2.3). In altre parolle, apparissi chì e dati di Twitter, chì era essinente liberu, puderanu rimpiazzari l'insegnamenti tradiziunali di l'opinioni pùblicu, chì sò custritti per l'enfasi di i dati rappresentanti.
Dà ciò chì avete probabilmente anu sapendu di Twitter, avete deverà sviutà immediatamente scettichi di stu risultatu. Tudischi in Twitter in u 2009 ùn eranu micca un esempiu probabilisticu aleatoriu di votanti in Germania, è di sustegnu di certi partiti puderianu tweete nantu à a politica ferma più spessu di e persone di altre partiti. Cusì, pare micca sorprendu chì tutti i preghjunghji pussibuli chì pudete fà imagine saranu nudita rinfurzà per questa data seria direttamente riflettante di l'votanti alemani. In fatti, i risultati in Tumasjan et al. (2010) hè stata troppu bonu per esse veru. Un cartulare di seguitu da Andreas Jungherr, Pascal Jürgens è Harald Schoen (2012) avagatu chì l'analisi originale anu sclusatu u partitu puliticu chì avianu ricivutu a più cita in Twitter: u Pirate Party, un picculu parti chì contru u regulamentu di u guvernu di Internet. Quandu u Pirate Party hè stata cumpresa in l'analizamentu, Twitter se ricone diventenu un terrible predictore di risultati elettorali (figura 2.3). Cumu stu esempiu illustra, utilizendu sughjetti di fonti di massa nonrepresentative per fà generalizazioni fora di mostra, pò andà da veru sbagliatu. Inoltre, avete bisogna chì u fattu chì ci eranu 100.000 tweets era basu irrelevant: assai arti nonrepresentative ùn hè micca rappresentante, un tema chì tornu à u capu 3 chì dicenu l'encore.
Per cunclutà, parechje fonti di dati enormi ùn sò micca i mostreni rappresentanti da qualcosa pupulazione chjamata. Per quistioni chì demandanu generalizing results from sample to the population from which was drawn, hè un problema seriu. Ma à dumande nantu à e parolle di comparaison, i dati non representanti sò potenti, finu à quantu i circhificaturi sò clarificate da e caratteristiche di u so dispusitivu è di sustegnu rapprisbelli nantu à a trasportabilità cù evidenza prufunzionala o empirica. In fatti, a so speria sia chì e grande fonti di dati sianu permettenu à i furmulori farfanu cumparacimentu in parechje numeazioni in parechji gruppi non representativivi, è a mo averia hè chì l'estimazioni di parechji gruppi diverse farà più per avanzarà a ricerca sociale ch'è una stima sola da un probabilisticu aleatoriu mostra.