Datele non-reprezentative sunt rele pentru generalizarea în afara eșantionului, dar pot fi destul de utile pentru compararea în cadrul eșantionului.
Unii oameni de știință sociali sunt obișnuiți să lucreze cu date care provin dintr-un eșantion probabilist aleatoriu dintr-o populație bine definită, cum ar fi toți adulții dintr-o anumită țară. Acest tip de date se numește date reprezentative, deoarece eșantionul "reprezintă" populația mai mare. Mulți cercetători acordă date reprezentative, iar pentru unele date reprezentative este sinonim cu știința riguroasă, în timp ce datele non-reprezentative sunt sinonime cu sloppiness. În cea mai mare măsură, unii sceptici par să creadă că nimic nu poate fi învățat din date nereprezentative. Dacă este adevărat, acest lucru ar părea să limiteze grav ceea ce se poate învăța din sursele mari de date, deoarece multe dintre ele nu sunt reprezentative. Din fericire, acești sceptici sunt doar parțial corecți. Există anumite obiective de cercetare pentru care datele nereprezentative nu sunt în mod clar potrivite, dar există și altele pentru care ar putea fi de fapt foarte utile.
Pentru a înțelege această distincție, să luăm în considerare un clasic științific: studiul lui John Snow despre izbucnirea holerei de la 1853-54 la Londra. La acea vreme, mulți doctori au crezut că holera a fost cauzată de "aer rău", dar zăpada credea că este o boală infecțioasă, probabil răspândită de apă potabilă cu apă reziduală. Pentru a testa această idee, Snow a profitat de ceea ce am putea numi acum un experiment natural. El a comparat ratele de holeră ale gospodăriilor deservite de două companii de apă diferite: Lambeth și Southwark & Vauxhall. Aceste companii au servit gospodării similare, însă s-au deosebit într-un mod important: în 1849 - cu câțiva ani înainte de începerea epidemiei - Lambeth și-a mutat punctul de admisie în amonte de descărcarea de gestiune principală în Londra, în timp ce Southwark & Vauxhall evacuarea apelor uzate. Când Snow a comparat rata mortalității cauzate de holeră în gospodăriile deservite de cele două companii, el a descoperit că clienții Southwark & Vauxhall - compania care furniza clienților apă reziduală - au fost de 10 ori mai multe șanse să moară de holeră. Acest rezultat oferă dovezi științifice puternice pentru argumentul lui Snow despre cauza holerei, chiar dacă nu se bazează pe un eșantion reprezentativ de oameni din Londra.
Datele acestor două companii nu ar fi însă ideale pentru a răspunde la o altă întrebare: care a fost prevalența holerei în Londra în timpul focarului? Pentru a doua întrebare, care este de asemenea importantă, ar fi mult mai bine să avem un eșantion reprezentativ de oameni din Londra.
Cum ilustrează lucrarea Snow, există câteva întrebări științifice pentru care datele nereprezentative pot fi destul de eficiente și există și altele pentru care nu este bine adaptată. Un mod brut de a distinge aceste două tipuri de întrebări este că unele întrebări se referă la comparații în cadrul eșantionului, iar unele sunt despre generalizări în afara eșantionului. Această distincție poate fi ilustrată în continuare printr-un alt studiu clasic în epidemiologie: Studiul britanic al medicilor, care a jucat un rol important în demonstrarea faptului că fumatul provoacă cancer. În acest studiu, Richard Doll și A. Bradford Hill au urmat aproximativ 25.000 de medici de sex masculin timp de mai mulți ani și au comparat rata mortalității în funcție de cantitatea pe care au fumat-o la începerea studiului. Doll și Hill (1954) descoperit o relație puternică de expunere-răspuns: cu cât oamenii au fost mai fumători, cu atât mai probabil ar muri de cancerul pulmonar. Desigur, nu ar fi înțelept să se estimeze prevalența cancerului pulmonar în rândul întregului popor britanic pe baza acestui grup de medici de sex masculin, dar comparația în interiorul eșantionului oferă totuși dovezi că fumatul provoacă cancer pulmonar.
Acum, că am ilustrat diferența dintre comparațiile din cadrul eșantioanelor și generalizările extrase din eșantion, sunt în ordine două avertismente. În primul rând, există în mod firesc întrebări cu privire la măsura în care o relație care se află într-un eșantion de medici britanici de sex masculin se va desfășura, de asemenea, într-un eșantion de femei, medici britanici sau muncitori francezi de sex feminin sau muncitori francezi sau multe alte grupuri. Aceste întrebări sunt interesante și importante, dar ele diferă de întrebările cu privire la măsura în care putem generaliza dintr-o probă la o populație. Observați, de exemplu, că probabil bănuiți că relația dintre fumat și cancer care a fost găsită în medici britanici de sex masculin va fi probabil similară în aceste alte grupuri. Capacitatea dvs. de a face această extrapolare nu vine din faptul că medicii britanici de sex masculin reprezintă o probă probabilistică aleatorie din orice populație; mai degrabă, provine dintr-o înțelegere a mecanismului care leagă fumatul și cancerul. Astfel, generalizarea dintr-un eșantion la populația din care este trasată este în mare măsură o problemă statistică, dar întrebările privind transportabilitatea modelului care se găsește într-un grup într-un alt grup este în mare parte o problemă nonstatistică (Pearl and Bareinboim 2014; Pearl 2015) .
În acest moment, un sceptic ar putea sublinia faptul că majoritatea modelelor sociale sunt, probabil, mai puțin transportabile pe grupuri decât relația dintre fumat și cancer. Și sunt de acord. Măsura în care ar trebui să ne așteptăm ca modelele să fie transportabile este, în cele din urmă, o chestiune științifică care trebuie să fie decisă pe baza teoriei și a dovezilor. Nu ar trebui să se presupună automat că modelele vor fi transportabile, dar nici nu ar trebui să se presupună că acestea nu vor fi transportabile. Aceste întrebări oarecum abstracte despre transportabilitate vă vor fi cunoscute dacă ați urmat dezbaterile despre cât de mult cercetători pot învăța despre comportamentul uman prin studierea studenților (Sears 1986, [@henrich_most_2010] ) . În ciuda acestor dezbateri, ar fi nerezonabil să spunem că cercetătorii nu pot învăța nimic de la studierea studenților.
Al doilea avertisment este că majoritatea cercetătorilor cu date nereprezentative nu sunt la fel de atenți ca Snow sau Doll și Hill. Deci, pentru a ilustra ce se poate întâmpla în cazul în care cercetătorii încearcă să facă o generalizare în afara eșantionului din datele nereprezentative, aș dori să vă spun despre un studiu al alegerilor parlamentare germane din 2009 de Andranik Tumasjan și colegi (2010) . Analizând mai mult de 100.000 de tweets, au constatat că proporția de tweets care menționează un partid politic corespunde proporției voturilor pe care partidul le-a primit în alegerile parlamentare (figura 2.3). Cu alte cuvinte, se pare că datele de pe Twitter, care erau în esență libere, ar putea înlocui sondajele tradiționale de opinie publică, care sunt scumpe din cauza accentului pus pe datele reprezentative.
Având în vedere ceea ce probabil știți deja despre Twitter, trebuie să fiți imediat sceptici față de acest rezultat. Germanii de pe Twitter în 2009 nu au fost un eșantion probabilist aleatoriu de alegători germani, iar susținătorii unor partide ar putea să judece despre politică mult mai des decât suporterii altor partide. Astfel, pare surprinzător faptul că toate posibilele prejudecăți pe care le-ați putea imagina ar fi oarecum anulate, astfel încât aceste date să reflecte în mod direct alegătorii germani. De fapt, rezultatele din Tumasjan et al. (2010) sa dovedit a fi prea bun pentru a fi adevărat. O lucrare de urmărire a lui Andreas Jungherr, a lui Pascal Jürgens și a lui Harald Schoen (2012) subliniat că analiza inițială a exclus politica care a primit cele mai multe mențiuni pe Twitter: Partidul Pirate, o mică partid care luptă împotriva reglementării guvernamentale de pe Internet. Atunci când Partidul Pirate a fost inclus în analiză, mențiunile Twitter devin un predictor teribil al rezultatelor alegerilor (figura 2.3). După cum ilustrează acest exemplu, folosirea unor surse mari de date non-reprezentative pentru a face generalizări în afara eșantionului poate merge foarte greșit. De asemenea, ar trebui să observați faptul că faptul că au fost 100.000 de tweet-uri a fost, în esență, irelevant: o mulțime de date nereprezentative este încă nereprezentativă, o temă la care mă voi întoarce în capitolul 3 când voi discuta sondaje.
În concluzie, multe surse de date mari nu sunt eșantioane reprezentative din unele populații bine definite. Pentru întrebările care necesită generalizarea rezultatelor din eșantion pentru populația din care a fost elaborată, aceasta este o problemă gravă. Dar, pentru întrebările referitoare la comparațiile din cadrul eșantioanelor, datele non-reprezentative pot fi puternice, atâta timp cât cercetătorii sunt clari în privința caracteristicilor eșantionului lor și susțin pretențiile privind transportabilitatea cu dovezi teoretice sau empirice. De fapt, speranța mea este că sursele de date mari vor permite cercetătorilor să facă mai multe comparații pe eșantioane în multe grupuri nereprezentative, iar estimarea mea este că estimările din mai multe grupuri diferite vor face mai mult pentru a promova cercetarea socială decât o singură estimare dintr-o probabilistică aleatoare probă.