Nereprezentatívne údaje sú zlé pri generalizáciách mimo príkladu, ale môžu byť celkom užitočné pri porovnávaní v rámci jednotlivých vzoriek.
Niektorí sociálni vedci sú zvyknutí pracovať s údajmi, ktoré pochádzajú z pravdepodobne náhodnej vzorky z dobre definovanej populácie, ako sú všetci dospelí v konkrétnej krajine. Tento druh údajov sa nazýva reprezentatívne údaje, pretože vzorka "predstavuje" väčšiu populáciu. Mnohí výskumní pracovníci získavajú reprezentatívne údaje a niektoré reprezentatívne údaje sú synonymom prísnej vedy, zatiaľ čo nereprezentatívne údaje sú synonymom nepríjemnosti. Najextrémnejšie sa zdá, že niektorí skeptici veria, že z nereprezentatívnych údajov sa nič nedá naučiť. Ak je to pravda, zdá sa, že by to výrazne obmedzilo to, čo sa dá naučiť z veľkých zdrojov údajov, pretože mnohé z nich sú nereprezentatívne. Našťastie títo skeptici majú len čiastočne pravdu. Existujú určité výskumné ciele, pre ktoré nie sú reprezentatívne údaje zjavne nevhodné, ale existujú aj iné, pre ktoré by to mohlo byť skutočne užitočné.
Aby sme pochopili tento rozdiel, uvažujme o vedeckej klasike: štúdiu Johna Snowa o epidémiách cholery v Londýne v rokoch 1853-54. Vtedy mnohí lekári verili, že cholera bola spôsobená "zlým vzduchom", ale Snow si myslel, že ide o infekčnú chorobu, ktorá sa pravdepodobne šíri pitnou vodou. Aby sme túto myšlienku otestovali, Snow využil to, čo teraz môžeme nazvať prirodzeným experimentom. Porovnal mieru cholery domácností, ktoré slúžili dve rôzne vodárenské spoločnosti: Lambeth a Southwark & Vauxhall. Tieto spoločnosti slúžili podobným domácnostiam, ale významne sa odlišovali: v roku 1849 - niekoľko rokov pred začiatkom epidémie - spoločnosť Lambeth presunula svoj vstupný bod pred hlavným vypúšťaním odpadových vôd do Londýna, zatiaľ čo spoločnosť Southwark & Vauxhall opustila svoje sacie potrubie po prúde vypúšťanie odpadových vôd. Keď sneh porovnal mieru úmrtí z cholery v domácnostiach, ktoré slúžili dve spoločnosti, zistil, že zákazníci spoločnosti Southwark & Vauxhall - spoločnosti, ktorá poskytuje zákazníkom vodu znečistenú vodou - bola desaťkrát vyššia pravdepodobnosť úmrtia z cholery. Tento výsledok poskytuje silné vedecké dôkazy pre tvrdenie Snowovej o príčine cholery, aj keď nie je založené na reprezentatívnej vzorke ľudí v Londýne.
Údaje z týchto dvoch spoločností však nebudú ideálne na zodpovedanie inej otázky: aká bola prevalencia cholery v Londýne počas vypuknutia choroby? Pre druhú otázku, ktorá je tiež dôležitá, by bolo oveľa lepšie mať reprezentatívnu vzorku ľudí z Londýna.
Ako ilustruje práca Snowu, existujú niektoré vedecké otázky, pre ktoré môžu byť nereprezentatívne údaje dosť účinné a existujú iné, pre ktoré nie je vhodná. Jeden hrubý spôsob rozlíšenia týchto dvoch druhov otázok spočíva v tom, že niektoré otázky sa týkajú porovnaní v rámci vzorky a niektoré sú o zovšeobecňovania mimo príkladu. Toto rozlíšenie možno ďalej ilustrovať v ďalšej klasickej štúdii epidemiológie: Štúdia britských lekárov, ktorá zohrala dôležitú úlohu pri preukazovaní, že fajčenie spôsobuje rakovinu. V tejto štúdii Richard Doll a A. Bradford Hill nasledovali niekoľko rokov približne 25 000 mužských lekárov a porovnali ich úmrtnosť na základe množstva, ktoré fajčili po začatí štúdie. Doll and Hill (1954) našli silný vzťah medzi expozíciou a odpoveďou: Čím silnejšie ľudia fajčili, tým je pravdepodobnejšie, že zomreli na rakovinu pľúc. Samozrejme, nebolo rozumné odhadnúť výskyt rakoviny pľúc u všetkých britských ľudí na základe tejto skupiny mužských lekárov, ale porovnanie v rámci výberu vzorky stále dokazuje, že fajčenie spôsobuje rakovinu pľúc.
Teraz, keď som ilustroval rozdiel medzi porovnaním v rámci vzorky a generalizáciami mimo výberu, sú dve námietky v poriadku. Po prvé, existujú prirodzene otázky o tom, do akej miery sa vzťahy, ktoré sa nachádzajú vo vzorke britských lekárov, budú nachádzať aj vo vzorke žien, britských lekárov alebo mužských britských továrníckych pracovníkov alebo ženských nemeckých továrníckych pracovníkov alebo mnohých ďalších skupín. Tieto otázky sú zaujímavé a dôležité, ale líšia sa od otázok o tom, do akej miery je možné zovšeobecniť vzorku na populáciu. Všimnite si napríklad, že pravdepodobne máte podozrenie, že vzťah medzi fajčením a rakovinou, ktorý sa našiel u mužov britských lekárov, bude pravdepodobne podobný aj v týchto iných skupinách. Vaša schopnosť urobiť túto extrapoláciu nepochádza zo skutočnosti, že britskí doktori sú pravdepodobne náhodnou vzorkou z akejkoľvek populácie; skôr vychádza z pochopenia mechanizmu, ktorý spája fajčenie a rakovinu. To znamená, že generalizácia zo vzorky do súboru, z ktorého je odoberaný je do značnej miery štatistický problém, ale otázky o prenášaní vzore nachádza v jednej skupiny do inej je veľmi nonstatistical problém (Pearl and Bareinboim 2014; Pearl 2015) .
V tomto bode by skeptik mohol poukázať na to, že väčšina spoločenských vzorov je pravdepodobne menej prenesiteľná do skupín ako vzťah medzi fajčením a rakovinou. A súhlasím. Rozsah, v ktorom by sme mali očakávať, že modely budú prepravovateľné, je v konečnom dôsledku vedeckou otázkou, o ktorej je potrebné rozhodnúť na základe teórie a dôkazov. Nemalo by sa automaticky predpokladať, že modely budú prepravovateľné, ale ani by sa nemalo predpokladať, že nebudú prepravovateľné. Tieto trochu abstraktné otázky týkajúce sa prepraviteľnosti vám budú známe, ak ste sledovali diskusie o tom, koľko vedcov sa môže dozvedieť o ľudskom správaní štúdiom vysokoškolských študentov (Sears 1986, [@henrich_most_2010] ) . Napriek týmto diskusiám by bolo nerozumné povedať, že vedci sa nemôžu naučiť nič od štúdia vysokoškolských študentov.
Druhá výhrada spočíva v tom, že väčšina vedcov s nereprezentatívnymi údajmi nie je taká opatrná ako Snow, Doll a Hill. Aby som ilustroval, čo sa môže pokaziť, keď sa vedci pokúsia urobiť generalizáciu mimo vzorky z nereprezentatívnych údajov, rád by som vám povedal štúdiu o nemeckých parlamentných voľbách v roku 2009 Andranikom Tumasjánom a kolegami (2010) . Analyzovaním viac ako 100 000 tweetov zistilo, že podiel tweetov spomínajúcich politickú stranu zodpovedal podielu hlasov, ktoré strana získala v parlamentných voľbách (obrázok 2.3). Inými slovami, zdá sa, že údaje z Twitteru, ktoré boli v podstate bezplatné, mohli nahradiť tradičné prieskumy verejnej mienky, ktoré sú drahé z dôvodu ich dôrazu na reprezentatívne údaje.
Vzhľadom na to, čo ste pravdepodobne už vedeli o Twitteru, mali by ste okamžite skeptický k tomuto výsledku. Nemci na Twitteri v roku 2009 neboli pravdepodobnostnou náhodnou vzorkou nemeckých voličov a priaznivci niektorých strán by mohli o politike pípať oveľa častejšie ako prívrženci iných strán. Preto je prekvapujúce, že všetky možné predsudky, ktoré by ste si mohli predstaviť, by nejako vypršali, aby tieto údaje priamo odrážali nemeckých voličov. V skutočnosti výsledky v Tumasjan et al. (2010) ukázalo byť príliš dobré, aby to bola pravda. Následný dokument Andreas Jungherr, Pascal Jürgens a Harald Schoen (2012) poukázal na to, že pôvodná analýza vylúčila politickú stranu, ktorá skutočne získala najväčšie zmienky o Twitteru: Pirátska strana, malá strana, ktorá bojuje proti vládnej regulácii internetu. Keď bola pirátska strana zahrnutá do analýzy, spomenuté udalosti sa stali strašným prediktorom výsledkov volieb (obrázok 2.3). Ako ilustruje tento príklad, používanie nereprezentatívnych veľkých zdrojov údajov na vykonanie generalizácií mimo výberu môže ísť veľmi zle. Tiež by ste si mali všimnúť, že skutočnosť, že bolo 100 000 tweets, bolo v podstate irelevantné: veľa nereprezentatívnych údajov je stále nereprezentatívnych, téma, na ktorú sa vrátim v kapitole 3, keď diskutujem o prieskumoch.
Na záver, mnohé veľké zdroje údajov nie sú reprezentatívnymi vzorkami od niektorých dobre definovaných skupín obyvateľstva. Pri otázkach, ktoré vyžadujú zovšeobecnenie výsledkov zo vzorky na populáciu, z ktorej boli nakreslené, je to vážny problém. Ale kvôli otázkam týkajúcim sa porovnaní v rámci výberu vzoriek môžu byť nereprezentatívne údaje silné, pokiaľ sú vedci jasní o charakteristikách ich vzorky a podporujú tvrdenia o prepraviteľnosti s teoretickými alebo empirickými dôkazmi. V skutočnosti moja nádej je, že veľké zdroje údajov umožnia výskumníkom robiť viac porovnávacích vzoriek v mnohých nereprezentatívnych skupinách a myslím si, že odhady od mnohých rôznych skupín urobia viac na podporu sociálneho výskumu ako jeden odhad z pravdepodobnosti náhodných vzorky.