Nereprezentativní údaje jsou špatné pro generalizaci mimo vzorku, ale mohou být velmi užitečné pro porovnávání v rámci jednotlivých vzorků.
Někteří sociální vědci jsou zvyklí pracovat s údaji pocházejícími z pravděpodobnostního náhodného výběrového souboru z dobře definované populace, jako jsou všichni dospělí v určité zemi. Tento druh dat se nazývá reprezentativní údaje, protože vzorek "představuje" větší populaci. Mnoho vědců oceňuje reprezentativní údaje a některé reprezentativní údaje jsou synonymem přísné vědy, zatímco nereprezentativní údaje jsou synonymem pro nedbalost. Nejvíce se zdá, že někteří skeptici věří, že z nereprezentativních údajů nelze nic naučit. Je-li to pravda, zdá se, že to výrazně omezuje to, co lze naučit z velkých zdrojů dat, protože mnoho z nich je nereprezentativní. Naštěstí tito skeptici mají jen částečně pravdu. Existují jisté výzkumné cíle, pro které jsou nereprezentativní údaje zjevně nevhodné, ale existují další, pro které by to mohlo být skutečně užitečné.
Abychom porozuměli tomuto rozlišování, zvažte vědeckou klasiku: studie Johna Snowa o epidemii cholery v Londýně v letech 1853-54. V té době mnozí lékaři věřili, že cholera byla způsobena "špatným vzduchem", ale sníh věřil, že jde o infekční onemocnění, snad šířící se pitnou vodou. Chcete-li otestovat tento nápad, Snow využil toho, co nyní můžeme nazvat přírodním experimentem. Porovnal cholerovou míru domácností podávaných dvěma různými vodárenskými společnostmi: Lambeth a Southwark & Vauxhall. Tyto společnosti sloužily obdobným domácnostem, ale v podstatě se lišily: v roce 1849 - několik let předtím, než začala epidemie - Lambeth přesunul své přítokové místo před hlavním vypouštěním odpadních vod do Londýna, zatímco Southwark & Vauxhall opustili své sací potrubí po proudu vypouštění odpadních vod. Když Snow srovnal míru úmrtí z cholery v domácnostech obou společností, zjistil, že zákazníci společnosti Southwark & Vauxhall - společnosti, která poskytuje zákazníkům vodu znečištěnou vodou - byla desetkrát vyšší pravděpodobnost, že zemře na choleru. Tento výsledek poskytuje silné vědecké důkazy pro argument společnosti Snow o příčině cholery, přestože není založen na reprezentativním vzorku lidí v Londýně.
Údaje z těchto dvou společností by však nebyly ideální pro odpovědi na jinou otázku: Jaká byla prevalence cholery v Londýně během vypuknutí? Pro druhou otázku, která je rovněž důležitá, by bylo mnohem lepší mít reprezentativní vzorek lidí z Londýna.
Jak ilustruje Snowova práce, existují některé vědecké otázky, pro které nereprezentativní údaje mohou být docela účinné a existují i jiné, pro které není vhodná. Jeden hrubý způsob rozlišování těchto dvou druhů otázek spočívá v tom, že některé otázky se týkají porovnání v rámci jednotlivých vzorků a některé jsou o generalizacích mimo příklad. Toto rozlišení lze dále ilustrovat jinou klasickou studií epidemiologie: British Doctors Study, která hrála důležitou roli při prokázání toho, že kouření způsobuje rakovinu. V této studii studovali Richard Doll a A. Bradford Hill za několik let přibližně 25 000 mužských lékařů a srovnávali jejich míru úmrtnosti na základě množství, které kouřily při zahájení studie. Doll and Hill (1954) zjistila silný vztah mezi expozicí a reakcí: čím silněji lidé kouřili, tím pravděpodobněji zemřeli na rakovinu plic. Samozřejmě by bylo rozumné odhadnout výskyt rakoviny plic u všech britských lidí založených na této skupině mužských lékařů, ale porovnání uvnitř výběrového souboru stále dokládá, že kouření způsobuje rakovinu plic.
Nyní, když jsem ilustroval rozdíl mezi porovnáním v rámci jednotlivých vzorků a generalizací mimo příklad, jsou dvě výhrady v pořádku. Za prvé, existují přirozeně otázky o tom, do jaké míry se vztah, který je součástí vzorků mužských britských lékařů, bude odehrávat také ve vzorku žen, britských lékařů nebo mužských britských továrních dělníků nebo ženských německých továrních dělníků nebo mnoha dalších skupin. Tyto otázky jsou zajímavé a důležité, ale jsou odlišné od otázek týkajících se míry, v jaké se můžeme zobecnit ze vzorku na populaci. Všimněte si například, že pravděpodobně máte podezření, že vztah mezi kouřením a rakovinou, který byl nalezen u mužů britských lékařů, bude pravděpodobně podobný v těchto ostatních skupinách. Vaše schopnost provést tuto extrapolaci nepochází z toho, že britští lékaři jsou pravděpodobné náhodné vzorky z jakékoli populace; spíše pochází z porozumění mechanismu, který spojuje kouření a rakovinu. Zobecnění ze vzorku na populaci, ze které je čerpáno, je z velké části statistickou otázkou, ale otázky týkající se přenositelnosti vzoru nalezeného v jedné skupině do jiné skupiny jsou z velké části (Pearl and Bareinboim 2014; Pearl 2015) záležitostí (Pearl and Bareinboim 2014; Pearl 2015) .
V tomto okamžiku může skeptik poukázat na to, že většina společenských vzorců je pravděpodobně méně přenosná napříč skupinami než vztah mezi kouřením a rakovinou. A souhlasím. Míra, do jaké bychom měli očekávat, že modely budou přepravitelné, je nakonec vědecká otázka, o které je třeba rozhodnout na základě teorie a důkazů. Nemělo by se automaticky předpokládat, že modely budou přepravitelné, ale ani by se nemělo předpokládat, že nebudou přepravitelné. Tyto poněkud abstraktní otázky týkající se přepravitelnosti vám budou známy, pokud budete sledovat diskusi o tom, kolik vědců se může dozvědět o chování lidí tím, že studuje vysokoškoláky (Sears 1986, [@henrich_most_2010] ) . Navzdory těmto diskusím by však bylo nepřiměřené říkat, že výzkumníci se nemohou naučit nic od studia vysokoškolských studentů.
Druhým upozorněním je, že většina výzkumníků s nereprezentativními údaji není tak opatrná, jako je Snow nebo Doll a Hill. Abych ukázal, co se může pokazit, když se vědci pokoušejí udělat generalizaci mimo vzorku z nereprezentativních údajů, ráda bych vám vyprávěla o studiu německých parlamentních voleb v roce 2009 Andranikem Tumasjanem a kolegy (2010) . Analyzováním více než 100 000 tweetů zjistilo, že podíl tweetů na politické straně odpovídá podílu hlasů, které strana obdržela v parlamentních volbách (obrázek 2.3). Jinými slovy, zdálo se, že údaje z Twitteru, které byly v podstatě zdarma, mohly nahradit tradiční průzkumy veřejného mínění, které jsou drahé z důvodu důrazu na reprezentativní údaje.
Vzhledem k tomu, co pravděpodobně už víte o Twitteru, měli byste okamžitě skepticky k tomuto výsledku. Němci na Twitteru v roce 2009 nebyli pravděpodobným náhodným výběrem německých voličů a přívrženci některých stran by se mohli o politice více často hlásit, než přívrženci jiných stran. Zdá se tedy překvapující, že všechny možné předpojatosti, které si můžete představit, by se nějak vyvrátily, aby tato data přímo odrážely německé voliče. Ve skutečnosti výsledky v Tumasjan et al. (2010) se ukázalo být příliš dobré, aby to byla pravda. Následný dokument Andreas Jungherr, Pascal Jürgens a Harald Schoen (2012) poukázal na to, že původní analýza vyloučila politickou stranu, která skutečně získala nejvíce zmínku o Twitteru: Pirátská strana, malá strana, která bojuje proti vládní regulaci internetu. Když byla pirátská strana zařazena do analýzy, zmínka o Twitteru se stává strašlivým prediktorem volebních výsledků (obrázek 2.3). Jak ukazuje tento příklad, používání velkých zdrojů dat, které nejsou reprezentativní, k provedení generalizací mimo příklad může být velmi špatné. Také byste si měli všimnout, že skutečnost, že bylo 100 000 tweets, bylo v podstatě irelevantní: spousta nereprezentativních údajů je stále nereprezentativní, což je téma, které se v kapitole 3 vrátím, když diskutuji o průzkumech.
Závěrem lze konstatovat, že mnohé velké zdroje dat nejsou reprezentativními vzorky z nějaké dobře definované populace. U otázek, které vyžadují zobecnění výsledků ze vzorku na populaci, ze které byly čerpány, je to vážný problém. Ale pokud jde o otázky týkající se srovnání uvnitř jednotlivých vzorků, mohou být nereprezentativní údaje silné, pokud jsou vědci jasně o charakteristikách jejich vzorku a podporují tvrzení o přepravitelnosti s teoretickými nebo empirickými důkazy. Ve skutečnosti se domnívám, že velké zdroje dat umožní výzkumníkům provést srovnání v rámci více než reprezentativních skupin a myslím si, že odhady od mnoha různých skupin budou více přispívat k rozvoji společenského výzkumu než k jednomu odhadu pravděpodobnostních náhodných vzorek.