A nem reprezentatív adatok rosszak a minta nélküli generalizációknál, de nagyon hasznosak lehetnek a minta-összehasonlításban.
Egyes társadalomtudósok megszokták, hogy dolgozzanak olyan adatokkal, amelyek egy jól definiált népesség valószínűségi véletlenszerű mintájából származnak, mint például egy adott ország felnőttjei. Ezeket az adatokat reprezentatív adatoknak hívják, mivel a minta "képviseli" a nagyobb népességet. Sok kutató díjazza a reprezentatív adatokat, és néhány, reprezentatív adat szinonimája a szigorú tudománynak, míg a nem reprezentatív adatok szinte nélkülözik a szeszélyességet. A legszélsőségesebbek szerint néhány szkeptikus úgy gondolja, hogy semmit nem lehet megtudni a nem reprezentatív adatokból. Ha ez igaz, akkor ez nagymértékben korlátozza a nagy adatforrásokból megtanulható tényeket, mivel sokan nem reprezentatívak. Szerencsére ezek a szkeptikusok csak részben igazak. Vannak bizonyos kutatási célok, amelyekre a nem reprezentatív adatok nyilvánvalóan nem alkalmasak, de vannak olyanok is, amelyek valóban hasznosak lehetnek.
Ennek a megkülönböztetésnek a megértéséhez fontoljuk meg a tudományos klasszikusokat: John Snow tanulmányát az 1853-54-es kolera kitörésről Londonban. Abban az időben sok orvos úgy gondolta, hogy a kolerát a "rossz levegő" okozta, de Snow úgy vélte, hogy fertőző betegség, talán a szennyvízcsatorna ivóvízzel terjed. Az ötlet kipróbálására Snow kihasználta azt, amit most természetes kísérletnek nevezhetünk. Összehasonlította a két különböző vízgazdálkodási társaság által használt háztartások kolerátarányát: Lambeth és Southwark & Vauxhall. Ezek a vállalatok hasonló háztartásokat szolgáltattak, de különböztek az egyik fontos módon: 1849-ben - néhány évvel a járvány elkezdése előtt - Lambeth a szennyvízcsatorna-kibocsátás felől a szennyvízcsatorna mentén haladt el, míg a Southwark & Vauxhall elhagyta a beszívott csövet a szennyvízelvezetés. Amikor a Snow összehasonlította a halálozási arányokat a kolerától a két vállalat által kiszolgált háztartásokban, úgy találta, hogy a Southwark & Vauxhall ügyfelei - a szennyvízzel szennyezett víztisztító cégek - 10-szer nagyobb eséllyel haltak meg a kolerából. Ez az eredmény szilárd tudományos bizonyítékot szolgáltat a hónak a kolera okozta érvével kapcsolatban, bár ez nem London reprezentatív mintáján alapul.
E két vállalat adatai azonban nem lennének ideálisak egy másik kérdés megválaszolásához: mi volt a kolera előfordulása Londonban a járvány kitörése idején? A második kérdésre, amely szintén fontos, sokkal jobb lenne, ha reprezentatív mintát kapnának Londonból.
Ahogy Snow munkája szemlélteti, vannak olyan tudományos kérdések, amelyeknél a nem reprezentatív adatok meglehetősen hatékonyak lehetnek, és vannak olyanok is, amelyekre nem alkalmas. A kétféle kérdés megkülönböztetésének egyik durva módja, hogy néhány kérdés a minta-összehasonlításon alapul, és néhányan a minta nélküli általánosságokról szólnak. Ezt a megkülönböztetést tovább illusztrálja egy másik klasszikus epidemiológiai tanulmány: a British Doctors Study, amely fontos szerepet játszott annak bizonyításában, hogy a dohányzás rákot okoz. Ebben a tanulmányban Richard Doll és A. Bradford Hill évek óta körülbelül 25 000 hím orvost követett, és összehasonlították halálozási arányukat azzal a mennyiséggel, amelyre a tanulmány megkezdésekor füstöltek. Doll és Hill (1954) erősen kitett-válasz kapcsolatot talált: minél erősebben füstöltek az emberek, annál valószínűbb, hogy meghalnak a tüdőrákban. Természetesen nem lenne bölcs dolog becsülni a tüdőrák előfordulását az összes brit ember között a férfi orvosok e csoportján alapulva, de a minta szerinti összehasonlítás továbbra is bizonyítékot szolgáltat arra nézve, hogy a dohányzás tüdőrákot okoz.
Most, hogy bemutattam a különbséget a minta-összehasonlítások és a mintán kívüli általánosságok között, két figyelmeztetés van rendben. Először is természetesen felmerül a kérdés, hogy a férfi brit orvosok egy mintáján belül milyen kapcsolat áll fenn női, brit orvosok vagy férfi brit gyári munkások, női német gyári munkások vagy sok más csoport mintáján. Ezek a kérdések érdekesek és fontosak, de eltérnek attól a kérdéstől, hogy milyen mértékben tudjuk generalizálni a mintát egy lakossághoz. Vegyük észre például, hogy valószínűleg azt gyanítja, hogy a dohányzás és a rák, amely a férfi brit orvosokban található, valószínűleg hasonló lesz ezeken a csoportokon. Az extrapolációra való képességed nem abból származik, hogy a férfi brit orvosok valószínűségi véletlenszerű minta minden lakosságból; hanem a dohányzást és a rákot összekötő mechanizmus megértéséből származik. Így a mintából a populációba történő generalizáció nagyrészt statisztikai kérdés, de az egyik csoportban található minták másik csoporthoz tartozó minták transzportálhatóságával kapcsolatos kérdések nagyrészt (Pearl and Bareinboim 2014; Pearl 2015) kérdések (Pearl and Bareinboim 2014; Pearl 2015) .
Ezen a ponton a szkeptikus rámutathat arra, hogy a legtöbb társadalmi modell valószínűleg kevésbé szállítható a csoportok között, mint a dohányzás és a rák közötti kapcsolat. És egyetértek. Az a mérték, amelyre a minták szállíthatóságát várnánk, végső soron tudományos kérdés, amelyet az elmélet és a bizonyítékok alapján kell eldönteni. Nem szabad automatikusan feltételezni, hogy a minták szállíthatóak lennének, de nem szabad feltételezni, hogy nem szállíthatók. Ezek a kissé absztrakt kérdések a hordozhatóságról ismerősek lesznek, ha (Sears 1986, [@henrich_most_2010] ) a vitákat arról, hogy a hallgatók mennyire tudnak az emberi viselkedésről tanulni az egyetemi hallgatók tanulmányozásával (Sears 1986, [@henrich_most_2010] ) . A viták ellenére azonban ésszerűtlen lenne azt mondani, hogy a kutatók nem tanulhatnak meg semmit az egyetemi hallgatók tanulmányozásától.
A második megjegyzés, hogy a legtöbb nem reprezentatív adatokkal rendelkező kutató nem olyan óvatos, mint a Snow vagy a Doll és a Hill. Tehát annak bemutatására, hogy mi lehet rossz, amikor a kutatók megpróbálnak minta nélküli generalizációt tenni a nem reprezentatív adatokból, szeretnék elmondani egy tanulmányt az Andranik Tumasjan és a kollégák 2009-es német parlamenti választásának tanulmányáról (2010) . Több mint 100 000 tweetet elemezve azt találták, hogy a politikai pártot említő tweetek aránya megegyezik a parlamenti választásokon kapott szavazatok arányával (2.3. Ábra). Más szóval, úgy tűnt, hogy a lényegében szabadon lévő Twitter adatok helyettesíthetik a hagyományos közvélemény-kutatásokat, amelyek drágák a reprezentatív adatokra való hangsúlyozásuk miatt.
Tekintettel arra, amit valószínűleg már tudsz a Twitterről, azonnal szkeptikusnak kell lenned ennek az eredménynek. A németek a Twitteren 2009-ben nem voltak valószínűségi véletlenszerű minták a német szavazókról, és egyes pártok támogatói sokkal gyakrabban cseveghetnek a politikáról, mint más pártok támogatói. Így meglepőnek tűnik, hogy az esetlegesen elképzelhető esetleges elfogultságok valahogy megszűnnének, hogy ezek az adatok közvetlenül tükrözzék a német szavazókat. Valójában az eredmények Tumasjan et al. (2010) túl jónak bizonyult, hogy igaz legyen. Andreas Jungherr, Pascal Jürgens és Harald Schoen (2012) nyomon követési munkái rámutattak arra, hogy az eredeti elemzés kizárta a leginkább a Twitteren leginkább elért pártot: a Pirate Party, egy kis párt, az internetről. Amikor a kalózpárt szerepelt az elemzésben, a Twitter megemlíti a választási eredmények szörnyű előrejelzését (2.3. Ábra). Amint ez a példa illusztrálja, a nem reprezentatív nagy adatforrások használata a minta nélküli generalizációk elvégzéséhez nagyon rosszul lehet. Érdemes észrevenni, hogy az a tény, hogy 100 000 tweet létezett, lényegében irreleváns: sok nem reprezentatív adat még mindig nem reprezentatív, egy téma, amelyre a 3. fejezetben térjek vissza a felmérések megvitatásakor.
Összefoglalva, sok nagy adatforrás nem reprezentatív minták egy jól definiált populációból. Olyan kérdések esetén, amelyek a mintából a minta eredményeinek általánosabbá tételét vonják maguk után, ez komoly probléma. De a mintán belüli összehasonlításokkal kapcsolatos kérdésekben a nem reprezentatív adatok lehetnek erősek, mindaddig, amíg a kutatók tisztában vannak a minta jellemzőivel és elméleti vagy empirikus bizonyítékokkal alátámasztják az átvihetőségre vonatkozó állításokat. Valójában remélem, hogy a nagy adatforrások lehetővé teszik a kutatók számára, hogy több mintánál összehasonlítsák több nem reprezentatív csoportban, és azt hiszem, hogy a különböző csoportokból származó becslések többet fognak elősegíteni a társadalmi kutatások előmozdítása, mint egy valószínűségi véletlenszerű becslés minta.