Óákveðinn greinir í ensku órepresentative gögn eru slæmt fyrir almennum albúmum utan sýnis, en getur verið mjög gagnlegt fyrir samanburðarrannsóknir.
Sumir félagsvísindamenn eru vanir að vinna með gögn sem koma frá líkum slembiúrtaki úr vel skilgreindum íbúum, svo sem öllum fullorðnum í tilteknu landi. Þessi tegund af gögnum er kallað dæmigerð gögn vegna þess að sýnið "táknar" stærri íbúa. Margir vísindagreinar fulltrúa gagna og sumra fulltrúa gagna eru samheiti við strangar vísindi en órepresentative gögn eru samheiti við slægð. Í flestum tilfellum virðist sumir efasemdamenn trúa því að ekkert sé hægt að læra af óprófandi gögnum. Ef satt, þetta virðist vera alvarlegt takmörk fyrir því sem hægt er að læra af stórum gagnasöfnum vegna þess að margir þeirra eru órepresentative. Sem betur fer eru þessar efasemdamenn aðeins að hluta til réttir. Það eru ákveðnar rannsóknarmarkanir sem ekki eru tilhlýðilegir upplýsingar sem ekki eru til kynningar, en aðrir eru þar sem það gæti verið mjög gagnlegt.
Til að skilja þessa greinarmun, skulum við íhuga vísindalegan klassískt: Rannsókn John Snow á 1853-54 kóleruprófinu í London. Á þeim tíma töldu margir læknar að kóleran væri af völdum "slæmt loft" en Snjór trúði því að það væri smitsjúkdómur, kannski dreifður með skólpi í drykkjarvatni. Til að prófa þessa hugmynd tók Snjó sér kost á því sem við gætum nú kallað náttúruleg tilraun. Hann samanstóð af kólesterólhlutfalli heimila sem tveir mismunandi vatnsfyrirtæki þjónuðu: Lambeth og Southwark & Vauxhall. Þessi fyrirtæki voru á svipuðum heimilum, en þeir voru öðruvísi á einum mikilvægum hátt: Árið 1849 - nokkrum árum áður en faraldur hófst - Lambeth flutti inntaksverkefnið í móti frá aðalrennsli í London, en Southwark & Vauxhall skildu inntökupípuna síðar en frárennsli frá skólpi. Þegar snjór jafnaði dauðahlutfallið úr kóleru í heimilum, sem bárust af tveimur fyrirtækjum, komst hann að því að viðskiptavinir Southwark & Vauxhall, félagið sem var að veita viðskiptavinum skólp, tæmdu vatni, voru 10 sinnum líklegri til að deyja úr kóleru. Þessi niðurstaða veitir sterkar vísindalegar vísbendingar um rök Snow um orsak kóleru, jafnvel þó að það sé ekki byggt á dæmigerðu sýni af fólki í London.
Gögnin frá þessum tveimur fyrirtækjum, hins vegar, myndu ekki vera tilvalin til að svara annarri spurningu: hvað var algengi kóleru í London í braustinni? Fyrir þessi önnur spurning, sem einnig er mikilvægt, væri miklu betra að hafa dæmigerð sýnishorn af fólki frá London.
Eins og ljóst er í verkum Snow eru nokkur vísindaleg spurning þar sem órepresentative gögn geta verið mjög árangursríkar og það eru aðrir sem það er ekki vel við hæfi. Ein gríðarleg leið til að greina þessar tvær tegundir af spurningum er að sumar spurningar eru um samanburðarrannsóknir og sumir eru um almennar algengar sýni. Þessi greinarmun er hægt að útskýra frekar með annarri klassískri rannsókn á faraldsfræði: Breska læknarannsóknin, sem gegnt mikilvægu hlutverki í því að sýna fram á að reykingar valdi krabbameini. Í þessari rannsókn fylgdu Richard Doll og A. Bradford Hill um það bil 25.000 karlkyns lækna í nokkur ár og borið saman dauðsföll þeirra miðað við það magn sem þeir reyktu þegar rannsóknin hófst. Doll og Hill (1954) fannst sterk tengsl við váhrifaviðbrögð: því meira sem fólkið reykti, þeim mun líklegra að þau myndu deyja úr lungnakrabbameini. Auðvitað væri óljóst að meta tíðni lungnakrabbameins meðal allra breskra manna byggt á þessum hópi karlkyns lækna, en samanburðarrannsóknir sýna enn fremur vísbendingar um að reykingar valdi lungnakrabbameini.
Nú þegar ég hef sýnt fram á muninn á samanburðarrannsóknum og útbreiðslumælingum, eru tveir forsendur í röð. Í fyrsta lagi eru náttúrulega spurningar um hversu mikið samband sem er í sýni af breskum læknum í Bretlandi mun einnig liggja innan sýnishorn af konum, breskum læknum eða karlkyns breskum verksmiðjum eða kvenkyns þýskum verksmiðjum eða mörgum öðrum hópum. Þessar spurningar eru áhugaverðar og mikilvægar en þær eru frábrugðnar spurningum um það sem við getum almennt frá sýni til íbúa. Takið eftir, til dæmis, að þú veist líklega að sambandið milli reykinga og krabbameins sem fannst hjá karlkyns breskum læknum mun líklega vera svipað í þessum öðrum hópum. Hæfni þín til að gera þessa útreikning kemur ekki frá þeirri staðreynd að karlkyns breskir læknar eru líklega slembragðssýni úr hvaða íbúa sem er; frekar, það kemur frá skilningi á kerfi sem tengir reykingar og krabbamein. Þannig er almenningur frá sýni til íbúa sem er dregin að mestu tölfræðileg tölublað en spurningar um flutningsgetu mynstur sem finnast í einum hópi til annars hóps eru að mestu leyti ekki tölfræðileg tölublað (Pearl and Bareinboim 2014; Pearl 2015) .
Á þessum tímapunkti gæti efasemdamaður bent á að flestir félagslegir mynstur séu líklega minna færanlegir yfir hópa en sambandið milli reykinga og krabbameins. Og ég er sammála. Að því marki sem við ættum að búast við að mynstur verði færanlegt er að lokum vísindaleg spurning sem þarf að ákveða á grundvelli kenninga og sönnunargagna. Ekki ætti sjálfkrafa að gera ráð fyrir að mynstrið verði færanlegt, en ekki ætti að gera ráð fyrir að þau verði ekki færanleg. Þessar nokkuð ágrips spurningar um flutningsgetu verða kunnugleg ef þú hefur fylgst með umræðum um hversu mikið vísindamenn geta lært um mannlegan hegðun með því að læra grunnnámi (Sears 1986, [@henrich_most_2010] ) . Þrátt fyrir þessar umræður er hins vegar óraunhæft að segja að vísindamenn geti ekki lært neitt frá því að læra grunnnámi.
Annað varúð er að flestir vísindamenn með órepresentative gögn eru ekki eins varkár eins og Snow or Doll and Hill. Svo, til að sýna fram á hvað hægt er að fara úrskeiðis þegar vísindamenn reyna að gera framlengingu úr óprófi úr óprósentuðum gögnum, vil ég kynna þér um rannsókn á þingkosningunum 2009 af Andranik Tumasjan og samstarfsmönnum (2010) . Með því að greina meira en 100.000 kvakþrep, komu þeir að því að hlutfall kvakanna sem nefndi stjórnmálaflokki samsvaraði hlutfall atkvæða sem flokkurinn fékk á alþingiskosningum (mynd 2.3). Með öðrum orðum virtist það að Twitter gögn, sem var í raun frjáls, gætu komið í stað hefðbundinna skoðanakönnana, sem eru dýr vegna áherslu á fulltrúa gögn.
Í ljósi þess sem þú þekkir líklega nú þegar um Twitter, ættir þú strax að vera efins um þessa niðurstöðu. Þjóðverjar á Twitter árið 2009 voru ekki líkur á slembiúrtaki þýskra kjósenda og stuðningsmenn sumra aðila gætu kvakað um stjórnmál oftar en stuðningsmenn annarra aðila. Þannig virðist það á óvart að öll hugsanleg hlutdrægni sem þú gætir ímyndað myndi einhvern veginn hætta við að þessar upplýsingar væru beint hugsandi af þýskum kjósendum. Í raun eru niðurstöðurnar í Tumasjan et al. (2010) reyndist vera of góð til að vera satt. Í fylgiseðli eftir Andreas Jungherr, Pascal Jürgens og Harald Schoen (2012) benti á að upprunalega greiningin hefði útilokað stjórnmálaflokksins sem hafði í raun fengið mest tilnefningar á Twitter: The Pirate Party, lítill flokkur sem berst á ríkisstjórnarsamningi af internetinu. Þegar sjóræningjasalurinn var hluti af greiningunni talar Twitter um hræðilegan spá um niðurstöður kosninganna (mynd 2.3). Eins og þetta dæmi sýnir er að nota órepresentative stór gögn heimildir til að gera út-úr-sýnishorn generalizations getur farið mjög úrskeiðis. Einnig ættir þú að taka eftir því að staðreyndin að það væru 100.000 kvak var í grundvallaratriðum óviðkomandi: fullt af órepresentative gögn er enn ekki fulltrúi, þema sem ég kem aftur til í kafla 3 þegar ég fjalla um kannanir.
Að lokum eru mörg stór gagnasöfn ekki dæmigerð sýnishorn frá sumum vel skilgreindum íbúum. Fyrir spurningar sem krefjast almennra niðurstaðna úr sýninu til fólksins sem það var dregið af, þetta er alvarlegt vandamál. En fyrir spurningar um samanburðarrannsóknir, geta óprófandi gögn verið öflugar, svo lengi sem vísindamenn eru ljóstir um einkenni sýnisins og styðja kröfur um flutningsgetu með fræðilegum eða empirískum sönnunargögnum. Reyndar er von mín sú að stórum gögnum muni gera vísindamenn kleift að gera fleiri samanburðarrannsóknir í mörgum hópum sem ekki eru forsendur, og mér er ljóst að áætlanir frá mörgum ólíkum hópum muni gera meira til að stuðla að félagslegri rannsóknum en einu mati á líkum slembi sýnishorn.