Tá sonraí neamh-léiritheacha dona le haghaidh ginearálálacha taobh amuigh den sampla, ach is féidir a bheith úsáideach go leor le haghaidh comparáidí laistigh den sampla.
Tá cleachtadh ar roinnt eolaithe sóisialta ag obair le sonraí a thagann ó shampla randamach probabilistic ó dhaonra atá sainmhínithe go maith, mar shampla gach duine fásta i dtír áirithe. Tugtar sonraí ionadaíocha ar an gcineál seo sonraí mar go léiríonn an sampla "an daonra níos mó". Tá go leor taighdeoirí ag duais sonraí ionadaíocha, agus le roinnt sonraí ionadaíocha, comhchéanta le heolaíocht dhian ach tá sonraí neamh-ionadaíocha comhchiallacha le sloppiness. Ag an bpobal is mó, is cosúil go gcreideann roinnt skeptics nach féidir aon rud a fhoghlaim ó shonraí neamh-léiritheacha. Más fíor, is cosúil go gcuirfeadh sé seo teorainn mhór ar an méid is féidir a fhoghlaim ó fhoinsí sonraí móra toisc go bhfuil go leor díobh neamh-léiritheach. Ar an drochuair, níl na skeptics seo ach go páirteach i gceart. Tá spriocanna taighde áirithe ann nach bhfuil sonraí neamh-ionadaíocha soiléire go soiléir, ach tá daoine eile ina bhféadfadh sé a bheith úsáideach go deimhin.
Chun an t-idirdhealú seo a thuiscint, déanaimis machnamh ar clasaiceach eolaíoch: staidéar John Snow ar an ráig cholera 1853-54 i Londain. Ag an am seo, chreid go leor dochtúirí gur ba chúis le "droch-aeir" gurb é an t-aer a bhí ann ná gur chreid Snow gur galar tógálach a bhí ann, agus b'fhéidir gur scaipeadh uisce óil séarachais é. Chun an smaoineamh seo a thástáil, ghlac Snow leis leas a bhaint as an méid a d'fhéadfadh muid a bheith ag triail nádúrtha anois. Rinne sé comparáid idir rátaí cólra na dteaghlach a sheirbheáil dhá chuideachta uisce éagsúla: Lambeth agus Southwark & Vauxhall. D'fhreastail na cuideachtaí seo ar theaghlaigh dá leithéid, ach bhí siad difriúil ar bhealach tábhachtach amháin: i 1849 - cúpla bliain roimh thosaigh an eipidéim - d'athraigh Lambeth an bpointe ionghabhála atá os cionn an phríomhscaoileadh séarachais i Londain, agus d'fhág Southwark & Vauxhall a n-píopa ionghabhála abhainn ón urscaoileadh séarachais. Nuair a bhí Sneachta i gcomparáid leis na rátaí báis ón gcóralann i dteaghlaigh a sheirbheáil an dá chuideachta, fuair sé amach go raibh 10 seans níos mó seans ann bás a fháil ón gcóralann go raibh custaiméirí de Southwark & Vauxhall-an chuideachta a bhí ag soláthar custaiméirí uisce faoi uisce faoi uisce. Tugann an toradh seo fianaise eolaíoch láidir d'argóint Sneachta faoi chúis an cholera, cé nach bhfuil sé bunaithe ar shampla ionadaíoch daoine i Londain.
Ní bheadh na sonraí ón dá chuideachta seo, áfach, oiriúnach chun ceist eile a fhreagairt: céard é leitheadúlacht an cholera i Londain le linn na ráige? Maidir leis an dara ceist sin, atá tábhachtach freisin, bheadh sé i bhfad níos fearr sampla ionadaíoch de dhaoine ó Londain a bheith acu.
Mar a léiríonn obair Snow, tá roinnt ceisteanna eolaíocha ann a bhféadfadh sonraí neamhtháirgiúla a bheith éifeachtach go leor agus tá daoine eile nach bhfuil oiriúnach go leor dá leithéid. Ar bhealach amhráin chun idirdhealú a dhéanamh ar an dá chineál seo ceisteanna ná go bhfuil roinnt ceisteanna ann maidir le comparáidí laistigh den sampla agus tá roinnt acu faoi ghinearálacha lasmuigh den sampla. Is féidir staidéar clasaiceach eile a dhéanamh ar an idirdhealú seo i eipidéimeolaíocht: Staidéar Dochtúirí na Breataine, a raibh ról tábhachtach aige le léiriú go n-éireodh le caitheamh tobac ailse. Sa staidéar seo, lean Richard Doll agus A. Bradford Hill thart ar 25,000 dochtúirí fir ar feadh roinnt blianta agus rinne siad comparáid a dhéanamh ar a rátaí báis bunaithe ar an méid a deataigh siad nuair a thosaigh an staidéar. Fuair Doll and Hill (1954) caidreamh láidir maidir le nochtadh: na daoine a bhí níos mó deataithe, is dóchúla go bhfaigheadh siad bás ó ailse scamhóg. Ar ndóigh, bheadh sé ciallmhar meastachán a dhéanamh ar leitheadúlacht ailse scamhóg i measc gach duine de chuid na Breataine atá bunaithe ar an ngrúpa seo de dhochtúirí fir, ach cuireann an comparáid laistigh den sampla fós fianaise ar fáil go n-eascraíonn tobac tobac ailse scamhóg.
Anois go léirigh mé an difríocht idir comparáidí taobh istigh agus samplaí ginearálta taobh amuigh den sampla, tá dhá caveats in ord. Ar an gcéad dul síos, tá ceisteanna nádúrtha ann maidir leis an gcaoi a mbeidh caidreamh a bhíonn i sampla de dhochtúirí fir na Breataine i sampla de dhochtúirí baineann, de chuid na Breataine nó d'oibrithe mhonarcha fir na Breataine nó ó oibrithe monarchan na mBan nó i ngrúpaí eile. Tá na ceisteanna seo suimiúil agus tábhachtach, ach tá siad difriúil ó cheisteanna maidir leis an méid is féidir linn sampla a ghinearáil ó shampla go daonra. Fógra, mar shampla, gur dócha gur dócha go mbeidh an caidreamh idir caitheamh tobac agus ailse a fuarthas i dochtúirí fir na Breataine cosúil leis na grúpaí eile seo. Ní thagann do chumas an t-easpórtáil seo a dhéanamh ós rud é go bhfuil samplaí randamach probabilistic ó dhochtúirí ar bith i dochtúirí Breataine fireann ó aon daonra; in áit, tagann sé ó thuiscint ar an mheicníocht a bhaineann le caitheamh tobac agus ailse. Dá bhrí sin, is é an ginearálú ó shampla leis an daonra óna tarraingthe go den chuid is mó ceist staidrimh, ach ceisteanna maidir leis an transportability de phatrún le fáil sa ghrúpa amháin go grúpa eile den chuid is mó ceist nonstatistical (Pearl and Bareinboim 2014; Pearl 2015) .
Ag an bpointe seo, d'fhéadfadh sé a bheith in iúl go bhféadfadh na patrúin sóisialta is lú a iompar ar fud na ngrúpaí ná an caidreamh idir caitheamh tobac agus ailse. Agus aontaím. Is é an méid a mbeifí ag súil le patrúin a bheith iniompartha ná ceist eolaíoch ar deireadh, a chaithfear a chinneadh bunaithe ar theoiric agus ar fhianaise. Níor cheart glacadh leis go huathoibríoch go mbeidh na patrúin iniompartha, ach níor cheart glacadh leis nach mbeidh siad iniompartha. Beidh eolas agat ar na ceisteanna teibí seo a bhaineann le (Sears 1986, [@henrich_most_2010] ) má tá tú tar éis na díospóireachtaí a leanúint faoin méid is féidir le taighdeoirí foghlaim faoi iompraíocht an duine trí bhíthin ag déanamh staidéir ar mhic léinn fochéime (Sears 1986, [@henrich_most_2010] ) . In ainneoin na díospóireachtaí sin, áfach, bheadh sé míréasúnta a rá nach féidir le taighdeoirí rud ar bith a fhoghlaim ó staidéar a dhéanamh ar mhic léinn fochéime.
Is é an dara caitheamh ná nach bhfuil an chuid is mó de thaighdeoirí le sonraí neamhthábhachtacha chomh cúramach le Snow nó Doll and Hill. Mar sin, a léiriú cad is féidir dul go mícheart nuair a dhéanann taighdeoirí iarracht ginearálú lasmuigh den sampla a dhéanamh ó shonraí neamhthábhachtacha, ba mhaith liom a insint duit faoi staidéar ar thoghchán parlaiminteach na Gearmáine 2009 ag Andranik Tumasjan agus comhghleacaithe (2010) . Trí anailís a dhéanamh ar níos mó ná 100,000 tweets, fuair siad amach go raibh an cion de na tweets a luaitear ar pháirtí polaitíochta ag teacht le céatadán na vótaí a fuair an páirtí sin sa toghchán parlaiminteach (figiúr 2.3). I bhfocail eile, dhealraigh sé go bhféadfadh sonraí Twitter, a bhí go bunúsach saor in aisce, suirbhéanna tuairimí traidisiúnta an phobail a athsholáthar, atá costasach mar gheall ar a mbéim ar shonraí ionadaíocha.
Ós rud é gur dócha go bhfuil eolas agat cheana faoi Twitter, ba cheart duit a bheith skeptical láithreach ar an toradh seo. Ní sampla randamach de vótálaithe na Gearmáine iad na Gearmánaigh ar Twitter i 2009, agus d'fhéadfadh lucht tacaíochta cuid de na páirtithe tweet faoi pholaitíocht i bhfad níos minice ná lucht tacaíochta páirtithe eile. Dá bhrí sin, is cosúil go bhfuil sé iontas go bhféadfadh gach ceann de na claonta a d'fhéadfá a shamhlú cealú ar bhealach ar bhealach ionas go mbeadh na sonraí seo ag léiriú go díreach ar vótálaithe na Gearmáine. Go deimhin, na torthaí i Tumasjan et al. (2010) a bheith ró-mhaith chun a bheith fíor. Léirigh páipéar leanúnach ag Andreas Jungherr, Pascal Jürgens, agus Harald Schoen (2012) go raibh an t-anailís bhunaidh eisiata ar an bpáirtí polaitíochta a fuair an chuid is mó i ndáiríre ar Twitter: an Páirtí Pirate, páirtí beag a théann i ngleic le rialáil an rialtais den Idirlíon. Nuair a bhí an Páirtí Pirate san áireamh sa anailís, luaitear Twitter mar thorthaí uafásach ar thorthaí toghcháin (figiúr 2.3). Mar a léiríonn an sampla seo, féadann foinsí sonraí móra neamh-ionadaíocha a úsáid chun géarchéimeanna lasmuigh den sampla a dhéanamh a bheith an-éagóir. Chomh maith leis sin, ba chóir duit a rá go raibh an t-ábhar go raibh 100,000 tweets neamhábhartha go bunúsach: tá go leor sonraí neamhthábhachtacha neamh-ionadaíoch fós, téama a filleann mé ar ais i gcaibidil 3 nuair a phléim suirbhéanna.
Le teacht i gcrích, níl go leor foinsí sonraí móra samplaí ionadaíocha ó roinnt daonra dea-shainithe. Maidir le ceisteanna a éilíonn torthaí ginearálta ón sampla go dtí an daonra as a tharraingíodh é, is fadhb thromchúiseach é seo. Ach le haghaidh ceisteanna faoi chomparáidí laistigh den sampla, is féidir le sonraí neamhthábhachtacha a bheith cumhachtach, fad is atá soiléirithe ag taighdeoirí ar shaintréithe a sampla agus a thacaíonn le héilimh faoi iompar le fianaise theoiriciúil nó eimpíreach. Go deimhin, tá súil agam go gcuirfeadh foinsí sonraí mór ar chumas taighdeoirí comparáidí níos mó laistigh de shamplaí a dhéanamh i go leor grúpaí neamh-ionadaíocha, agus is é mo thuairim ná go ndéanfaidh meastacháin ó ghrúpaí éagsúla níos mó chun taighde sóisialta a chur chun cinn ná meastachán amháin ó randamach probabilistic sampla.