Tha dàta neo-riochdachail dona airson gnàthachadh taobh a-muigh na sampla, ach faodaidh e a bhith gu math feumail airson coimeasan taobh a-staigh na sampla.
Tha cuid de luchd-saidheans sòisealta eòlach air obrachadh le dàta a tha a 'tighinn bho shampall air thuaiream probabilistic bho àireamh-sluaigh a tha air a dheagh mhìneachadh, mar inbheach uile ann an dùthaich sònraichte. Is e dàta riochdachail a tha air an seòrsa dàta seo seach gu bheil an sampall "a 'riochdachadh" an àireamh as motha. Tha mòran de luchd-rannsachaidh a 'cosnadh dàta riochdaire, agus gu cuid, tha dàta riochdachail co-ionnan ri saidheans mionaideach ach tha dàta neo-riochdachail co-ionnan ri sloppiness. Aig a 'chuid as motha, tha coltas gu bheil cuid den fheadhainn a tha a' creidsinn nach urrainn dad a dhèanamh bho dh 'fhiosrachadh neo-riochdachail. Ma tha e fìor, bhiodh coltas gu mòr air seo air na ghabhas ionnsachadh bho stòran dàta mòra seach gu bheil mòran dhiubh neo-riochdachail. Gu fortanach, chan eil na daoine a tha a 'creidsinn ach gu ìre mhath ceart. Tha cuid de dh 'amasan rannsachaidh air nach eil dàta neo-riochdachaidh soilleir gu leòr, ach tha feadhainn eile ann a dh'fhaodadh a bhith gu math feumail dha.
Gus an eadar-dhealachadh seo a thuigsinn, smaoinich sinn air clasaig saidheansail: sgrùdadh John Snow air briseadh a 'cholera 1853-54 ann an Lunnainn. Aig an àm, bha mòran dhotairean a 'creidsinn gu robh "droch èadhar" air adhbhrachadh leis a' bhuinneach-mhòr, ach bha Snow a 'creidsinn gur e galar gabhaltach a bh' ann, is dòcha air a sgaoileadh le uisge òil le uisge. Gus an deuchainn seo a dhearbhadh, ghabh Snow buaidh air na tha sinn a-nis a 'gairm deuchainn nàdarra. Rinn e coimeas eadar ìrean colera dachaigh agus dà chompanaidh uisge eadar-dhealaichte: Lambeth agus Southwark & Vauxhall. Bha na companaidhean sin a 'frithealadh taigheadasan coltach ris, ach bha iad eadar-dhealaichte ann an dòigh chudromach: ann an 1849 - beagan bhliadhnachan mus do thòisich an galar-ghluais Lambeth a àite inntrigidh suas an abhainn bhon phrìomh dhìon uisge ann an Lunnainn, ach dh'fhàg Southwark & Vauxhall am pìob inntrigidh sìos an abhainn bhon lannachadh òtrachais. Nuair a choimeas Sneachda na rèitichean bàis bho cholera ann an taigheadasan a bha an dà chompanaidh a 'frithealadh, lorg e gu robh 10 luchd-cleachdaidh Southwark & Vauxhall-a' toirt seachad luchd-ceannach uisge truaillichte 10 tursan nas buailtiche bàsachadh bhon cholera. Tha an toradh seo a 'toirt fianais làidir saidheansail airson argamaid Snow airson adhbhar a' bhuinneach-mhòr, eadhon ged nach eil e stèidhichte air sampall riochdachail de dhaoine ann an Lunnainn.
Ach, cha bhiodh an dàta bhon dà chompanaidh seo freagarrach airson ceist eadar-dhealaichte a fhreagairt: dè cho tric 'sa bha a' cholera ann an Lunnainn nuair a thòisich e? Airson an dàrna ceist sin, a tha cuideachd cudromach, bhiodh e mòran na b 'fheàrr sampall riochdachail de dhaoine à Lunnainn fhaighinn.
Mar a tha obair Snow a 'nochdadh, tha cuid de cheistean saidheansail a dh' fhaodadh dàta neo-riochdachail a bhith gu math èifeachdach agus tha feadhainn eile nach eil freagarrach dha. Is e aon dòigh amhrànach a bhith a 'comharrachadh an dà sheòrsa cheist seo gu bheil cuid de cheistean mu choimeasan taobh a-staigh na h-eisimpleir agus tha cuid dhiubh a' buntainn ri bhith a 'dèanamh eisimpleirean a-muigh. Faodar an ìomhaigh seo a dhealbhadh tuilleadh le sgrùdadh clasaigeach eile ann an epidemioology: Sgrùdadh Dotairean Bhreatainn, aig an robh àite cudromach ann a bhith a 'sealltainn gu bheil smocadh ag adhbhrachadh aillse. Anns an sgrùdadh seo, lean Richard Doll agus A. Bradford Hill mu 25,000 dotairean fir airson grunn bhliadhnaichean agus choimeas iad na reataichean bàis stèidhichte air an ìre a bha iad a 'smocadh nuair a thòisich an sgrùdadh. Fhuair Doll agus Hill (1954) dàimh làidir-freagairt làidir: na daoine a bu mhotha a 'smocadh, na bu bhuailtiche gun robh iad a' bàsachadh bho aillse sgamhain. Gu dearbh, bhiodh e mì-chinnteach dè cho tric 'sa tha aillse sgamhain am measg muinntir Bhreatainn uile stèidhichte air a' bhuidheann seo de dhotairean fireann, ach tha an coimeas taobh a-staigh sampla fhathast a 'toirt seachad fianais gu bheil smocadh ag adhbhrachadh aillse sgamhain.
A-nis gu bheil mi air an eadar-dhealachadh a dhèanamh eadar coimeasan taobh a-staigh-sampla agus seòladairean taobh a-muigh na sampla, tha dà chùis ann an òrdugh. An toiseach, tha ceistean gu nàdarra mun ìre gu bheil dàimh a tha a 'cumail taobh a-staigh sampall de dhotairean bhoireann Bhreatainn cuideachd ann an sampall de dhotairean boireann, Bhreatainn no luchd-obrach factaraidh fireann Bhreatainn no luchd-obrach factaraidh Gearmailteach bhoireann no mòran bhuidhnean eile. Tha na ceistean sin inntinneach agus cudromach, ach tha iad eadar-dhealaichte bho cheistean mun ìre gu faod sinn coitcheannachadh bho shampla gu sluagh. Thoir fa-near, mar eisimpleir, gu bheil thu a 'smaoineachadh gur dòcha gu bheil an dàimh eadar smocadh agus aillse a lorgar ann an dotairean fireann Bhreatainn coltach ris na buidhnean eile sin. Chan eil a 'chomas agad a dhèanamh air a' bhriseadh-obrach seo a 'tighinn bhon fhìrinn gu bheil dotairean Breatannach fireann na sampall air thuaiream deuchainn bho àireamh sam bith; an àite sin, tha e a 'tighinn bho thuigse air an dòigh a tha a' ceangal smocadh agus aillse. Mar sin, generalization bho shampall airson an t-sluaigh bho a tha air an tarraing a tha gu ìre mhòr staitistigeil a 'chùis, ach ceistean mu na transportability de phàtran a gheibhear ann an aon bhuidheann gu buidheann eile a tha gu ìre mhòr a nonstatistical chùis (Pearl and Bareinboim 2014; Pearl 2015) .
Aig an ìre seo, dh'fhaoidte gum bi amharasach ag ràdh nach eil a 'chuid as motha de phàtranan sòisealta nas giùlain thar bhuidhnean na an ceangal eadar smocadh agus aillse. Agus tha mi ag aontachadh. Is e an ìre gu bu chòir dhuinn a bhith a 'sùileachadh pàtranan a bhith air an gluasad gu h-àrd na cheist saidheansail a dh'fheumar a cho-dhùnadh stèidhichte air teòiridh agus fianais. Cha bu chòir dha a bhith a 'gabhail ris gu faod pàtranan a ghiùlan, ach cha bu chòir a bhith a' gabhail ris nach gabh iad a ghiùlan. Bidh eòlach air na ceistean co-cheangailte seo a tha co-cheangailte ri transportability ma tha thu air na deasbadan a leantainn mu na tha luchd-rannsachaidh ag ionnsachadh mu ghiùlan daonna le bhith ag ionnsachadh oileanaich fo-cheum (Sears 1986, [@henrich_most_2010] ) . A dh 'aindeoin na deasbadan sin, ge-tà, bhiodh e mì-reusanta a ràdh nach urrainn do luchd-rannsachaidh rud sam bith ionnsachadh bho bhith ag ionnsachadh oileanaich fo-cheumnach.
Is e an dàrna caochladh nach eil a 'mhòr-chuid de luchd-rannsachaidh le dàta neo-riochdachail cho cùramach ri Snow no Doll and Hill. Mar sin, gus sealltainn dè a dh'fhaodas a dhol ceàrr nuair a tha luchd-rannsachaidh a 'feuchainn ri co-luachadh a dhèanamh taobh a-muigh na sampla bho dàta neo-riochdachail, bu mhath leam innse dhut mu sgrùdadh air taghadh pàrlamaideach Gearmailteach 2009 le Andranik Tumasjan agus co-obraichean (2010) . Le bhith a 'dèanamh anailis air còrr is 100,000 tweets, lorg iad gu robh a' chuibhreann de thweets a 'toirt iomradh air pàrtaidh poileataigeach co-ionann ris a' chuibhreann de bhòtaichean a fhuair am pàrtaidh sin anns an taghadh pàrlamaideach (figear 2.3). Ann am faclan eile, nochd e gum faodadh dàta Twitter, a bha an-asgaidh saor an-asgaidh, a dhol an àite sgrùdaidhean beachd poblach traidiseanta, a tha daor air sgàth an cuideam air dàta riochdachail.
A rèir na tha thu a 'smaoineachadh mu thràth mu dheidhinn Twitter, bu chòir dhut a bhith an-creidsinneach sa bhad mun toradh seo. Cha robh na Gearmailtich air Twitter ann an 2009 na sampall air leth de luchd-bhòtaidh na Gearmailt, agus dh'fhaodadh luchd-taic cuid de na pàrtaidhean tweet mu phoilitigs mòran nas trice na luchd-taic phàrtaidhean eile. Mar sin, tha e iongantach gum faodadh na h-iomairtean a dh'fhaodadh a bhith a 'smaoineachadh a dhèanamh a-mach às an rathad gus am biodh an dàta seo a' nochdadh dìreach luchd-bhòtaidh na Gearmailt. Gu dearbh, tha na toraidhean ann an Tumasjan et al. (2010) -mach gu bhith ro mhath airson a bhith fìor. Thuirt pàipear leantainneach le Andreas Jungherr, Pascal Jürgens, agus Harald Schoen (2012) gu robh an sgrùdadh bunaiteach air a bhith a-mach às a 'phàrtaidh phoilitigeach a fhuair an fheadhainn as motha air Twitter: am Pàrtaidh Spùinneadairean, pàrtaidh bheag a tha a' strì ri riaghailt riaghaltais den eadar-lìon. Nuair a chaidh am Pàrtaidh Spùinneadair a ghabhail a-steach anns an anailis, tha Twitter a 'toirt iomradh air a bhith a' toirt tuairmse air na toraidhean taghaidh (figear 2.3). Mar a tha an eisimpleir seo a 'sealltainn, le bhith a' cleachdadh stòran dàta mòr neo-riochdachail gus dèanamh cinnteach gu bheil co-theacsan taobh a-muigh na sampla a 'dol gu math ceàrr. Cuideachd, bu chòir dhut a bhith mothachail nach robh a 'chùis gu robh 100,000 clò-bhualadh buntainneach: tha mòran de dh'fhiosrachadh neo-riochdachail fhathast neo-riochdachail, cuspair a thilleas mi gu caibideil 3 nuair a bhios mi a' bruidhinn air suirbhidhean.
Gu crìch, chan eil mòran de thobraichean dàta mòr nan eisimpleirean riochdachail bho chuid de shluagh air a dheagh mhìneachadh. Airson ceistean a dh 'fheumas toraidhean coitcheann a thoirt bhon sampall don t-sluagh às an deach a tharraing, tha seo na dhuilgheadas dona. Ach airson ceistean mu choimeasan taobh a-staigh sampla, faodaidh dàta neo-riochdachail a bhith cumhachdach, cho fad's a tha luchd-rannsachaidh soilleir mu fheartan an sampla aca agus a 'toirt taic do thagraidhean mu chòmhdhail le fianais teòiridheach no inntinn. Gu dearbh, is e mo dhòchas gum bi stòrasan dàta mòr a 'toirt cothrom do luchd-rannsachaidh barrachd coimeasan taobh a-staigh eisimpleirean a dhèanamh ann am mòran bhuidhnean neo-riochdachail, agus is e mo bheachd gu dèan tuairmsean bho iomadh buidheann barrachd airson rannsachadh sòisealta adhartachadh na aon tuairmse bho thimcheall air-loidhne sampall.