A 'faighneachd de mhodal ro-innseachail a bhith a' cleachdadh dàta suirbhidh bho chuid de dhaoine le stòras mòr dàta bho iomadh duine.
Is e dòigh eadar-dhealaichte airson suirbhidh agus stòran dàta mòr a chur còmhla mar phròiseas a dh 'iarr mi air a dhèanamh nas fhasa a' faighneachd . Ann am faighneachd nas fharsainge, bidh neach-rannsachaidh a 'cleachdadh modal ro-innseach gus beagan de dhàta an t-suirbhidh a chur còmhla le stòr dàta mòr gus tuairmsean a dhèanamh aig sgèile no gràinealachd nach biodh comasach le dà stòr dàta fa leth. Tha eisimpleir cudromach de dh 'fhaighneachd nas fheàrr a' tighinn bho obair Joshua Blumenstock, a bha airson fiosrachadh a chruinneachadh a dh'fhaodadh cuideachadh le stiùireadh a stiùireadh ann an dùthchannan bochda. San àm a dh'fhalbh, dh'fheumadh luchd-rannsachaidh a bha a 'cruinneachadh an seòrsa dàta seo aon de dhà dhòigh-obrach a ghabhail: suirbhidhean sampall no cunntasan. Bidh eisimpleirean de shuirbhidhean, far a bheil luchd-rannsachaidh agallamhan le àireamh bheag de dhaoine, a bhith sùbailte, àmail, agus gu ìre mhath saor. Ach, tha na suirbhidhean sin, seach gu bheil iad stèidhichte air sampall, glè thric cuingealaichte anns an rùn aca. Le sgrùdadh sampall, tha e gu math duilich tuairmsean a dhèanamh mu roinnean cruinn-eòlasach sònraichte no airson buidhnean sònraichte deamografach. Air an làimh eile, bidh cunntasan a 'feuchainn ri agallamh a dhèanamh air a h-uile duine, agus mar sin faodar an cleachdadh gus tuairmsean a dhèanamh airson sgìrean cruinn-eòlasach beaga no buidhnean deamografach. Ach san fharsaingeachd tha cunntasan-sluaigh daor, cumhang ann am fòcas (chan eil iad ach àireamh bheag de cheistean), agus chan ann aig àm sam bith (bidh iad a 'tachairt air clàr stèidhichte, mar a h-uile 10 bliadhna) (Kish 1979) . An àite a bhith an sàs ann an suirbhidhean no cunntasan-sluaigh, smaoinich nan dèanadh luchd-rannsachaidh na feartan as fheàrr aig an dà chuid. Smaoinich an urrainn do luchd-rannsachaidh gach ceist iarraidh air a h-uile duine gach latha. Gu h-àraid, is e seo seòrsa de shamhlachas saidheans sòisealta a tha seo. Ach tha e coltach gum faod sinn tòiseachadh air seo a dhèanamh le bhith a 'toirt cheistean sgrùdaidh bho àireamh bheag de dhaoine le comharran didseatach bho iomadh duine.
Thòisich rannsachadh Blumenstock nuair a cho-chomharraich e leis an solaraiche fòn-làimhe as motha ann an Ruanda, agus thug a 'chompanaidh clàran gnothaich gun urra bho 1.5 millean neach-cleachdaidh eadar 2005 agus 2009. Bha fiosrachadh ann mu gach gairm agus teachdaireachd teacsa, mar an ùine tòiseachaidh , agus suidheachadh cruinn-eòlasach faisg air an neach-gairm agus an neach-glacaidh. Mus bruidhinn mi mu na cùisean staitistigeil, is fhiach a bhith ag ràdh gur dòcha gum bi a 'chiad cheum seo mar aon den fheadhainn as duilghe do luchd-rannsachaidh. Mar a tha mi air aithris ann an caibideil 2, chan eil ruigsinneachd aig a 'mhòr-chuid de thobraichean dàta luchd-rannsachaidh. Tha meata-dàta fòn, gu h-àraid, gu h-àraidh air a ruigsinn oir tha e do-dhèanta gun urrainnear a bhith air ainmeachadh agus gu dearbh tha fiosrachadh ann gum beachdaicheadh na com-pàirtichean (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Anns a 'chùis shònraichte seo, bha an luchd-rannsachaidh faiceallach gus an dàta a dhìon agus bha an obair aca air a stiùireadh le treas-phàrtaidh (ie, an IRB). Bidh mi a 'tilleadh chun na cùisean beusanta sin ann an tuilleadh fiosrachaidh ann an caibideil 6.
Bha ùidh aig Blumenstock ann a bhith a 'tomhas beairteas agus math. Ach chan eil na feartan sin dìreach anns na clàran gairm. Ann am faclan eile, tha na clàran-gairm sin neo - iomlan airson an rannsachaidh seo - feart coitcheann de stòran dàta mòr a chaidh a dheasbad gu mionaideach ann an caibideil 2. Ach, tha coltas ann gu bheil cuid de dh'fhiosrachadh aig na clàran gairm a dh'fhaodadh fiosrachadh neo-dhìreach a thoirt seachad mu bheairteas agus math. Leis a 'chomas seo, dh' fhaighnich Blumenstock an robh e comasach modail ionnsachaidh inneal a thrèanadh gus ro-innse mar a dhèiligeas cuideigin suirbhidh stèidhichte air na clàran gairm aca. Nam biodh seo comasach, dh'fhaodadh Blumenstock am modail seo a chleachdadh gus freagairtean an t-suirbhidh de 1.5 millean neach-cleachdaidh a thuar.
Gus an leithid de mhodal a thogail agus a thrèanadh, thug Blumenstock agus luchd-cuideachaidh rannsachaidh bho Institiud Saidheans is Teicneòlais Kigali a-mach sampall air thuaiream de mu mhìle neach-ceannach. Mhìnich an luchd-rannsachaidh amasan na pròiseict dha na com-pàirtichean, dh 'iarr iad air an cead a bhith a' ceangal freagairtean an t-suirbhidh air na clàran-gairm, agus an uairsin dh 'iarr iad sreath de cheistean dhaibh gus am beairteas agus am mathas a thomhas, leithid "A bheil thu fhèin radio? "agus" A bheil rothair agad fhèin? "(faic figear 3.14 airson liosta pàirt). Chaidh a h-uile com-pàirtiche san t-suirbhidh a dhèanamh air ais gu ionmhasail.
An ath bhliadhna, chleachd Blumenstock modh dà-cheum a bha cumanta ann an ionnsachadh innealan: einnseanaireachd feartan agus an uairsin le ionnsachadh fo stiùir. An toiseach, anns a 'cheum innleadaireachd feart , airson a h-uile duine a chaidh agallamh, rinn Blumenstock na clàran gairm air ais gu seata comharran mu gach neach; dh'fhaodadh luchd-saidheans dàta na feartan seo a chomharrachadh mar "feartan" agus bhiodh luchd-saidheans sòisealta ag atharrachadh "variables" dhaibh. Mar eisimpleir, airson gach neach, bha Blumenstock a 'cunntadh àireamh iomlan nan latha le gnìomhachd, an àireamh de dhaoine air leth a tha neach air a bhith an conaltradh ris, suim airgid air a chosg air àm-ama, agus mar sin air adhart. Gu h-èiginneach, tha deagh innleadaireachd fheart ag iarraidh eòlas air an suidheachadh rannsachaidh. Mar eisimpleir, ma tha e cudromach eadar-dhealachadh a dhèanamh eadar gairmean dachaigheil agus eadar-nàiseanta (is dòcha gum bi sinn a 'sùileachadh gum bi daoine a tha a' gairm gu h-eadar-nàiseanta nas beairtiche), feumaidh seo a dhèanamh aig ceum innleadaireachd feart. Is dòcha nach bi neach-rannsachaidh le tuigse bheag de Rwanda a 'gabhail a-steach an fheart seo, agus an uairsin a' fulang coileanadh ro-innseach a 'mhodail.
An ath rud, anns a 'cheum ionnsachaidh fo stiùir , thog Blumenstock modail airson ro-ràdh freagairt an t-suirbhidh airson gach neach stèidhichte air na feartan aca. Anns a 'chùis seo, chleachd Blumenstock ath-thòiseachadh logaigeach, ach dh'fhaodadh e raon de dhòighean ionnsachaidh àireamhail no inneal eile a chleachdadh.
Dè cho math 'sa bha e ag obair? An robh Blumenstock comasach air ro-innse air freagairtean do cheistean suirbhidh mar "An robh rèidio agad fhèin" agus "A bheil thu fhèin air baidhsagal?" A 'cleachdadh feartan a thàinig bho chlàran glainne? Gus measadh a dhèanamh air coileanadh a mhodail ro-innseach, chleachd Blumenstock crois-dearbhaidh , modh a chleachdar gu cumanta ann an saidheans dàta ach ainneamh ann an saidheans sòisealta. Is e an t-amas a th 'ann an tar-dhearbhadh measadh measaidh a thoirt seachad air coileanadh ro-innseach modail le bhith ga thrèanadh agus ga dheuchainn air fo-sheataichean eadar-dhealaichte de dhàta. Gu h-àraid, roinn Blumenstock an dàta aige gu 10 pìosan de 100 duine gach fear. An uair sin, chleachd e naoi de na puingean airson a mhodail a thrèanadh, agus chaidh coileanadh ro-innseach a 'mhodail trèanaidh a mheasadh air a' chrann eile. Rinn e aithris air a 'mhodh-obrachaidh seo 10 tursan - le gach cnap de dhàta a' faighinn aon tionndadh mar dàta dearbhaidh-agus a 'cuibheasachd nan toraidhean.
Bha cruinneas na ro-innse àrd airson cuid de dh 'fheartan (figear 3.14); mar eisimpleir, dh'fhaodadh Blumenstock ro-innse le 97.6% gu ceart ma bha rèidio aig cuideigin. Dh'fhaodadh seo a bhith fìor iongantach, ach tha e an-còmhnaidh cudromach coimeas a dhèanamh eadar modh ro-mheasadh toinnte an aghaidh roghainn shìmplidh. Anns a 'chùis seo, tha roghainn sìmplidh ro-innse gum bi a h-uile duine a' toirt seachad am freagairt as cumanta. Mar eisimpleir, thuirt 97.3% den luchd-fhreagairt gu robh rèidio aca mar sin, ma bha Blumenstock air a ràdh gum biodh a h-uile duine ag aithris air rèidio a bhith aca bhiodh 97.3% gu ceart, rud a tha iongantach coltach ri coileanadh a dhòigh-obrach nas iom-fhillte (97.6% de chruinneas) S an Iar- Ann am faclan eile, dh'atharraich a h-uile dàta agus modaileadh fìrinneach dè cho ceart 'sa bha an ro-aithris bho 97.3% gu 97.6%. Ach, airson ceistean eile, leithid "A bheil thu fhèin air baidhsagal?", Bha na ro-innleachdan air an leasachadh bho 54.4% gu 67.6%. Nas fharsainge, tha figear 3.15 a 'sealltainn nach do chuidich cuid de dhualchas Blumenstock mòran a bharrachd a-mach dìreach a bhith a' dèanamh an ro-innse bunaiteach sìmplidh, ach gun robh beagan leasachaidh ann airson feartan eile. A 'coimhead dìreach air na toraidhean sin, ge-tà, chan eil thu a' smaoineachadh gu bheil an dòigh-obrach seo gu sònraichte gealltanach.
Ach, dìreach bliadhna an dèidh sin, chaidh Blumenstock agus dithis cho-obraiche-Gabriel Cadamuro agus Robert On-pàipear fhoillseachadh ann an Saidheans le toraidhean gu math nas fheàrr (Blumenstock, Cadamuro, and On 2015) . Bha dà phrìomh adhbhar teicnigeach ann airson an leasachadh seo: (1) chleachd iad modhan nas adhartaiche (ie, dòigh-obrach ùr airson innleadaireachd feartan agus modail nas adhartaiche gus freagairtean a thoirt seachad bho fheartan) agus (2) an àite a bhith a 'feuchainn ri freagairtean a thoirt a-steach do dhaoine fa leth. cheistean suirbhidh (me, "A bheil rèidio agad fhèin?"), dh'fheuch iad ri clàr-innse beairteas co-phàirteach a thoirt a-steach. Bha na leasachaidhean teicnigeach sin a 'ciallachadh gum b' urrainn dhaibh obair reusanta a dhèanamh de chlàran-gairm a chleachdadh gus beairteas a thoirt seachad airson na daoine anns an taghadh aca.
A bhith a 'creidsinn beairteas dhaoine san sampall, ge-tà, cha b' e prìomh amas an rannsachaidh. Cuimhnich gur e an amas mu dheireadh a bhith a 'cur ri cuid de na feartan as fheàrr de shuirbhidhean sampall agus cunntasan gus tuairmsean mionaideach de dh' ìsleachd àrd de bhochdainn ann an dùthchannan fo leasachadh a dhèanamh. Gus measadh a dhèanamh air an comas air an amas seo a choileanadh, chleachd Blumenstock agus co-obraichean am modail aca agus an dàta aca gus ro-ràdh a dhèanamh air beairteas 1.5 millean neach anns na clàran-gairm. Agus chleachd iad an fhiosrachadh geospatial a chaidh a stèidheachadh anns na clàran gairm (tha e a 'cuimhneachadh gu robh an dàta a' toirt a-steach làrach an tùir cealla as fhaisge airson gach gairm) gus tuairmse a dhèanamh air an àite far a bheil àite còmhnaidh aig gach neach (figear 3.17). A 'cur an dà tuairmse seo còmhla, chruthaich Blumenstock agus co-obraichean tuairmse air sgaoileadh cruinn-eòlas beairteas an neach-sgrìobhaidh aig gràinealachd spàsach fìor mhath. Mar eisimpleir, dh'fhaodadh iad tuairmse a dhèanamh air a 'bheairteas cuibheasach anns gach aon de 2,148 cealla Ruanda (an aonad rianachd as lugha san dùthaich).
Dè cho math 'sa bha na tuairmsean sin a' gèilleadh suas ris an ìre fìor bhochdainn anns na sgìrean sin? Mus do fhreagair mi a 'cheist sin, tha mi airson cuideam a chur air gu bheil iomadh adhbhar ann airson a bhith mì-chreidsinneach. Mar eisimpleir, bha comas air ro-innse a dhèanamh aig ìre fa leth gu math fuaimneach (figear 3.17). Agus, 's dòcha nas cudromaiche, dh' fhaodadh daoine le fònaichean-làimhe a bhith eadar-dhealaichte gu riaghailteach bho dhaoine gun fhònaichean-làimhe. Mar sin, dh'fhaodadh Blumenstock agus co-oibrichean a bhith a 'fulang leis na seòrsaichean mearachdan craolaidh a chuir an aghaidh suirbhidh Dìleab Litreachail 1936 a thug mi iomradh na bu tràithe.
Gus faighinn mothachadh air càileachd an tuairmsean, dh'fheumadh Blumenstock agus co-oibrichean an coimeas a dhèanamh le rudeigin eile. Gu fortanach, mun aon turas ris an sgrùdadh aca, bha buidheann eile de luchd-rannsachaidh a 'ruith sgrùdadh sòisealta nas traidiseanta ann an Ruanda. Bha an t-suirbhidh eile seo - a bha na phàirt den phrògram Suirbhidh Deamografach agus Slàinte air a bheil mòran spèis - air buidseat mòr agus bha dòighean traidiseanta àrd-inbheach air a chleachdadh. Mar sin, dh'fhaodadh na tuairmsean bhon Sgrùdadh Deamografach is Slàinte a bhith air am meas gu reusanta air tuairmsean àbhaisteach òir. Nuair a chaidh an dà mheas a choimeas, bha iad gu math coltach (figear 3.17). Ann am faclan eile, le bhith a 'cur beagan de dhàta an t-suirbhidh còmhla ris na clàran gairm, b' urrainn do Blumenstock agus do cho-obraichean tuairmsean a dhèanamh coimeasach ris an fheadhainn bho dhòighean-obrach àbhaisteach òir.
Is dòcha gur e briseadh-dùil a tha ann am fear-amhairc. Às deidh sin, is e aon dhòigh air am faicinn iad a ràdh le bhith a 'cleachdadh dàta mòr agus ionnsachadh innealan, bha Blumenstock agus co-oibrichean comasach air tuairmsean a dhèanamh a dh' fhaodadh a bhith air an dèanamh nas earbsaiche le dòighean a tha ann mar-thà. Ach chan eil mi a 'smaoineachadh gur e sin an dòigh cheart airson smaoineachadh air an sgrùdadh seo airson dà adhbhar. An toiseach, bha na tuairmsean bho Blumenstock agus co-oibrichean mu 10 uair nas luaithe agus 50 uair nas saoire (nuair a thathar a 'tomhas cosgais a thaobh cosgaisean caochlaideach). Mar a chuir mi argamaid na bu tràithe sa chaibideil seo, tha luchd-rannsachaidh a 'leigeil seachad a' chosgais aig an ìre. Anns a 'chùis seo, mar eisimpleir, tha an lùghdachadh dràmatach a' ciallachadh gu bheil an seòrsa suirbhidh seo air a ruith gach mìos, mar thoradh air mar a tha ìre àbhaisteach ann airson Sgrùdaidhean Deamografach is Slàinte, a bheireadh mòran bhuannachdan dha luchd-rannsachaidh agus poileasaidh dèanamh. Is e an dàrna adhbhar nach gabh beachd an t-smeòrach a dhèanamh gu bheil an sgrùdadh seo a 'toirt seachad ribe bunaiteach a ghabhas a dhealbh airson iomadh suidheachadh rannsachaidh. Chan eil ach dà chuibhreann agus dà cheum anns a 'bhìdh seo. Is e na stuthan a th 'ann (1) stòr dàta mòr a tha farsaing ach tana (ie, tha mòran dhaoine ann ach nach eil am fiosrachadh a dh' fheumas tu mu gach neach) agus (2) suirbhidh a tha cumhang ach tioram (ie, chan eil ann ach beagan dhaoine, ach tha am fiosrachadh a dh 'fheumas tu mu na daoine sin). Bidh na h-innealan sin an uairsin air an toirt còmhla ann an dà cheum. An toiseach, airson na daoine anns an dà bhun dàta, cruthaich modal ionnsachaidh innealan a chleachdas an stòr dàta mòr gus freagairtean suirbhidh a thuar. An ath rud, cleachd am modail sin gus freagairtean an t-suirbhidh a bhrosnachadh a h-uile duine anns an stòr dàta mòr. Mar sin, ma tha ceist ann gu bheil thu airson tòrr dhaoine iarraidh, coimhead airson stòr dàta mòr bho na daoine sin a dh'fhaodadh a bhith air an cleachdadh gus am freagairt a thoirt seachad, eadhon mura h-eil thu a 'gabhail cùram mun tùs fiosrachaidh mhòr . Is e sin, cha robh Blumenstock agus co-oibrichean a 'gabhail cùram mu chlàran gairm; cha robh iad ach a 'faighinn cùram mu chlàran gairm oir dh'fhaodadh iad a bhith air an cleachdadh gus freagairtean suirbhidh a thoirt seachad a bha iad a' coimhead às deidh. Tha an ùidh dhìreach neo-dhìreach seo anns an stòras dàta mòr a 'dèanamh nas fheàrr a' faighneachd eadar-dhealaichte bho bhith a 'faighneachd gu teann, a dh' innseas mi na bu tràithe.
Anns a 'cho-dhùnadh, chuir dòigh-obrach fhadaichte Blumenstock dòigh-làimhseachaidh còmhla dàta sgrùdaidh le stòr dàta mòr gus tuairmsean a dhèanamh coimeas ris an fheadhainn bho shuirbhidh inbhe òir. Tha an eisimpleir shònraichte seo cuideachd a 'soilleireachadh cuid de na malairt-malairt eadar faighneachd nas fheàrr agus dòighean sgrùdaidh traidiseanta. Bha na tuairmsean a bha a 'faighneachd nas sìmplidh nas cumanta, gu ìre mhòr na bu shaoire, agus barrachd clach-ghràin. Ach, air an làimh eile, chan eil bunait làidir teòiridheach fhathast ann airson a bhith a 'faighneachd an seòrsa seòrsa seo. Chan eil an aon eisimpleir seo a 'nochdadh nuair a dh'obraicheas an dòigh-obrach seo agus cuin nach dèan e, agus feumaidh luchd-rannsachaidh a tha a' cleachdadh an dòigh-obrach seo a bhith gu sònraichte iomagaineach mu chinnidhean a dh'fhaodadh a bhith air an adhbharachadh le cò a tha air an gabhail a-steach - agus cò nach eil air a ghabhail a-steach - anns an stòr dàta mhòr aca. A bharrachd, chan eil dòighean math fhathast aig an dòigh-obrachaidh nas fheàrr fhathast gus mì-chinnt a thomhas mu na tuairmsean aice. Gu fortanach, leudaich a bhith a 'faighneachd gu bheil ceanglaichean domhainn ri trì raointean mòra ann an staitistig - tuairmse beag-sgìre (Rao and Molina 2015) , cur an cèill (Rubin 2004) , agus post-stratification stèidhichte air modail (a tha e dlùth cheangailte ri Mgr P., an dòigh a mhìnich mi na bu tràithe sa chaibideil) (Little 1993) . Air sgàth nan ceanglaichean domhainn sin, tha mi an dùil gum bi mòran de na bunaitean modhan-obrach de cheasnachadh nas fheàrr air an leasachadh.
Mu dheireadh, tha coimeas eadar oidhirpean Blumenstock a 'chiad agus an dàrna cuid a' sealltainn leasan cudromach mu rannsachadh sòisealta aois-digiteach: chan e toiseach an deireadh. Is e sin, iomadh uair, chan e a 'chiad dòigh-obrach a b' fheàrr, ach ma bhios luchd-rannsachaidh a 'leantainn air adhart ag obair, faodaidh cùisean a bhith nas fheàrr. Nas fharsainge, nuair a thathar a 'measadh dhòighean ùra airson rannsachadh sòisealta san aois dhidseatach, tha e cudromach dà mheasadh sònraichte a dhèanamh: (1) Dè cho math' sa tha seo ag obair a-nis? agus (2) Dè cho math 'sa bhios seo ag obair san àm ri teachd nuair a bhios atharrachadh air cruth-tìre dàta agus mar a bhios luchd-rannsachaidh a' toirt barrachd aire don duilgheadas? Ged a tha luchd-rannsachaidh air an trèanadh gus a 'chiad mheasadh a dhèanamh, tha an dàrna fear gu math nas cudromaiche.