Chan eil e cho mòr dè cho mòr 'sa tha an dàta mòr agad, is dòcha nach eil am fiosrachadh a tha thu ag iarraidh idir.
Tha a 'mhòr-chuid de thobraichean dàta neo - iomlan , anns an fhaireachdainn nach eil am fiosrachadh a dh' iarras tu airson an rannsachaidh agad. Tha seo na fheart cumanta de dhàta a chaidh a chruthachadh airson adhbharan a bharrachd air rannsachadh. Tha eòlas aig mòran de luchd-saidheans sòisealta mu bhith a 'dèiligeadh ri neo-iomlanachd, mar sgrùdadh a tha ann mar-thà nach do dh' fhaighnich an ceist a bha a dhìth. Gu mì-fhortanach, tha duilgheadasan neo-choileanta buailteach a bhith nas cruaidhe ann an dàta mòr. Nam eòlas-sa, tha dàta mòr buailteach a bhith air chall trì seòrsachan fiosrachaidh a tha feumail airson rannsachadh sòisealta: fiosrachadh deamografach mu chom-pàirtichean, giùlan air àrd-ùrlaran eile, agus dàta gus obraichean teòiridheach a ghnìomhachadh.
A-mach às na trì seòrsachan neo-iomlanachd, is e an duilgheadas a tha ann an dàta neo-choileanta airson obraichean teòiridheach a ghnìomhachadh as duilghe a thaobh fuasgladh. Agus na m 'eòlas, tha e gu math tric air a chall gu tur. Gu ìre mhòr, tha beachdan teòiridheach a 'toirt bheachdan neo-eisimeileach a tha luchd-saidheans sòisealta a' sgrùdadh agus a 'cur an gnìomh togalach teòiridheach a' ciallachadh a bhith a 'moladh dòigh air an togail sin a ghlacadh le dàta a tha furasta fhaicinn. Gu mì-fhortanach, bidh am pròiseas fuaim sìmplidh seo gu math duilich gu math tric. Mar eisimpleir, smaoinich sinn a 'feuchainn ri dearbhadh gu h-inntinn air an tagradh a tha coltach gu sìmplidh gu bheil daoine a tha nas inntinniche a' cosnadh barrachd airgid. Gus an tagradh seo a dhearbhadh, dh'fheumadh tu "fiosrachadh" a thomhas. Ach dè a tha ann am fiosrachadh? Gardner (2011) gu bheil ochd seòrsaichean fiosrachaidh ann. Agus a bheil modhan ann a dh'fhaodadh tomhas ceart a dhèanamh air gin de na seòrsaichean fiosrachaidh seo? A dh 'aindeoin mòran obair le eòlaichean-inntinn, chan eil freagairtean neo-chuimseach fhathast aig na ceistean sin.
Mar sin, eadhon tagradh coimeasach sìmplidh - faodaidh daoine a tha a 'faighinn barrachd airgid a bhith a' cosnadh barrachd airgid - a bhith doirbh a mheasadh gu h-inntinn seach gum faod e a bhith duilich a bhith a 'gnìomhachadh toglaichean teòiridheach ann an dàta. Tha eisimpleirean eile de dhealbhaidhean teòiridheach a tha cudromach ach gu math doirbh a bhith a 'dol an sàs a' gabhail a-steach "norms," "calpa sòisealta," agus "deamocrasaidh." Bidh luchd-saidheans sòisealta a 'gairm a' gheama eadar togail teòiridh agus èifeachdas togail dàta (Cronbach and Meehl 1955) . Seach gu bheil an liosta ghoirid seo de dhealbhan a 'moladh, tha èifeachdas a thogail na dhuilgheadas a tha luchd-saidheans sòisealta air a bhith a' strì ris airson ùine mhòr. Ach nam eòlas-sa, tha na duilgheadasan a thaobh èifeachdas togail nas motha na b 'fheàrr nuair a bha iad ag obair le dàta nach deach a chruthachadh airson adhbharan rannsachaidh (Lazer 2015) .
Nuair a tha thu a 'measadh toradh rannsachaidh, is e aon dòigh luath agus feumail a bhith a' measadh èifeachd togail gus an toradh a ghabhail, a tha mar as trice air a nochdadh a thaobh togail, agus ath-aithris a thaobh an dàta a thathar a 'cleachdadh. Mar eisimpleir, smaoinich air dà sgrùdadh ionmholta a tha ag iarraidh nochdadh gu bheil daoine a tha nas sùbailte a 'cosnadh barrachd airgid. Anns a 'chiad sgrùdadh, lorg an neach-rannsachaidh gu bheil daoine a tha a' dèanamh deagh thorais air Deuchainn Matamataig Raven Progressive - deuchainn sgrùdaichte air fiosrachadh mion-sgrùdaichte (Carpenter, Just, and Shell 1990) - a 'faighinn teachd-a-steach nas àirde air na tuairisgeulan cìse aca. Anns an dàrna sgrùdadh, lorg an neach-rannsachaidh gu bheil daoine air Twitter a chleachd faclan nas fhaide nas dualtaiche iomradh a thoirt air suaicheantais sòghail. Anns gach suidheachadh, dh'fhaodadh na luchd-rannsachaidh sin a ràdh gu bheil iad air sealltainn gu bheil daoine a tha nas sùbailte a 'cosnadh barrachd airgid. Ach, anns a 'chiad sgrùdadh, tha na comharraidhean teòiridheach air an deagh obrachadh leis an dàta, agus anns an dàrna àite chan eil iad. Nas fhaide, mar a tha an eisimpleir seo a 'sealltainn, chan eil barrachd dàta a' fuasgladh cheistean gu fèin-obrachail le bhith a 'togail luach. Bu chòir dhut teagamh a dhèanamh air toraidhean an dàrna sgrùdaidh an robh millean tweets, billean tweets, no trillion tweets ann. Airson luchd-rannsachaidh nach eil eòlach air a 'bheachd a thaobh èifeachdas a thogail, tha clàr 2.2 a' toirt seachad eisimpleirean de sgrùdaidhean a tha air dealbhadh teòiridheach obrachadh le bhith a 'cleachdadh dàta lorg digiteach.
Stòras dàta | Togalach teòiridheach | Tùsan |
---|---|---|
Bidh logaichean post-d bho oilthigh (meata-dàta a-mhàin) | Dàimhean sòisealta | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Postan meadhanan sòisealta air Weibo | Com-pàirteachas catharra | Zhang (2016) |
Bidh logaichean puist-d bho bhuidheann teacsa (meta-dàta agus teacsa iomlan) | Cultarail ann am buidheann | Srivastava et al. (2017) |
Ged a tha an duilgheadas ann an dàta neo-iomlan airson a bhith a 'glacadh dhealbhan teòiridheach gu math doirbh fuasgladh, tha fuasglaidhean cumanta ann an seòrsachan cumanta neo-iomlan coitcheann: fiosrachadh deamografach neo-iomlan agus fiosrachadh neo-iomlan air giùlan air àrd-ùrlaran eile. Is e a 'chiad fhuasgladh an dàta a dh' fheumas tu a chruinneachadh; Innsidh mi dhut mu dheidhinn sin ann an caibideil 3 nuair a dh'innseas mi dhuibh mu shuirbhidhean. Is e an dàrna prìomh fhuasgladh a bhith a 'dèanamh dè na luchd-saidheans fiosrachaidh a tha a' toirt buaidh air a 'bhuaidh a tha aig luchd-cleachdaidh agus gu bheil luchd-saidheans sòisealta a' gairm giùlan . Anns an dòigh-obrach seo, bidh luchd-rannsachaidh a 'cleachdadh an fhiosrachaidh a tha aca air cuid de dhaoine gus feartan dhaoine eile a thoirt a-steach. Is e an treas fuasgladh a tha ann a bhith a 'toirt còmhla grunn stòran dàta. Is e uaireannan a chanar ris a 'phròiseas seo ceangal clàraidh . Chaidh an metafhor as fheàrr leam airson a 'phròiseis seo a sgrìobhadh le Dunn (1946) anns a' chiad pharagraf den chiad phàipear a chaidh a sgrìobhadh a-riamh air a chlàradh:
"Tha gach neach san t-saoghal a 'cruthachadh Leabhar Beatha. Bidh an leabhar seo a 'tòiseachadh le breith agus a' crìochnachadh le bàs. Tha na duilleagan air an dèanamh suas de chlàran de na prìomh thachartasan sa bheatha. Is e clàr ceangal an t-ainm a th 'air a thoirt don phròiseas a bhith a' cruinneachadh duilleagan an leabhair seo gu leabhar. "
Nuair a sgrìobh Dunn an trannsa sin bha e a 'smaoineachadh gu faodadh leabhar beatha cudromach a bhith a' gabhail a-steach prìomh thachartasan beatha mar bhreith, pòsadh, sgaradh-pòsaidh agus bàs. Ach, a-nis gu bheil uiread de dh'fhiosrachadh mu dhaoine air an clàradh, dh'fhaodadh Leabhar na Beatha a bhith na dheagh dhealbh, ma dh 'fhaodadh na duilleagan eadar-dhealaichte sin (ie, ar comharran didseatach) a cheangal ri chèile. Dh'fhaodadh an Leabhar Beatha seo a bhith na ghoireas mòr dha luchd-rannsachaidh. Ach, faodar stòr-dàta de thobhta (Ohm 2010) a chleachdadh cuideachd, a ghabhadh a chleachdadh airson adhbharan neo-fhoirmeil, mar a bheir mi cunntas ann an caibideal 6 (Eòlas-inntinn).