2.3.2.1 Incomplete

Chan eil a 'chùis mar "mòr" do "mòr dàta" e' s dòcha nach eil am fiosrachadh a tha sibh ag iarraidh.

As mòr tobraichean dàta a tha neo-choileanta, ann an fhaireachdainn gu bheil iad nach eil am fiosrachadh a tha thu ag iarraidh airson do rannsachadh. 'S e seo aon feart cumanta dàta a chaidh a chruthachadh airson adhbhar eile seach rannsachadh. Tha mòran luchd-saidheans sòisealta a bha mar-thà air na dh'fhiosraicheas a 'dèiligeadh ri na incompleteness, mar a th' ann nach robh suirbhidh a 'faighneachd na ceist a tha thu ag iarraidh. Gu mì-fhortanach, na duilgheadasan incompleteness buailteach a bhith nas anabarrach mòr ann an dàta. Ann m 'eòlas, mòr dàta buailteach a bhith a dhìth trì seòrsaichean fiosrachaidh feumail airson rannsachadh sòisealta: deamografaigs, giùlan air àrd-ùrlaran eile, agus dàta a operationalize teòiridheach constructs.

A h-uile trì de na foirmean seo de incompleteness Tha dealbhan ann an sgrùdadh le Gueorgi Kossinets agus Donnchadh Watts (2006) mu mean-fhàs an lìonraidh shòisealta aig an oilthigh. Kossinets agus Watts tòiseachadh leis an post-dealain bho logaichean an oilthigh, far an robh fiosrachadh mionaideach mu na puist-d a chuir gu bheil aig àm (an luchd-rannsachaidh nach robh cothrom air susbaint a 'puist-dealain). Nam post-d clàran fuaim mar iongantach sean, ach tha iad-a dh'aindeoin am meud agus granularity-bunaiteach neo-chrìochnaichte. Mar eisimpleir, na logaichean post-d nach eil gabhail a-steach dàta mu fheartan eòlas- sluaigh de na h-oileanaich, leithid gnè agus aois. Nas fhaide, na logaichean post-d nach eil gabhail a-steach fiosrachadh mu conaltradh tro mheadhanan eile, leithid fòn, teachdaireachd teacsa, no aghaidh-ri-aghaidh còmhraidhean. Mu dheireadh, cuir post-d logaichean chan eil dìreach gabhail a-steach fiosrachadh mu dhàimhean, an teòiridheach constructs ann an iomadh teòraidhean a th 'ann. An dèidh sin anns a 'chaibideil, nuair a bhios mi a' bruidhinn mu dheidhinn rannsachadh a ro-innleachdan, chì thu mar a Kossinets agus Watts fuasgladh air na duilgheadasan sin.

Trì seòrsaichean incompleteness, an trioblaid neo-choileanta dàta a operationalize teòiridheach constructs as doirbhe, gus ceistean làitheil, agus ann an m 'eòlas, tha e glè thric gun fhiosta dearmad dàta le luchd-saidheans. Garg, teòiridheach constructs tha eas-chruthach beachdan a saidheans sòisealta ionnsachadh, ach, gu mì-fhortanach, chan urrainn seo constructs còmhnaidh a chron a mhìneachadh agus a thomhas. Mar eisimpleir, Leigeamaid oirnn a 'feuchainn ri empirically a dhearbhadh a-rèir coltais sìmplidh tagradh gu bheil daoine a tha nas tùrail' cosnadh barrachd airgid. Gus seo a dhearbhadh tagradh a dh'fheumadh tu gus a thomhas "inntleachd." Ach, ciod e inntleachd? Mar eisimpleir, Gardner (2011) ag argamaid gu bheil an da-rìribh ochd diofar sheòrsaichean fiosrachaidh. Agus, tha na modhan-obrach a dh'fhaodadh a bhith ceart tomhas sam bith de na foirmean seo de dh'fhiosrachadh? A dh'aindeoin mòr de obair le eòlaichean-inntinn, na ceistean sin fhathast chan eil aon-seaghach freagairtean. Mar sin, fiù 's an ìre mhath sìmplidh tagradh a-dhaoine a tha nas tùrail' cosnadh barrachd airgid a-urrainn a bhith gu cruaidh gus measadh a dhèanamh air empirically oir faodaidh e bhith gu cruaidh gus operationalize teòiridheach constructs ann an dàta. Eisimpleirean eile de constructs teòiridheach a tha cudromach, ach gu cruaidh gus operationalize gabhail a-steach "atharrachadh cudthromach," "calpa sòisealta," agus "deamocrasaidh." Sòisealta saidheans fòn an gèam eadar teòiridheach constructs agus dàta a thogail a thaobh dligheachas (Cronbach and Meehl 1955) . Agus, mar an liosta seo de constructs a 'moladh, a thogail a thaobh dligheachas' S e an duilgheadas gum sòisealta luchd-saidheans le bhith a 'strì airson ùine mhòr, fiù' s nuair a bha iad ag obair còmhla ri dàta a chaidh a thional airson an adhbhair rannsachaidh. Nuair a bhios ag obair còmhla ri dàta air a thional airson adhbharan eile a thuilleadh air rannsachadh, na duilgheadasan a thogail a thaobh dligheachas tha fiù 's nas dùbhlanaiche (Lazer 2015) .

Nuair a tha thu a 'leughadh pàipear rannsachaidh, aon luath agus feumail dòigh gus measadh a dhèanamh air draghan mu thogail dligheachas a' gabhail a 'phrìomh tagradh anns a' phàipear, a tha mar as trice a chur an cèill a thaobh constructs, agus ath-chur an cèill a thaobh an dàta air a chleachdadh. Mar eisimpleir, beachdachadh air dà baralach sgrùdaidhean a cumail a-mach a 'sealltainn gu bheil barrachd dhaoine tùrail' cosnadh barrachd airgid:

  • Sgrùdadh 1: daoine a sgòr math air an Fhithich Progressive Matrices Test-tobar sgrùdadh deuchainn anailitigeach fàisneis (Carpenter, Just, and Shell 1990) -have àirde aithris teachd a-steach aca air cìs a 'tilleadh
  • Sgrùdadh 2: daoine air Twitter a chleachdadh na b 'fhaide na faclan a tha nas buailtiche a' toirt iomradh air sòghalachd suaicheantasan

Anns gach suidheachadh, luchd-rannsachaidh ag ràdh gum faodadh iad air sealltainn gu bheil barrachd dhaoine tùrail 'cosnadh barrachd airgid. Ach, anns a 'chiad sgrùdadh an teòiridheach constructs air an deagh obrachadh le dàta, agus anns an dara nach eil iad. Nas fhaide, mar eisimpleir seo a 'sealltainn, barrachd dàta Chan eil fèin-obrachail ceistean fhuasgladh le dligheachas a thogail. Bu chòir dhut an teagamh an toraidhean Sgrùdadh 2 bheil e an sàs millean Tweets, a billean Tweets, no trillion Tweets. Airson rannsachaidh nach eil eòlach air a 'bheachd a thogail a thaobh dligheachas, Clàr 2.2 a' toirt seachad eisimpleirean de rannsachaidhean a tha air obrachadh teòiridheach constructs cleachdadh didseatach sgeul dàta.

Clàr 2.2: Eisimpleirean de didseatach comharran a tha air a chleachdadh mar ceuman nas fhosgailte bun-bheachdan teòiridheach. Sòisealta saidheans fòn geama seo a thogail a thaobh dligheachas agus tha e na dhùbhlan mòr le bhith a 'cleachdadh mòr tobraichean dàta airson rannsachadh sòisealta (Lazer 2015) .
Digital sgeul teòiridheach a thogail Luaidh
post-d logaichean bho oilthigh (meta-data a-mhàin) sòisealta dàimhean Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
meadhanan sòisealta dreuchdan air Weibo ceangail catharra Zhang (2016)
logaichean post-dealain bho chompanaidh (meta-data agus teacsa iomlan) Cultarail freagarrach ann an bhuidheann Goldberg et al. (2015)

Ged a tha an duilgheadas neo-choileanta dàta airson operationalizing teòiridheach constructs e gu math cruaidh gus ceistean làitheil, tha trì cumanta fuasglaidhean gus an duilgheadas neo-choileanta fiosrachadh deamografach agus fiosrachadh slàn air a giùlan air àrd-ùrlaran eile. Tha a 'chiad gus an da-rìribh a' cruinneachadh an dàta a dh'fheumas sibh; Innsidh mi dhuibh mu mar eisimpleir ann an Caibideil 3 nuair a dh'innseas mi dhuibh mu sgrùdaidhean. Gu mì-fhortanach, seòrsa seo à cruinneachadh dàta chan eil e daonnan comasach. Tha an dàrna prìomh fuasgladh a dhèanamh dè an dàta luchd-saidheans cleachdaidh fòn-buadha inference agus dè saidheans sòisealta fòn clàradh. Ann an dòigh-obrach seo, luchd-rannsachaidh a 'cleachdadh am fiosrachadh a tha aca air cuid de dhaoine gu infer buadhan dhaoine eile. Tha an treas fhuasgladh-aon a chleachdadh le Kossinets agus Watts-bha a mheasgachadh ioma-tobraichean dàta. Tha am pròiseas seo ris an canar uaireannan air tighinn còmhla no chlàr ceangal. My favorite mheatafor airson a 'phròiseas seo a mholadh anns a' chiad pharagraf a 'chiad phàipear a-riamh a sgrìobhadh air a' chlàr ceangal (Dunn 1946) :

"Tha gach duine ann an t-saoghail a 'cruthachadh Book of Life. Tha an leabhar seo a 'tòiseachadh le breith is a' crìochnachadh le bàs. A dhuilleagan air an dèanamh suas de chlàraidhean de na tachartasan ann am prionnsabal beatha. Clàr ceangal an t-ainm a thoirt don phròiseas tional an duilleagan an leabhar seo a-steach do leabhar. "

Tha an trannsa a chaidh a sgrìobhadh ann an 1946, agus aig an àm sin, bha daoine a 'smaoineachadh gu bheil an Book of Life dh'fhaodadh gabhail a-steach prìomh thachartasan beatha mar breith, pòsadh, sgaradh-pòsaidh, agus bàs. Ach, a-nis gu bheil uimhir fiosrachaidh mu dhaoine a chlàradh, a 'Book of Life dh'fhaodadh a bhith uabhasach mionaideach dealbh, ma tha an fheadhainn eadar-dhealaichte duilleagan (ie, ar didseatach comharran), faodar ceangailte ri chèile. Seo Book of Life dh'fhaodadh a bhith fìor dheagh ghoireas airson rannsachaidh. Ach, an Book of Life dh'fhaodadh cuideachd a bhith air a ghairm stòr-dàta de thobhta (Ohm 2010) , a dh'fhaodadh a bhith air a chleachdadh airson a h-uile seòrsa mì-bheusail adhbharan, mar air a mhìneachadh nas gu h-ìosal nuair a bhios mi a 'bruidhinn mun mothachail nàdar am fiosrachadh a chruinnichear le mòr tobraichean dàta gu h-ìosal agus ann an Caibideal 6 (Ethics).