Ni waeth sut y mae eich "data mawr" "mawr" mae'n debyg nad oes gan y wybodaeth yr ydych ei eisiau.
Mae'r rhan fwyaf o ffynonellau data mawr yn anghyflawn, yn yr ystyr nad oes ganddynt y wybodaeth y byddwch yn ei eisiau ar gyfer eich ymchwil. Mae hyn yn nodwedd gyffredin o ddata a grëwyd at ddibenion heblaw'r ymchwil. Mae llawer o wyddonwyr cymdeithasol eisoes wedi cael y profiad o ddelio â'r anghyflawnder, megis arolwg presennol nad oedd yn gofyn y cwestiwn yr ydych eisiau. Yn anffodus, mae'r problemau anghyflawnder yn tueddu i fod yn fwy eithafol yn y data mawr. Yn fy mhrofiad i, data mawr yn tueddu i fod ar goll tri math o wybodaeth ddefnyddiol ar gyfer ymchwil gymdeithasol: demograffeg, ymddygiad ar lwyfannau eraill, a data i weithredoli lluniadau damcaniaethol.
Mae'r tri o'r mathau hyn o anghyflawnder yn cael eu dangos mewn astudiaeth gan Gueorgi Kossinets a Duncan Watts (2006) am esblygiad y rhwydwaith cymdeithasol mewn prifysgol. Dechreuodd Kossinets a Watts gyda'r logiau e-bost oddi wrth y brifysgol, a oedd gwybodaeth fanwl am bwy anfonodd negeseuon e-bost i bwy ar ba amser (nid oedd yr ymchwilwyr yn cael mynediad at gynnwys y negeseuon e-bost). Mae'r cofnodion e-bost yn swnio fel set ddata anhygoel, ond, maent yn-er gwaethaf eu maint a ronynnedd-sylfaenol anghyflawn. Er enghraifft, nid yw'r logiau e-bost yn cynnwys data am nodweddion demograffig y myfyrwyr, fel rhyw ac oedran. Ymhellach, nid yw'r logiau e-bost yn cynnwys gwybodaeth am gyfathrebu trwy gyfryngau eraill, megis galwadau ffôn, neges destun, neu sgyrsiau wyneb-yn-wyneb. Yn olaf, nid yw'r logiau e-bost yn uniongyrchol yn cynnwys gwybodaeth am berthnasoedd, y cysyniadau damcaniaethol mewn llawer o ddamcaniaethau sy'n bodoli eisoes. Yn ddiweddarach yn y bennod, pan fyddaf yn sôn am strategaethau ymchwil, byddwch yn gweld sut mae Kossinets a Watts datrys y problemau hyn.
O dri math o anghyflawnder, y broblem o ddata anghyflawn i weithredoli cysyniadau damcaniaethol yw'r anoddaf i'w datrys, ac yn fy mhrofiad i, mae'n cael ei hanwybyddu'n aml ddamweiniol gan wyddonwyr data. Yn fras, yn adeiladu damcaniaethol yn syniadau haniaethol y mae gwyddonwyr cymdeithasol yn astudio, ond, yn anffodus, yn adeiladu gall y rhain yw bob amser yn cael ei ddiffinio yn ddiamwys ac yn mesur. Er enghraifft, gadewch i ni ddychmygu ceisio profi'r honiad ymddangosiadol syml bod pobl sy'n fwy deallus ennill mwy o arian empirig. Er mwyn profi honiad hwn byddai angen i chi fesur "cudd-wybodaeth." Ond, beth yw cudd-wybodaeth? Er enghraifft, Gardner (2011) yn dadlau fod yna mewn gwirionedd yn wyth math gwahanol o ddeallusrwydd. Ac, a oes gweithdrefnau a allai fesur unrhyw un o'r mathau hyn o gudd-wybodaeth yn gywir? Er gwaethaf symiau enfawr o waith gan seicolegwyr, cwestiynau hyn yn dal heb gael atebion diamwys. Felly, hyd yn oed yn gymharol syml hawliad-pobl sy'n fwy deallus ennill mwy o arian-yn gallu bod yn anodd asesu empirig oherwydd gall fod yn anodd i weithredoli lluniadau damcaniaethol yn y data. Mae enghreifftiau eraill o lluniadau damcaniaethol sy'n bwysig ond yn anodd ei weithredoli gynnwys "normau," "cyfalaf cymdeithasol," a "democratiaeth." Gwyddonwyr cymdeithasol ffoniwch y gyfatebiaeth rhwng yn adeiladu damcaniaethol a dilysrwydd lluniad data (Cronbach and Meehl 1955) . Ac, fel y rhestr hon o lluniadau awgrymu, adeiladu dilysrwydd yn broblem sy'n gwyddonwyr cymdeithasol wedi cael anhawster gyda am amser hir iawn, hyd yn oed pan oeddent yn gweithio gyda data a gasglwyd at y diben o ymchwil. Wrth weithio gyda data a gesglir at ddibenion heblaw ymchwil, problemau ddilysrwydd lluniad yn oed yn fwy heriol (Lazer 2015) .
Pan fyddwch yn darllen papur ymchwil, un ffordd gyflym a defnyddiol i asesu pryderon ynghylch dilysrwydd lluniad yw cymryd y brif cais yn y papur, a oedd fel arfer yn cael ei fynegi yn nhermau lluniadau, ac ail-fynegi yn nhermau y data a ddefnyddiwyd. Er enghraifft, ystyriwch dwy astudiaeth damcaniaethol sy'n honni i ddangos bod pobl yn fwy deallus yn ennill mwy o arian:
Yn y ddau achos, gallai ymchwilwyr yn honni eu bod wedi dangos bod pobl yn fwy deallus yn ennill mwy o arian. Ond, yn yr astudiaeth gyntaf y cysyniadau damcaniaethol yn cael eu rhoi ar waith yn dda gan y data, ac yn yr ail nid ydynt yn. Ymhellach, gan fod hyn yn enghraifft hon yn dangos, mwy o ddata nid yw'n datrys problemau gyda dilysrwydd lluniad yn awtomatig. Dylech amau canlyniadau Astudiaeth 2 a yw'n ymwneud miliwn o tweets, biliwn tweets, neu triliwn tweets. Ar gyfer ymchwilwyr nad ydynt yn gyfarwydd â'r syniad o ddilysrwydd lluniad, mae Tabl 2.2 yn rhoi rhai enghreifftiau o astudiaethau sydd wedi rhoi ar waith yn adeiladu damcaniaethol gan ddefnyddio data olrhain digidol.
olrhain digidol | lluniad damcaniaethol | Enwi |
---|---|---|
logiau e-bost gan brifysgol (meta-ddata yn unig) | perthnasoedd cymdeithasol | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
swyddi cyfryngau cymdeithasol ar Weibo | ymgysylltiad dinesig | Zhang (2016) |
logiau e-bost gan gwmni (meta-data a thestun cyflawn) | ffit Diwylliannol mewn sefydliad | Goldberg et al. (2015) |
Er bod y broblem o ddata anghyflawn i yn adeiladu damcaniaethol operationalizing yn eithaf anodd i'w datrys, mae tri atebion cyffredin i'r broblem o wybodaeth ddemograffig anghyflawn a gwybodaeth anghyflawn ar ymddygiad ar lwyfannau eraill. Y cyntaf yw mewn gwirionedd yn casglu'r data sydd ei angen arnoch; Byddaf yn dweud wrthych am enghraifft o hynny ym Mhennod 3 pan fyddaf yn dweud wrthych am arolygon. Yn anffodus, nid yw'r math hwn o gasglu data bob amser yn bosibl. Yr ail brif ateb yw gwneud yr hyn mae gwyddonwyr data alw casgliad defnyddiwr-priodoledd a pha gwyddonwyr cymdeithasol yn galw phriodoli. Yn y dull hwn, ymchwilwyr yn defnyddio'r wybodaeth y maent yn ei gael ar rai pobl i gasglu priodoleddau pobl eraill. Y trydydd posibl ateb-un a ddefnyddir gan Kossinets a Watts-oedd cyfuno ffynonellau data lluosog. Gelwir hyn weithiau yn broses uno neu gysylltu cofnodion. Fy hoff drosiad am y broses hon cynigiwyd yn y paragraff cyntaf iawn o'r papur cyntaf a ysgrifennwyd erioed ar gofnod cysylltiad (Dunn 1946) :
"Mae pob person yn y byd yn creu Llyfr y Bywyd. Mae'r Llyfr yn dechrau gyda genedigaeth ac yn gorffen gyda marwolaeth. Ei thudalennau yn cynnwys cofnodion o egwyddor ddigwyddiadau mewn bywyd. cysylltedd Cofnod yw'r enw a roddir i'r broses o gydosod y tudalennau y llyfr hwn mewn cyfrol. "
Mae'r darn hwn ei ysgrifennu yn 1946, ac ar y pryd, roedd pobl yn meddwl y gallai Llyfr y Bywyd yn cynnwys digwyddiadau mawr bywyd fel genedigaeth, priodas, ysgariad, a marwolaeth. Fodd bynnag, nawr bod cymaint o wybodaeth am bobl yn cael ei chofnodi, gallai'r Llyfr y Bywyd yn bortread hynod fanwl, os gall tudalennau gwahanol hynny (hy, mae ein olion digidol), gael eu rhwymo at ei gilydd. Gallai hyn Llyfr y Bywyd yn adnodd gwych ar gyfer ymchwilwyr. Ond, gallai'r Llyfr y Bywyd hefyd gael ei alw cronfa ddata o adfail (Ohm 2010) , y gellid eu defnyddio ar gyfer pob math o ddibenion anfoesegol, fel y disgrifir yn fwy isod pan fyddaf yn sôn am natur sensitif y wybodaeth a gasglwyd gan ffynonellau data mawr isod ac ym Mhennod 6 (Moeseg).