2.3.2.1 anghyflawn

Ni waeth sut y mae eich "data mawr" "mawr" mae'n debyg nad oes gan y wybodaeth yr ydych ei eisiau.

Mae'r rhan fwyaf o ffynonellau data mawr yn anghyflawn, yn yr ystyr nad oes ganddynt y wybodaeth y byddwch yn ei eisiau ar gyfer eich ymchwil. Mae hyn yn nodwedd gyffredin o ddata a grëwyd at ddibenion heblaw'r ymchwil. Mae llawer o wyddonwyr cymdeithasol eisoes wedi cael y profiad o ddelio â'r anghyflawnder, megis arolwg presennol nad oedd yn gofyn y cwestiwn yr ydych eisiau. Yn anffodus, mae'r problemau anghyflawnder yn tueddu i fod yn fwy eithafol yn y data mawr. Yn fy mhrofiad i, data mawr yn tueddu i fod ar goll tri math o wybodaeth ddefnyddiol ar gyfer ymchwil gymdeithasol: demograffeg, ymddygiad ar lwyfannau eraill, a data i weithredoli lluniadau damcaniaethol.

Mae'r tri o'r mathau hyn o anghyflawnder yn cael eu dangos mewn astudiaeth gan Gueorgi Kossinets a Duncan Watts (2006) am esblygiad y rhwydwaith cymdeithasol mewn prifysgol. Dechreuodd Kossinets a Watts gyda'r logiau e-bost oddi wrth y brifysgol, a oedd gwybodaeth fanwl am bwy anfonodd negeseuon e-bost i bwy ar ba amser (nid oedd yr ymchwilwyr yn cael mynediad at gynnwys y negeseuon e-bost). Mae'r cofnodion e-bost yn swnio fel set ddata anhygoel, ond, maent yn-er gwaethaf eu maint a ronynnedd-sylfaenol anghyflawn. Er enghraifft, nid yw'r logiau e-bost yn cynnwys data am nodweddion demograffig y myfyrwyr, fel rhyw ac oedran. Ymhellach, nid yw'r logiau e-bost yn cynnwys gwybodaeth am gyfathrebu trwy gyfryngau eraill, megis galwadau ffôn, neges destun, neu sgyrsiau wyneb-yn-wyneb. Yn olaf, nid yw'r logiau e-bost yn uniongyrchol yn cynnwys gwybodaeth am berthnasoedd, y cysyniadau damcaniaethol mewn llawer o ddamcaniaethau sy'n bodoli eisoes. Yn ddiweddarach yn y bennod, pan fyddaf yn sôn am strategaethau ymchwil, byddwch yn gweld sut mae Kossinets a Watts datrys y problemau hyn.

O dri math o anghyflawnder, y broblem o ddata anghyflawn i weithredoli cysyniadau damcaniaethol yw'r anoddaf i'w datrys, ac yn fy mhrofiad i, mae'n cael ei hanwybyddu'n aml ddamweiniol gan wyddonwyr data. Yn fras, yn adeiladu damcaniaethol yn syniadau haniaethol y mae gwyddonwyr cymdeithasol yn astudio, ond, yn anffodus, yn adeiladu gall y rhain yw bob amser yn cael ei ddiffinio yn ddiamwys ac yn mesur. Er enghraifft, gadewch i ni ddychmygu ceisio profi'r honiad ymddangosiadol syml bod pobl sy'n fwy deallus ennill mwy o arian empirig. Er mwyn profi honiad hwn byddai angen i chi fesur "cudd-wybodaeth." Ond, beth yw cudd-wybodaeth? Er enghraifft, Gardner (2011) yn dadlau fod yna mewn gwirionedd yn wyth math gwahanol o ddeallusrwydd. Ac, a oes gweithdrefnau a allai fesur unrhyw un o'r mathau hyn o gudd-wybodaeth yn gywir? Er gwaethaf symiau enfawr o waith gan seicolegwyr, cwestiynau hyn yn dal heb gael atebion diamwys. Felly, hyd yn oed yn gymharol syml hawliad-pobl sy'n fwy deallus ennill mwy o arian-yn gallu bod yn anodd asesu empirig oherwydd gall fod yn anodd i weithredoli lluniadau damcaniaethol yn y data. Mae enghreifftiau eraill o lluniadau damcaniaethol sy'n bwysig ond yn anodd ei weithredoli gynnwys "normau," "cyfalaf cymdeithasol," a "democratiaeth." Gwyddonwyr cymdeithasol ffoniwch y gyfatebiaeth rhwng yn adeiladu damcaniaethol a dilysrwydd lluniad data (Cronbach and Meehl 1955) . Ac, fel y rhestr hon o lluniadau awgrymu, adeiladu dilysrwydd yn broblem sy'n gwyddonwyr cymdeithasol wedi cael anhawster gyda am amser hir iawn, hyd yn oed pan oeddent yn gweithio gyda data a gasglwyd at y diben o ymchwil. Wrth weithio gyda data a gesglir at ddibenion heblaw ymchwil, problemau ddilysrwydd lluniad yn oed yn fwy heriol (Lazer 2015) .

Pan fyddwch yn darllen papur ymchwil, un ffordd gyflym a defnyddiol i asesu pryderon ynghylch dilysrwydd lluniad yw cymryd y brif cais yn y papur, a oedd fel arfer yn cael ei fynegi yn nhermau lluniadau, ac ail-fynegi yn nhermau y data a ddefnyddiwyd. Er enghraifft, ystyriwch dwy astudiaeth damcaniaethol sy'n honni i ddangos bod pobl yn fwy deallus yn ennill mwy o arian:

  • Astudiaeth 1: pobl sy'n sgorio'n dda ar y Prawf-a Matricsau Raven Progressive prawf a astudiwyd yn dda o gudd-wybodaeth dadansoddol (Carpenter, Just, and Shell 1990) -A incymau adroddwyd uwch ar eu ffurflenni treth
  • Astudiaeth 2: pobl ar Twitter a oedd yn defnyddio geiriau hirach yn fwy tebygol o sôn am frandiau moethus

Yn y ddau achos, gallai ymchwilwyr yn honni eu bod wedi dangos bod pobl yn fwy deallus yn ennill mwy o arian. Ond, yn yr astudiaeth gyntaf y cysyniadau damcaniaethol yn cael eu rhoi ar waith yn dda gan y data, ac yn yr ail nid ydynt yn. Ymhellach, gan fod hyn yn enghraifft hon yn dangos, mwy o ddata nid yw'n datrys problemau gyda dilysrwydd lluniad yn awtomatig. Dylech amau ​​canlyniadau Astudiaeth 2 a yw'n ymwneud miliwn o tweets, biliwn tweets, neu triliwn tweets. Ar gyfer ymchwilwyr nad ydynt yn gyfarwydd â'r syniad o ddilysrwydd lluniad, mae Tabl 2.2 yn rhoi rhai enghreifftiau o astudiaethau sydd wedi rhoi ar waith yn adeiladu damcaniaethol gan ddefnyddio data olrhain digidol.

Tabl 2.2: Enghreifftiau o olion digidol sy'n cael eu defnyddio fel mesurau o gysyniadau damcaniaethol mwy haniaethol. Gwyddonwyr cymdeithasol yn galw hyn dilysrwydd cyfatebol lluniad ac mae'n her fawr gyda ddefnyddio ffynonellau data mawr ar gyfer ymchwil gymdeithasol (Lazer 2015) .
olrhain digidol lluniad damcaniaethol Enwi
logiau e-bost gan brifysgol (meta-ddata yn unig) perthnasoedd cymdeithasol Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
swyddi cyfryngau cymdeithasol ar Weibo ymgysylltiad dinesig Zhang (2016)
logiau e-bost gan gwmni (meta-data a thestun cyflawn) ffit Diwylliannol mewn sefydliad Goldberg et al. (2015)

Er bod y broblem o ddata anghyflawn i yn adeiladu damcaniaethol operationalizing yn eithaf anodd i'w datrys, mae tri atebion cyffredin i'r broblem o wybodaeth ddemograffig anghyflawn a gwybodaeth anghyflawn ar ymddygiad ar lwyfannau eraill. Y cyntaf yw mewn gwirionedd yn casglu'r data sydd ei angen arnoch; Byddaf yn dweud wrthych am enghraifft o hynny ym Mhennod 3 pan fyddaf yn dweud wrthych am arolygon. Yn anffodus, nid yw'r math hwn o gasglu data bob amser yn bosibl. Yr ail brif ateb yw gwneud yr hyn mae gwyddonwyr data alw casgliad defnyddiwr-priodoledd a pha gwyddonwyr cymdeithasol yn galw phriodoli. Yn y dull hwn, ymchwilwyr yn defnyddio'r wybodaeth y maent yn ei gael ar rai pobl i gasglu priodoleddau pobl eraill. Y trydydd posibl ateb-un a ddefnyddir gan Kossinets a Watts-oedd cyfuno ffynonellau data lluosog. Gelwir hyn weithiau yn broses uno neu gysylltu cofnodion. Fy hoff drosiad am y broses hon cynigiwyd yn y paragraff cyntaf iawn o'r papur cyntaf a ysgrifennwyd erioed ar gofnod cysylltiad (Dunn 1946) :

"Mae pob person yn y byd yn creu Llyfr y Bywyd. Mae'r Llyfr yn dechrau gyda genedigaeth ac yn gorffen gyda marwolaeth. Ei thudalennau yn cynnwys cofnodion o egwyddor ddigwyddiadau mewn bywyd. cysylltedd Cofnod yw'r enw a roddir i'r broses o gydosod y tudalennau y llyfr hwn mewn cyfrol. "

Mae'r darn hwn ei ysgrifennu yn 1946, ac ar y pryd, roedd pobl yn meddwl y gallai Llyfr y Bywyd yn cynnwys digwyddiadau mawr bywyd fel genedigaeth, priodas, ysgariad, a marwolaeth. Fodd bynnag, nawr bod cymaint o wybodaeth am bobl yn cael ei chofnodi, gallai'r Llyfr y Bywyd yn bortread hynod fanwl, os gall tudalennau gwahanol hynny (hy, mae ein olion digidol), gael eu rhwymo at ei gilydd. Gallai hyn Llyfr y Bywyd yn adnodd gwych ar gyfer ymchwilwyr. Ond, gallai'r Llyfr y Bywyd hefyd gael ei alw cronfa ddata o adfail (Ohm 2010) , y gellid eu defnyddio ar gyfer pob math o ddibenion anfoesegol, fel y disgrifir yn fwy isod pan fyddaf yn sôn am natur sensitif y wybodaeth a gasglwyd gan ffynonellau data mawr isod ac ym Mhennod 6 (Moeseg).