2.3.7

Mae drifft poblogaeth, drifft defnydd a drifft system yn ei gwneud hi'n anodd defnyddio ffynonellau data mawr i astudio tueddiadau hirdymor.

Un o fanteision gwych llawer o ffynonellau data mawr yw eu bod yn casglu data dros amser. Mae gwyddonwyr cymdeithasol yn galw'r math hwn o ddata hydredol data dros amser. Ac, yn naturiol, mae data hydredol yn bwysig iawn ar gyfer astudio newid. Er mwyn mesur newid yn ddibynadwy, fodd bynnag, mae'n rhaid i'r system fesur ei hun fod yn sefydlog. Yng ngeiriau cymdeithasegydd Otis Dudley Duncan, "os ydych chi am fesur newid, peidiwch â newid y mesur" (Fischer 2011) .

Yn anffodus, mae llawer o systemau data mawr - yn enwedig systemau busnes - yn newid drwy'r amser, proses y byddaf yn galw drift . Yn benodol, mae'r systemau hyn yn newid mewn tri phrif ffordd: drifft poblogaeth (newid pwy sy'n eu defnyddio), drifft ymddygiadol (newid sut mae pobl yn eu defnyddio), a drift system (newid yn y system ei hun). Mae'r tri ffynhonnell drifft yn golygu y gallai unrhyw batrwm mewn ffynhonnell ddata fawr gael ei achosi gan newid pwysig yn y byd, neu y gallai rhyw fath o drifft ei achosi.

Mae ffynhonnell gyntaf drift-boblogaeth yn cael ei achosi gan newidiadau i bwy sy'n defnyddio'r system, a gall y newidiadau hyn ddigwydd ar amserlenni byr a hir. Er enghraifft, yn ystod etholiad Arlywyddol yr Unol Daleithiau 2012, roedd cyfran y tweets am wleidyddiaeth a ysgrifennwyd gan fenywod yn amrywio o ddydd i ddydd (Diaz et al. 2016) . Felly, mae'n bosib y bydd yr hyn a allai ymddangos yn newid yn hwyliau'r pennill Twitter yn newid mewn gwirionedd pwy sy'n siarad ar unrhyw adeg. Yn ogystal â'r amrywiadau tymor byr hyn, bu tuedd hirdymor hefyd o grwpiau demograffig penodol yn mabwysiadu a thrwy adael Twitter.

Yn ychwanegol at newidiadau mewn pwy sy'n defnyddio system, mae yna hefyd newidiadau yn y modd y defnyddir y system, a allaf drifft ymddygiadol. Er enghraifft, yn ystod protestiadau Occupy Gezi 2013 yn Nhwrci, newidiodd protestwyr eu defnydd o hashtags wrth i brotest ddatblygu. Dyma sut y disgrifiodd Zeynep Tufekci (2014) y drifft ymddygiadol, y gallai hi ei chanfod oherwydd ei fod yn arsylwi ar ymddygiad ar Twitter ac yn bersonol:

"Yr hyn a ddigwyddodd oedd cyn gynted ag y daeth y brotest yn y stori flaenllaw, roedd nifer fawr o bobl ... wedi stopio defnyddio'r bagiau hasht ac eithrio i dynnu sylw at ffenomen newydd ... Er bod y protestiadau yn parhau, a hyd yn oed dwysáu, bu farw'r bagiau hasht. Dangosodd cyfweliadau ddau reswm dros hyn. Yn gyntaf, ar ôl i bawb wybod y pwnc, roedd y hashtag ar unwaith yn eithaf ac yn wastraff ar y llwyfan Twitter cyfyngedig. Yn ail, gwelwyd bagiau hasht yn unig fel defnyddiol ar gyfer denu sylw i bwnc penodol, nid i siarad amdano. "

Felly, byddai ymchwilwyr a oedd yn astudio y protestiadau drwy ddadansoddi tweets gyda hashtags cysylltiedig â protest cael ymdeimlad gwyrgam o'r hyn oedd yn digwydd oherwydd y drifft ymddygiadol hwn. Er enghraifft, efallai y byddant yn credu bod y drafodaeth ar y brotest gostwng hir cyn iddo mewn gwirionedd gostwng.

Y drydedd fath o drifft yw drifft system. Yn yr achos hwn, nid y bobl sy'n newid neu eu hymddygiad yn newid, ond mae'r system ei hun yn newid. Er enghraifft, dros amser mae Facebook wedi cynyddu'r terfyn ar hyd y diweddariadau statws. Felly, bydd unrhyw astudiaeth hydredol o ddiweddariadau statws yn agored i artiffactau a achosir gan y newid hwn. Mae drifft y system yn gysylltiedig yn agos â phroblem a elwir yn ddryslyd algorithmig, y byddaf yn ei gynnwys yn adran 2.3.8.

I gloi, mae llawer o ffynonellau data mawr yn diflannu oherwydd newidiadau yn bwy sy'n eu defnyddio, yn y modd y maent yn cael eu defnyddio, a sut mae'r systemau'n gweithio. Mae'r ffynonellau newid hyn weithiau yn gwestiynau ymchwil diddorol, ond mae'r newidiadau hyn yn cymhlethu gallu ffynonellau data mawr i olrhain newidiadau hirdymor dros amser.