2.3.2.6 Salach

Is féidir le foinsí Big sonraí a luchtú le junk agus spam.

Creideann roinnt taighdeoirí go, foinsí sonraí mór, go háirithe iad siúd ó fhoinsí ar líne pristine mar go bhfuil siad bailithe go huathoibríoch. Go deimhin, tá a fhios daoine a d'oibrigh le foinsí sonraí mór go bhfuil siad go minic salach. Is é sin, tá siad go minic sonraí nach léiríonn gníomhartha fíor suim ag lucht taighde. Tá go leor eolaithe sóisialta eolas maidir leis an bpróiseas a ghlanadh shonraí suirbhé sóisialta ar scála mór, ach glanadh foinsí sonraí mór é níos deacra ar dhá chúis cheana féin: 1) nach raibh siad cruthaithe ag taighdeoirí do thaighdeoirí agus 2) taighdeoirí go ginearálta tuiscint níos lú ar conas cruthaíodh iad.

Na contúirtí a bhaineann shonraí rian digiteach salach Léirítear ag Ar ais agus comhghleacaithe ' (2010) staidéar ar an freagra mhothúchánach leis na hionsaithe ar 11 Meán Fómhair, 2001. Taighdeoirí staidéar de ghnáth an fhreagra ar imeachtaí tragóideacha baint úsáide as sonraí cúlghabhálacha a bailíodh thar míonna nó fiú bliana. Ach, Ar ais agus comhghleacaithe fuair teachtaireachtaí i gcónaí ar fhoinse dhigiteach rianta-an timestamped, taifeadadh go huathoibríoch ó 85,000 American glaoirí-agus tá sé seo ar chumas na taighdeoirí chun staidéar freagairt mhothúchánach ar scála ama earra i bhfad níos. Ar ais agus comhghleacaithe chruthaigh nóiméad-ar-nóiméad amlíne mhothúchánach an 11 Meán Fómhair trí códú an t-ábhar mhothúchánach na teachtaireachtaí pager de réir an chéatadáin de na focail a bhaineann le (1) brón (eg, ag caoineadh, brón), (2) imní (eg, buartha, fearful), agus (3) fearg (eg, gráin, criticiúil). Fuair ​​siad amach go fluctuated brón agus imní i rith an lae gan patrún láidir, ach go raibh méadú buailte i fearg i rith an lae. Dealraíonn sé seo taighde a bheith ina léiriú iontach ar an cumhacht ag i gcónaí ar fhoinsí sonraí: ag baint úsáide as modhanna caighdeánacha mbeadh sé dodhéanta go bhfuil a leithéid amlíne ardtaifigh den fhreagairt láithreach chuig imeacht gan choinne.

Aon bhliain amháin fiú níos déanaí, áfach, Cynthia Pury (2011) d'fhéach sé ar na sonraí níos mó go cúramach. Fuair ​​sí gur gineadh líon mór de na teachtaireachtaí supposedly feargach ag pager amháin agus bhí siad go léir mar an gcéanna. Seo an méid a dúirt na teachtaireachtaí supposedly feargach:

"Atosaigh NT meaisín [ainm] in comh-aireachta [ainm] ar [suíomh]: CRITICIÚIL: [dáta agus am]"

cuireadh lipéad na teachtaireachtaí feargach toisc bhí siad an focal "CRITICIÚIL", a thugann le fios go ginearálta fearg ach nach bhfuil sa chás seo. A bhaint de na teachtaireachtaí a ghineann an pager uathoibrithe amháin eliminates go hiomlán an méadú soiléir i fearg le linn an lae (Fíor 2.2). I bhfocail eile, an toradh is mó i Back, Küfner, and Egloff (2010) go raibh Déantán ar pager amháin. Mar a léiríonn an sampla seo, tá sé de chumas dul go dona mícheart anailís réasúnta simplí de shonraí sách casta agus messy.

Fíor 2.2: Treochtaí Measta i fearg le linn an 11 Meán Fómhair, 2001. Bunaíodh seo ar 85,000 glaoirí Meiriceánach (Ar ais, Küfner, agus Egloff 2010; Pury 2011; Back, Küfner, agus Egloff 2011). Ar dtús, Ar ais, thuairiscigh Küfner, agus Egloff (2010) patrún de fearg ag méadú i rith an lae. Mar sin féin, an chuid is mó de na teachtaireachtaí feargach léir a bhí a ghintear trí pager amháin a sheoladh arís agus arís amach an teachtaireacht seo a leanas: Atosaigh NT meaisín [ainm] in comh-aireachta [ainm] ar [suíomh]: CRITICIÚIL: [dáta agus am]. Leis an teachtaireacht seo a bhaint, an t-ardú dealraitheach i fearg Imíonn (Pury 2011; Back, Küfner, agus Egloff 2011). Tá an figiúr seo a atáirgeadh Fig 1B i Pury (2011).

Fíor 2.2: Treochtaí Measta i fearg le linn an 11 Meán Fómhair, 2001. Bunaíodh seo ar 85,000 glaoirí Meiriceánach (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Ar dtús, Back, Küfner, and Egloff (2010) Thuairiscigh patrún de fearg ag méadú i rith an lae. Mar sin féin, an chuid is mó de na teachtaireachtaí feargach léir a bhí a ghintear trí pager amháin a sheoladh arís agus arís amach an teachtaireacht seo a leanas: "Atosaigh NT meaisín [ainm] in comh-aireachta [ainm] ar [suíomh]: CRITICIÚIL: [Dáta agus am]". Leis an teachtaireacht seo a bhaint, an t-ardú dealraitheach i fearg Imíonn (Pury 2011; Back, Küfner, and Egloff 2011) . Tá an figiúr seo a atáirgeadh Fig 1B i Pury (2011) .

Cé sonraí salach go bhfuil a cruthaíodh unintentionally-nós ó noisy amháin pager féidir-a bhrath ag taighdeoir réasúnta cúramach, tá roinnt córais ar líne a mheallann spammers aon ghnó ann freisin. Na spammers ghiniúint go gníomhach sonraí falsa, agus-minic spreagtha ag brabús-obair an-deacair a choinneáil ar a spamming folaithe. Mar shampla, is cosúil ghníomhaíocht pholaitiúil ar Twitter a chur san áireamh ar a laghad roinnt spam réasúnta sofaisticiúla, trína roinnt cúiseanna polaitiúla a rinneadh d'aon ghnó chun breathnú níos mó tóir ná mar atá siad iarbhír (Ratkiewicz et al. 2011) . Taighdeoirí ag obair le sonraí d'fhéadfadh a bhfuil spam aon ghnó aghaidh ar an dúshlán a bhaineann le luí ar a lucht éisteachta go bhfuil siad bhrath agus a bhaint spam ábhartha.

Ar deireadh, cad é a mheas is féidir sonraí salach brath ar bhealaí subtle ar do chuid ceisteanna taighde. Mar shampla, tá go leor rialacha maidir le seiceáil Vicipéid atá cruthaithe ag an róbónna uathoibrithe (Geiger 2014) . Má tá suim agat i an éiceolaíocht Vicipéid tú, ansin tá na róbónna tábhachtach. Ach, má tá suim agat i conas a chuireann duine don Vicipéid tú, na rialacha maidir le seiceáil a dhéanann na róbónna a eisiamh.

Na bealaí is fearr a sheachaint á fooled ag a bhíonn sonraí salach a thuiscint conas a cruthaíodh do shonraí a n-anailís taiscéalaíoch simplí, mar shampla ag déanamh ceapacha scaip simplí.