Is féidir le foinsí Big sonraí a luchtú le junk agus spam.
Creideann roinnt taighdeoirí go bhfuil foinsí sonraí móra, go háirithe foinsí ar líne, pristine toisc go mbailítear iad go huathoibríoch. Go deimhin, tá a fhios ag daoine a d'oibrigh le foinsí sonraí móra go bhfuil siad salach go minic. Is é sin, go minic cuimsíonn siad sonraí nach léiríonn gníomhartha fíor spéise do thaighdeoirí. Tá an chuid is mó eolaithe sóisialta eolach cheana féin maidir leis an bpróiseas maidir le sonraí suirbhé sóisialta ar scála mór a ghlanadh, ach is cosúil go bhfuil níos mó deacair ag foinsí móra sonraí a ghlanadh. I mo thuairimse, is í an fhoinse deiridh an deacracht seo ná go raibh go leor de na foinsí sonraí móra seo riamh i gceist le húsáid le haghaidh taighde, agus mar sin ní bhailítear, a stóráiltear, agus a ndéantar iad a dhoiciméadú ar bhealach a éascaíonn glanadh sonraí.
Léiríonn staidéir Ar ais agus comhghleacaithe (2010) na contúirtí a bhaineann le sonraí rianú digiteach salach ar an bhfreagairt mhothúchánach ar na hionsaithe ar 11 Meán Fómhair, 2001, a luadh mé go hachomair sa chaibidil. De ghnáth, déanann taighdeoirí staidéar ar an bhfreagairt ar imeachtaí tragóideacha ag baint úsáide as sonraí aisghabhálacha a bailíodh thar mhí nó blianta fada. Ach, fuair Foinse agus comhghleacaithe foinse i gcónaí ar rianta digiteacha - na teachtaireachtaí a bhí taifeadta go seasta ó 85,000 meiriceánach ó thimpeallacht - agus thug sé seo deis dóibh freagairt mhothúchánach a mheas ar thréimhse ama níos fíneáil. Chruthaigh siad amlíne mhothúchánach nóiméad in aghaidh an nóiméid ar 11 Meán Fómhair trí chodáil a dhéanamh ar ábhar mhothúchánach na dteachtaireachtaí pager ag céatadán na bhfocal a bhaineann le (1) brón (m.sh., "ag caoineadh" agus "grief"), (2) imní ( m.sh., "buartha" agus "fearful"), agus (3) fearg (m.sh., "fuath" agus "criticiúil"). Chinn siad go raibh an brón agus an imní ag athrú tríd an lá gan patrún láidir, ach go raibh méadú suntasach i bhfearg i rith an lae. Is cosúil gur léiriú iontach é an taighde seo ar chumhacht na bhfoinsí sonraí i gcónaí: má bhí foinsí sonraí traidisiúnta in úsáid, ní bheadh sé dodhéanta amlíne den sórt sin a fháil den imoibriú láithreach ar ócáid gan choinne.
Díreach bliain ina dhiaidh sin, d'fhéach Cynthia Pury (2011) ar na sonraí níos cúramach. D'aimsigh sí go raibh líon mór de na teachtaireachtaí a bhí ceaptha go gcruthaithe ag pager aonair agus go raibh siad uile comhionann. Seo cad a dúirt na teachtaireachtaí atá ceaptha feargach:
"Atosaigh NT meaisín [ainm] in comh-aireachta [ainm] ar [suíomh]: CRITICIÚIL: [dáta agus am]"
Bhí na teachtaireachtaí seo lipéadaithe feargach mar gheall ar a n-áirítear an focal "CRITICAL," a d'fhéadfadh feirgire a chur in iúl i gcoitinne ach nach bhfuil sa chás seo. Tríd na teachtaireachtaí a ghineann an pógóir uathoibrithe aonair seo a bhaint de dhíth go hiomlán an méadú is fearr i bhfearg thar chúrsa an lae (figiúr 2.4). I bhfocail eile, ba é an toradh is mó ar Back, Küfner, and Egloff (2010) ina ghné de pager amháin. Mar a léiríonn an sampla seo, tá sé de chumas ag anailís réasúnta simplí ar shonraí réasúnta casta agus níos measa a bheith tromchúiseach.
Cé gur féidir le taighdeoir réasúnta cúramach sonraí salach a chruthaítear go neamhghníomhach - mar shampla an t-aonad sin ó phíobóir neamhráiteach, tá córais ar líne ann a mheallann spammers intinn. Gineann na spammers seo sonraí falsa go gníomhach, agus is minic a spreagann brabúis an-deacair iad a choinneáil i bhfolach. Mar shampla, is cosúil go gcuimsíonn gníomhaíocht pholaitiúil ar Twitter spam réasúnta sofaisticiúil ar a laghad, rud a ndéantar cúiseanna polaitiúla a dhéanamh go (Ratkiewicz et al. 2011) níos mó ná mar a bhíonn siad i ndáiríre (Ratkiewicz et al. 2011) . Ar an drochuair, is féidir an spam seo a bhaint go héasca a bheith deacair.
Ar ndóigh, is féidir leis an méid a meastar gur féidir sonraí salach a bheith ag brath, go páirteach, ar an gceist taighde. Mar shampla, cruthaítear go leor de na hathruithe go Vicipéid trí bhotáin uathoibrithe (Geiger 2014) . Má tá suim agat in éiceolaíocht Vicipéid, tá na hathruithe bot-chruthaithe seo tábhachtach. Ach má tá suim agat i dtaobh an chaoi a gcuireann daoine le Vicipéid, ba cheart na hathruithe bot-chruthaithe a eisiamh.
Níl aon teicníc nó cur chuige staitistiúil ann a d'fhéadfadh a chinntiú go bhfuil do shonraí salach glanta go leordhóthanach. Sa deireadh, is dóigh liom gurb é an bealach is fearr a sheachaint le sonraí salach ná an oiread agus is féidir a thuiscint faoi conas a cruthaíodh do chuid sonraí.