Big tobraichean dàta urrainn an lìonadh le sgudal agus spama.
Tha cuid de luchd-rannsachaidh a 'creidsinn gu bheil stòrasan dàta mòra, gu h-àraidh tobraichean air-loidhne, gu math prìobhaideach seach gu bheil iad air an cruinneachadh gu fèin-obrachail. Gu dearbh, tha fios aig daoine a tha ag obair le stòran dàta mòr gu bheil iad gu tric salach . Is e sin, bidh iad tric a 'gabhail a-steach dàta nach eil a' nochdadh ghnìomhan fìor inntinneach do luchd-rannsachaidh. Tha a 'mhòr-chuid de luchd-saidheans sòisealta eòlach air a' phròiseas a bhith a 'glanadh dàta suirbhidh sòisealta mòr, ach tha coltas gu bheil stòrasan dàta mòra nas duilghe. Tha mi a 'smaoineachadh gur e prìomh adhbhar an duilgheadais seo nach deach mòran de na stòran dàta mòra seo a chleachdadh a-riamh airson rannsachadh, agus mar sin chan eil iad air an cruinneachadh, air an stòradh, agus air an clàradh ann an dòigh a tha a' cuideachadh glanadh dàta.
Tha na cunnartan ann an dàta lorg didseatach salach air am mìneachadh le sgrùdadh Cùl agus co-obraichean (2010) air an fhreagairt thòcail a thaobh ionnsaighean 11 Sultain 2001, a thug mi iomradh goirid roimhe sa chaibideil. Mar as trice bidh luchd-rannsachaidh a 'sgrùdadh an fhreagairt do thachartasan tromaideach a' cleachdadh dàta ath-sheasmhach a chaidh a chruinneachadh thar mìosan no eadhon bliadhnachan. Ach, fhuair Back agus co-obraichean lorg stòr-dàta didseatach a-riamh - na teachdaireachdan clàraichte le ùine bho 85,000 luchd-meadhain Ameireaganach - agus thug seo cothrom dhaibh freagairt mhothachail a sgrùdadh air raon-ama tòrr nas fèarr. Chruthaich iad loidhne-ùine tòcail mionaid-às-mionaid air an t-Sultain 11 le bhith a 'còdadh susbaint tòcail nam brathan pianaidh leis a' cheudad de fhaclan co-cheangailte ri (1) bròn (me, "ag èigheach" agus "bròn"), (2) iomagain ( me, "iomagain" agus "eagal"), agus (3) fearg (me, "fuath" agus "riatanach"). Fhuair iad a-mach gun robh bròn agus iomagain ag atharrachadh tron latha gun pàtran làidir, ach gu robh àrdachadh iongantach ann am fearg tron latha. Tha e coltach gu bheil an rannsachadh seo na dheagh eisimpleir de chumhachd stòrasan dàta an-còmhnaidh: nam biodh stòrasan dàta traidiseanta air a chleachdadh, bhiodh e do-dhèanta loidhne cho mòr de cho-dhùnaidhean fhaighinn air tachartas nach robh dùil.
Dìreach bliadhna às dèidh sin, ge-tà, sheall Cynthia Pury (2011) air an dàta nas mionaidiche. Fhuair i a-mach gun deach àireamh mhòr de na teachdaireachdan a bha gu dearbh feargach a chruthachadh le aon neach-pagaidh agus bha iad uile co-ionnan. Seo na thuirt teachdaireachdan a bha gu h-iongantach feargach:
"Reboot NT inneal [name] ann an caibineat an riaghaltais [name] aig [location]: RIATANACH: [ceann-latha agus àm]"
Bha na teachdaireachdan seo air an liostadh feargach oir bha iad a 'gabhail a-steach am facal "CRITICAL", a dh' fhaodadh a bhith a 'nochdadh fearg mar as trice ach chan eil sin idir. Le bhith a 'toirt air falbh na teachdaireachdan a tha an pagaire fèin-ghluasadach singilte seo a' cur às dha an àrdachadh a tha coltach ann am fearg thairis air a 'chùrsa (figear 2.4). Ann am faclan eile, bha am prìomh toradh anns a ' Back, Küfner, and Egloff (2010) na phàirt de aon neach-pagaidh. Mar a tha an eisimpleir seo a 'sealltainn, tha comas ann a bhith a' dèanamh fìor dhroch mhearachd air mion-sgrùdadh coimeasach air dàta cuibheasach agus iom-fhillte.
Ged a tha dàta salach a thèid a chruthachadh gun teagamh - mar an sin bho aon neach-pòsaidh fuaimneach - a bhith air a lorg le neach-sgrùdaidh reusanta cùramach, tha cuideachd siostaman air-loidhne ann a bhios a 'tàladh spamadairean inntinneach. Bidh na spammers seo gu gnìomhach a 'cruthachadh dàta briseadh, agus gu tric air am brosnachadh le obair prothaid gu math duilich gus an spamadh aca a chluinntinn. Mar eisimpleir, tha coltas gu bheil gnìomhachd phoilitigeach air Twitter a 'gabhail a-steach co-dhiù beagan spama reusanta adhartach, far am bi cuid de na h-adhbharan poilitigeach air an dèanamh gu (Ratkiewicz et al. 2011) bhith a' coimhead nas coltaiche na iad fhèin (Ratkiewicz et al. 2011) . Gu mì-fhortanach, faodaidh a bhith a 'toirt air falbh an spama inntinn seo gu math doirbh.
Gu dearbh, dè a thathar a 'meas gu bheil dàta salach a' crochadh, gu ìre, air a 'cheist rannsachaidh. Mar eisimpleir, tha mòran deasachaidhean gu Wikipedia air an cruthachadh le botan fèin-ghluasadach (Geiger 2014) . Ma tha ùidh agad ann an eag-eòlas Uicipeid, tha na h-atharrachaidhean seo air an cruthachadh le bot cudromach. Ach ma tha ùidh agad anns an dòigh sam bi daoine a 'cur ri Wikipedia, bu chòir na h-atharrachaidhean a chaidh a chruthachadh le bot a bhith air an dùnadh a-mach.
Chan eil dòigh no dòigh-obrach staitistigeil ann a dh'fhaodas dèanamh cinnteach gun glan thu gu leòr am fiosrachadh salach agad. Aig a 'cheann thall, tha mi a' smaoineachadh gur e an dòigh as fheàrr air a bhith a 'faighinn a-steach le fiosrachadh salach a bhith a' tuigsinn cho mòr 'sa ghabhas mu mar a chaidh an dàta agad a chruthachadh.