Tá cuid den eolas go bhfuil cuideachtaí agus rialtais íogair.
Tá faisnéis mhionsonraithe ag cuideachtaí árachais sláinte maidir leis an gcúram leighis a fhaigheann a gcustaiméirí. D'fhéadfaí an fhaisnéis seo a úsáid le haghaidh taighde tábhachtach maidir le sláinte, ach dá mbeadh sé poiblí, d'fhéadfadh sé go mbeadh dochar mhothúchánach ann (m.sh., náire) nó dochar eacnamaíoch (m.sh., caillteanas fostaíochta). Tá faisnéis go leor íogair i go leor foinsí sonraí móra eile, rud atá mar chuid den chúis nach minic a bhíonn siad inrochtana.
Ar an drochuair, bíonn sé deacair go leor cinneadh a dhéanamh maidir le cén fhaisnéis atá íogair i ndáiríre (Ohm 2015) , mar a léirigh an Duais Netflix. Mar a chuirfidh mé síos i gcaibidil 5, sa bhliain 2006, scaoil Netflix 100 milliún rátálacha scannáin ar fáil ag beagnach 500,000 ball agus bhí glao oscailte ann inar chuir daoine ó gach cearn den domhan halgartaim isteach a d'fhéadfadh feabhas a chur ar chumas Netflix scannáin a mholadh. Sula scaoiltear na sonraí, chuir Netflix aon fhaisnéis atá soiléir go pearsanta a aithint, mar ainmneacha. Ach, ach dhá sheachtain tar éis na sonraí a scaoileadh, léirigh Arvind Narayanan agus Vitaly Shmatikov (2008) go raibh sé indéanta foghlaim faoi rátálacha scannáin daoine faoi leith ag baint úsáide as cleas go léirfidh mé duit i gcaibidil 6. Cé go bhféadfadh ionsaitheoir a fháil amach rátálacha scannáin duine, ní cosúil go bhfuil aon rud íogair ann anseo. Cé go bhféadfadh sé sin a bheith fíor i gcoitinne, ar feadh cuid de na 500,000 duine ar a laghad sa tacar sonraí, bhí rátálacha scannáin íogair. Go deimhin, mar fhreagra ar scaoileadh agus ath-aithint na sonraí, chuaigh bean lebaibe clóiteáilte isteach in aghaidh gníomh-ranga i gcoinne Netflix. Seo mar a léiríodh an fhadhb sa mhodh dlí seo (Singel 2009) :
"Tá sonraí [M] ovie agus rátála ar eolas faoi ... nádúr pearsanta agus íogair. Léiríonn sonraí scannáin an chomhalta leas pearsanta agus / nó streachailtí comhaltaí Netflix le saincheisteanna éagsúla pearsanta, lena n-áirítear gnéasacht, tinneas meabhrach, aisghabháil ó alcólacht, agus íospartaíocht ó chliabhra, mí-úsáid fhisiciúil, foréigean baile, adhaltranas agus éigniú. "
Taispeánann an sampla seo gur féidir faisnéis a bheith ann a mheasann cuid daoine taobh istigh íogair de bhunachar sonraí neamhurchóideacha a d'fhéadfadh a bheith ann. Ina theannta sin, léiríonn sé gur féidir le príomh-chosaint a fhostaíonn taighdeoirí chun sonraí íogaire-dí-aithint a chosaint-bealaí iontasacha. Déantar an dá smaointe seo a fhorbairt níos mionsonraithe i gcaibidil 6.
Is é an rud deiridh a choinneáil i gcuimhne faoi shonraí íogaire ná go n-éascódh ceisteanna eiticeacha a bhailiú gan toiliú daoine, fiú amháin más rud é nach ndéantar aon dochar ar leith. B'fhéidir gur mhaith leat breathnú ar dhuine éigin atá ag cithfholcadh gan toiliú a bheith ina sárú ar phríobháideacht an duine sin, ag bailiú faisnéis íogair-agus cuimhnigh cé chomh deacair is féidir é cinneadh a dhéanamh ar an méid atá íogair-gan toiliú a chruthaíonn imní príobháideachta féideartha. Fillfidh mé ar cheisteanna faoi phríobháideachas i gcaibidil 6.
Mar fhocal scoir, ní cruthaítear foinsí móra sonraí, cosúil le taifid rialtais agus riaracháin ghnó, chun críocha taighde sóisialta. Tá 10 saintréith ag na foinsí móra sonraí sa lá atá inniu ann, agus is dóichí amárach. Tá go leor de na maoine a mheastar go maith le haghaidh taighde-mór, i gcónaí, agus neamh-athghníomhacha ón bhfíric sna cuideachtaí agus na rialtais aois dhigiteacha in ann sonraí a bhailiú ar scála nach raibh indéanta roimhe seo. Agus go leor de na hairíonna a mheastar a bheith dona i gcás taighde neamhiomlán, neamh-inrochtana, neamhtháirgiúil, díleácha, neamhdhleathach, neamh-inrochtana, salach, agus íogair ón bhfíric nach ndearna taighdeoirí taighdeoirí na sonraí sin. Go dtí seo, labhair mé faoi rialtais agus sonraí gnó le chéile, ach tá roinnt difríochtaí idir an dá cheann. I mo thaithí, bíonn sé mar aidhm ag sonraí rialtais a bheith níos lú neamh-léiritheach, gan a bheith níos measa ó thaobh algorithmí, agus níos lú ná sin. Ar an láimh eile, is cosúil go mbíonn taifid ghnó riaracháin níos mó i gcónaí. Is é seo an chéad chéim chabhrach i dtreo foghlama ó fhoinsí sonraí móra a thuiscint na 10 shaintréithe ginearálta seo. Agus anois táimid ag dul chuig straitéisí taighde is féidir linn a úsáid leis na sonraí seo.