Informazioa enpresa eta gobernuek duten batzuk sentikorra da.
Osasun-aseguruen konpainiek beren bezeroek jasotako osasun zerbitzuari buruzko informazio zehatza dute. Informazio hori osasunari buruzko ikerketa garrantzitsuetarako erabil daiteke, baina publikoa balitz, emozionala izan liteke (adibidez, lotsa) edo kalte ekonomikoak (adibidez, enplegu galtzea). Beste datu-iturri askok ere sentikorra den informazioa dute, sarritan sarritan sarritan gertatzen diren arrazoiengatik.
Zoritxarrez, nahiko informazio delikatua izateak (Ohm 2015) erabakitzen du, Netflix saria ilustratu zen bezala. 5. kapituluan deskribatuko dudan bezala, 2006an, Netflix-ek 500 milioi bazkidek emandako 100 milioi movie ratings kaleratu zituen eta mundu osoko jendea aurkeztu zuten Netflix-en filmak gomendatzeko gaitasuna hobetzeko algoritmoak. Datuak askatu aurretik, Netflix-ek informazio pertsonal bistako identifikazioa kendu du, esate baterako, izenak. Dudarik gabe bi aste igaro ondoren, Arvind Narayanan eta Vitaly Shmatikovek (2008) erakutsi zuten pertsona jakin batzuen filmen balorazioak ezagutu ahal izan zituela 6. kapituluan azalduko dudan trikimailu bat erabiliz. Pertsona filmaren balorazioak, hemen ez dago hemen sentikorra denik. Hori egia izan daitekeen bitartean, gutxienez 500.000 pertsonako datu-multzoan, filmaren balorazioak sentikorrak izan ziren. Izan ere, datuak askatzeko eta berrerabiltzeari erantzuteko, lasbiana emakumea ezkutatuta Netflix-ren kontrako ekintza klase bat sartu zen. Hona hemen auzi honetan nola azaldu zen arazoa (Singel 2009) :
"[M] ovie eta puntuazioen datuek oso informazio pertsonala eta sentikorra dute. Bazkideen filmeen datuak Netflix-eko kideen interes pertsonalak edo / eta gai pertsonal oso desberdinekin, sexuarekin, buruko gaixotasunekin, alkoholismoarekin berreskuratzea eta indarkeriaren biktimak, abusu fisikoak, etxeko indarkeria, adulterioa eta bortxaketa barne hartzen ditu.
Adibide honek erakusten digunez, jendeak uste du datu sentikorra izan litekeenaren barruan sentsibilitatea dela. Gainera, datuen detekzio sentikorra babesten duten ikertzaileek defentsa nagusia erakusten dute modu harrigarrian. Bi ideia horiek xehetasun handiagoz garatu dira 6. kapituluan.
Datu sentikorren inguruan gogoan izateko azken gauza da biltzea pertsona baimenik gabe etiketarik gabeko galdera sortzen duela, kalte zehatzik ez badago ere. Norbaitek baimenik gabeko dutxa bat ikusten duenean bezala, pertsona horrek pribatutasuna urratzen du, informazio sentikorra biltzen du eta gogoratu zein zaila den sentikorra den erabakitzea, baimenik gabe pribatutasun kezkak sortzen ditu. Pribatutasunari buruzko galderetara itzuliko naiz 6. kapituluan.
Ondorioz, datu-iturri handiak, gobernuak eta negozioetako erregistroak, oro har, ez dira ikerketa sozialerako sortu. Egungo datuen iturri handiak, eta agian bihar, 10 ezaugarri dituzte. Ikerketa ona dutenak, beti-onak eta ez-erreaktiboak direlako onuradun askok -adibidez, adin digitaletan- eta gobernuek datu horiek biltzeko gai izan ezingo lukete aurretiaz ezinezkoa den eskala batean. Eta ikerketarako, osatugabeak, eskuraezinak, ez errepresentatiboak, driftingak, algoritmikoki nahastuak, eskuraezinak, zikinak eta sentikorrak direnak direla kontuan hartzen dituzten propietate askok, ikertzaileek ikertzaileek jasotako datuak ez zituztela ondorioztatu dute. Orain arte, gobernuari eta negozioari buruz hitz egin dut elkarrekin, baina bi arteko ezberdintasunak daude. Nire esperientzian, gobernu datuak ez dira gutxiago irudikatzen, algoritmatikoki gutxiago nahasten eta gutxiago noraezean. Bestalde, negozioetako erregistro administratiboak beti izaten dira. 10 ezaugarri orokor horiek ulertzea da datu-iturri handien ikasteko lehen urrats lagungarria. Orain, datu horiekin erabil dezakezun ikerkuntza estrategiak jarriko ditugu kontuan.