Guon fan de ynformaasje dat bedriuwen en oerheden hawwe is gefoelich.
Soarchfersekerders hawwe detailed ynformaasje oer de medyske soarch krige troch harren klanten. Dy ynformaasje kin brûkt wurde foar wichtige ûndersyk oer sûnens, mar as it waard publyk dat koe mooglik liede ta emosjonele skea (bygelyks, skamte) en ekonomyske skea (bygelyks, ferlies fan wurkgelegenheid). Fier fan ûnderskiedende, in protte grutte gegevens boarnen hawwe ynformaasje dat is gefoelich. De gefoelige natuer fan dizze ynformaasje is ûnderdiel fan de reden dat grutte gegevens boarnen binne faak net tagonklik (beskreaun boppe).
Ien manier dat ûndersikers besykje om te gean mei dizze sitewaasje is om de-identifisearjen datasets dy't gefoelige ynformaasje. Mar, sa't ik sil sjen litte yn detail yn haadstik 6 (Etyk) dizze oanpak slim beheind yn wizen dat binne net in soad wurdearre troch sawol sosjale wittenskippers en gegevens wittenskippers.
Yn konklúzje, de grutte gegevens boarnen fan hjoed (en moarn) algemien hawwe tsien skaaimerken. In protte fan 'e goede eigenskippen-grut, altyd-op, en nonreactive-komme út it feit yn de digitale leeftyd bedriuwen en oerheden by steat binne te sammeljen gegevens op in skaal dat wie net mooglik earder. En, in soad fan de minne eigenskippen-ûnfolsleine, ûntagonklik, net-represintatyf, driuwe, algorithmically biskamme, net tagonklik, smoarch, en gefoelige-komme út it feit dat de gegevens net garre troch ûndersikers foar ûndersikers. Ynsjoch yn dizze skaaimerken binne in needsaaklik earste stap te learen fan grutte gegevens. En, no wy keare om ûndersyk strategyen kinne wy brûke mei dizze gegevens.