Part de la informació que les empreses i els governs tenen és sensible.
Les companyies d'assegurances de salut tenen informació detallada sobre l'atenció mèdica rebuda pels seus clients. Aquesta informació es podria utilitzar per a investigacions importants sobre la salut, però si es va fer pública, podria provocar danys emocionals (per exemple, vergonya) o danys econòmics (p. Ex., Pèrdua d'ocupació). Moltes altres grans fonts de dades també tenen informació sensible , que és part de la raó per la qual sovint són inaccessibles.
Malauradament, resulta ser molt difícil decidir quina informació és realment sensible (Ohm 2015) , tal com va ser il·lustrat pel Premi Netflix. Com es descriurà al capítol 5, el 2006, Netflix va llançar 100 milions d'avaluacions de pel·lícules proveïdes per gairebé 500.000 membres i va tenir una convocatòria oberta on gent de tot el món va presentar algoritmes que podrien millorar la capacitat de Netflix per recomanar pel·lícules. Abans d'alliberar les dades, Netflix va eliminar qualsevol informació d'identificació personal òbvia, com ara noms. Però, només dues setmanes després de la divulgació de les dades, Arvind Narayanan i Vitaly Shmatikov (2008) van demostrar que era possible conèixer les puntuacions de la pel·lícula de persones específiques utilitzant un truc que et mostraré al capítol 6. Tot i que un atacant podria descobrir un La valoració de la pel·lícula de la persona, encara no sembla que sigui sensible aquí. Tot i que això pot ser cert en general, almenys algunes de les 500.000 persones del conjunt de dades, les puntuacions de pel·lícules eren sensibles. De fet, en resposta a l'alliberament i la reidentificació de les dades, una dona lesbiana tancada es va unir a un judici d'acció de classe contra Netflix. A continuació s'explica com es va expressar el problema en aquest pleito (Singel 2009) :
"[M] ovie i les dades de qualificació contenen informació d'un ... de naturalesa molt personal i sensible. Les dades de la pel·lícula del membre exposen l'interès personal o les lluites d'un membre de Netflix amb diverses qüestions molt personals, com ara la sexualitat, la malaltia mental, la recuperació de l'alcoholisme i la victimització de l'incest, l'abús físic, la violència domèstica, l'adulteri i la violació ".
Aquest exemple mostra que hi pot haver informació que algunes persones considerin sensibles dins del que pot semblar una base de dades benigna. A més, demostra que una defensa principal que els investigadors utilitzen per protegir dades sensibles a la desidentificació pot fracassar d'una manera sorprenent. Aquestes dues idees es desenvolupen amb més detall al capítol 6.
L'última cosa a tenir en compte sobre dades confidencials és que recopilar-lo sense el consentiment de la gent planteja preguntes ètiques, fins i tot si no es produeix cap dany específic. Igual que veure com es pren una dutxa sense el seu consentiment, es pot considerar una violació de la privadesa d'aquesta persona, recopilar informació confidencial i recordar el difícil que pot ser decidir què és sensible, sense el consentiment, crea possibles problemes de privadesa. Tornaré a les preguntes sobre la privadesa al capítol 6.
En conclusió, les grans fonts de dades, com ara registres administratius governamentals i empresarials, generalment no es creen a efectes de la investigació social. Les grans fonts de dades d'avui, i probablement demà, tendeixen a tenir 10 característiques. Moltes de les propietats que generalment es consideren bones per a la recerca: grans, sempre-i no reactives-provenen del fet de les empreses d'edat digital i els governs poden recopilar dades a una escala que abans no era possible. I moltes de les propietats que generalment es consideren dolentes per a la recerca, incompletes, inaccessibles, no representatives, a la deriva, algoritmesament confoses, inaccessibles, brutes i sensibles, provenen del fet que aquestes dades no van ser recollides per investigadors investigadors. Fins ara, he parlat sobre dades governamentals i empresarials, però hi ha algunes diferències entre els dos. En la meva experiència, les dades del govern tendeixen a ser menys representatius, menys confusos algoritmes i menys a la deriva. D'altra banda, els registres administratius empresarials tendeixen a ser més constant. La comprensió d'aquestes 10 característiques generals és un primer pas útil per aprendre de grans fonts de dades. I ara ens dirigim a les estratègies d'investigació que podem utilitzar amb aquestes dades.