Unele dintre informațiile pe care companiile și guvernele au este sensibil.
Companiile de asigurări de sănătate au informații detaliate despre asistența medicală primită de clienții lor. Aceste informații ar putea fi folosite pentru cercetări importante despre sănătate, dar dacă ar deveni publice, ar putea duce la daune emoționale (de exemplu, jenă) sau la daune economice (de exemplu, pierderea locurilor de muncă). Multe alte surse de date mari au, de asemenea, informații sensibile , care fac parte din motivul pentru care sunt adesea inaccesibile.
Din păcate, se dovedește a fi destul de dificil să se decidă ce informații sunt de fapt sensibile (Ohm 2015) , așa cum a fost ilustrat de Premiul Netflix. După cum voi descrie în capitolul 5, în 2006, Netflix a lansat 100 de milioane de ratinguri de film furnizate de aproape 500.000 de membri și a avut un apel deschis în care oameni din întreaga lume au prezentat algoritmi care ar putea îmbunătăți capacitatea Netflix de a recomanda filme. Înainte de a elibera datele, Netflix a eliminat orice informație evidentă de identificare personală, cum ar fi numele. Dar, la doar doua saptamani de la data la care au fost eliberate datele, Arvind Narayanan si Vitaly Shmatikov (2008) au aratat ca este posibil sa inveti despre rating-urile anumitor persoane folosind un truc pe care il voi arata in capitolul 6. Chiar daca un atacator ar putea descoperi evaluările filmului unei persoane, nu pare să existe nimic sensibil aici. În timp ce acest lucru ar putea fi adevărat în general, pentru cel puțin o parte dintre cei 500.000 de persoane din setul de date, evaluările filmelor au fost sensibile. De fapt, ca răspuns la eliberarea și re-identificarea datelor, o femeie lesbiană închisă sa alăturat unui proces de acțiune împotriva Netflix. Iată cum a fost exprimată problema în acest proces (Singel 2009) :
"[M] ovie și datele de rating conțin informații de o natură extrem de personală și sensibilă. Datele filmului membrilor expun interesul personal și / sau lupta membrilor Netflix cu diverse probleme personale, inclusiv sexualitatea, boala mintală, recuperarea de alcoolism și victimizarea incestului, abuzul fizic, violența domestică, adulterul și violul ".
Acest exemplu arată că pot exista informații pe care unii oameni le consideră sensibile în interiorul a ceea ce pare a fi o bază de date benignă. Mai mult, arată că o apărare principală pe care cercetătorii o folosesc pentru a proteja datele sensibile de identificare poate să nu reușească în moduri surprinzătoare. Aceste două idei sunt dezvoltate mai detaliat în capitolul 6.
Ultimul lucru pe care trebuie să-l țineți cont de datele sensibile este că colectarea lui fără consimțământul oamenilor ridică întrebări etice, chiar dacă nu este cauzată nici un rău specific. Mult mai mult ca uitam pe cineva care face un duș fără consimțământul lor ar putea fi considerat o încălcare a confidențialității persoanei respective, colectând informații sensibile - și amintesc cât de greu poate fi să decidă ce este sensibil - fără consimțământ, creează preocupări potențiale de confidențialitate. Voi reveni la întrebările despre confidențialitate din capitolul 6.
În concluzie, sursele de date mari, cum ar fi înregistrările administrative și de afaceri, nu sunt, în general, create în scopul cercetării sociale. Sursele mari de date de astăzi, și probabil mâine, au tendința de a avea 10 caracteristici. Multe dintre proprietățile care sunt în general considerate a fi bune pentru cercetare - mari, întotdeauna și nereactive - provin din faptul că companiile și guvernele de vârstă digitală sunt capabile să colecteze date la o scară care nu a fost posibilă anterior. Și multe dintre proprietățile care sunt în general considerate a fi rele pentru cercetare - incomplete, inaccesibile, nereprezentative, derivează, confundate algoritmic, inaccesibile, murdare și sensibile - provin din faptul că aceste date nu au fost colectate de cercetători pentru cercetători. Până acum, am vorbit despre datele guvernamentale și de afaceri împreună, dar există unele diferențe între cele două. Din experiența mea, datele guvernamentale tinde să fie mai puțin nereprezentative, mai puțin confundate din punct de vedere algoritmic și mai puțin derivează. Pe de altă parte, înregistrările administrative ale companiilor tind să fie mai întotdeauna. Înțelegerea acestor 10 caracteristici generale este un prim pas util spre învățarea din surse mari de date. Și acum ne îndreptăm spre strategiile de cercetare pe care le putem folosi cu aceste date.