Dalis informacijos, kad įmonės ir vyriausybės turi yra jautrus.
Sveikatos draudimo bendrovės turi išsamią informaciją apie jų klientų gaunamą medicininę priežiūrą. Ši informacija gali būti naudojama svarbiems moksliniams tyrimams apie sveikatą, bet, jei ji taptų vieša, tai gali sukelti emocinę žalą (pvz., Nepatogumus) ar ekonominę žalą (pvz., Prarasti darbą). Daugybė kitų didelių duomenų šaltinių taip pat turi jautrią informaciją , kuri yra priežastis, kodėl jie dažnai yra nepasiekiami.
Deja, pasirodė gana sudėtinga nuspręsti, kokia informacija yra iš tikrųjų jautri (Ohm 2015) , kaip parodė "Netflix" premija. Kaip aprašysiu 5 skyriuje, 2006 m. "Netflix" išleido 100 milijonų kino reitingų, kuriuos pateikė beveik 500 000 narių, ir atviras pokalbis, kuriame žmonės iš viso pasaulio pateikė algoritmus, kurie galėtų pagerinti "Netflix" sugebėjimą rekomenduoti filmus. Prieš paleidžiant duomenis "Netflix" pašalino bet kokią akivaizdžiai asmeniškai identifikuojančią informaciją, pvz., Vardus. Tačiau praėjus vos dviem savaitėms po duomenų išleidimo, Arvindas Narayananas ir Vitalijus Šmatikovas (2008) parodė, kad buvo įmanoma sužinoti apie konkrečių žmonių kino reitingus naudojant apgaulę, kurią parodysiu 6 skyriuje. Net jei ataka galėtų atrasti asmens filmo reitingai, ten vis dar neatrodo nieko jautri čia. Nors tai gali būti tiesa apskritai, bent jau kai kurie iš 500 000 žmonių duomenų rinkinyje, filmų reitingai buvo jautri. Tiesą sakant, atsakydama į duomenų išleidimą ir pakartotinį identifikavimą, "uždaroji lesbietė" prisijungė prie "Netflix" klasės ieškinio. Štai kaip problema buvo išreikšta šiame ieškinyje (Singel 2009) :
"[M] ovie ir reitingų duomenys yra informacija apie ... labai asmenišką ir jautrią prigimtį. Nario filmo duomenys atskleidžia "Netflix" nario asmeninį interesą ir / ar kova su įvairiomis labai asmeninėmis problemomis, įskaitant seksualumą, psichinę ligą, atsigavimą nuo alkoholizmo ir viktimizaciją nuo incesto, fizinio smurto, šeiminio smurto, svetimavimo ir išprievartavimo ".
Šis pavyzdys rodo, kad gali būti informacijos, kurią kai kurie žmonės mano, kad jie gali būti labdirbiška duomenų baze. Be to, tai rodo, kad pagrindinė gynyba, kurią taiko mokslininkai, siekiant apsaugoti slaptus duomenis ir identifikavimą, gali nenuoseklaus būdu. Šios dvi idėjos išsamiau išdėstytos 6 skyriuje.
Paskutinis dalykas, kurį reikia nepamiršti apie slaptus duomenis, yra tai, kad jį renkantis be žmonių sutikimo kyla etinių klausimų, net jei nėra konkrečios žalos. Labai panašus į tai, kad žiūrint ką nors dušas be jo sutikimo gali būti laikomas šio asmens privatumo pažeidimu, renkant slaptą informaciją ir nepamirškite, kaip sunku nuspręsti, kas yra jautri, be sutikimo sukuria galimus privatumo klausimus. Aš grįšiu prie klausimų apie privatumą 6 skyriuje.
Apibendrinant, dideli duomenų šaltiniai, tokie kaip vyriausybės ir verslo administravimo įrašai, paprastai nėra sukurti socialiniams tyrimams. Dideli duomenų šaltiniai šiandien ir, tikėtina, rytoj turės 10 charakteristikų. Dauguma savybių, kurios apskritai laikomos tinkamomis moksliniams tyrimams - dideli, visada ir neaktyvūs, yra susiję su faktu, kad skaitmeninės amžiaus įmonės ir vyriausybės gali rinkti duomenis tokiu mastu, kokį anksčiau nebuvo įmanoma. Ir daugelis iš savybių, kurios apskritai laikomos nepalankiomis moksliniams tyrimams, yra neišsamios, neprieinamos, nereprezentatyvios, dreifuojančios, algoritminiu būdu sugadintos, neprieinamos, nešvarios ir jautrios, atsiranda dėl to, kad mokslininkai tyrėjams nepasirinko šių duomenų. Iki šiol kalbėjau apie vyriausybės ir verslo duomenis, tačiau tarp jų yra ir skirtumų. Mano patirtis rodo, kad vyriausybės duomenys yra mažiau reprezentaciniai, mažiau algoritminiai, ir mažiau dreifuojantys. Kita vertus, verslo administravimo įrašai paprastai yra labiau įprasti. Šių 10 bendrųjų charakteristikų supratimas yra naudingas pirmas žingsnis mokytis iš didelių duomenų šaltinių. Ir dabar mes kreipiamės į mokslinių tyrimų strategijas, kurias galime naudoti su šiais duomenimis.