Sumir af the upplýsingar sem fyrirtæki og ríkisstjórnir hafa er viðkvæm.
Sjúkratryggingafélög hafa ítarlegar upplýsingar um læknishjálp sem viðskiptavinir þeirra fá. Þessar upplýsingar gætu verið notaðar við mikilvægar rannsóknir um heilsu, en ef það varð opinbert gæti það hugsanlega leitt til tilfinningalegra skaða (td vandræði) eða efnahagslegan skaða (td missi atvinnu). Mörg önnur stór gagnasöfn hafa einnig upplýsingar sem eru viðkvæmar , sem er hluti af ástæðan fyrir því að þeir eru oft óaðgengilegar.
Því miður reynist það vera erfiður að ákveða hvaða upplýsingar eru í raun viðkvæmir (Ohm 2015) , eins og sýnt var af Netflix-verðlaununum. Eins og ég mun lýsa í kafla 5, árið 2006 gaf Netflix út 100 milljón kvikmyndatölur sem næstum 500.000 meðlimir höfðu og opið símtal þar sem fólk frá öllum heimshornum sendi reiknirit sem gæti bætt Netflix getu til að mæla með kvikmyndum. Áður en gögnin voru sleppt Netflix engar augljós persónugreinanlegar upplýsingar, svo sem nöfn. En aðeins tveimur vikum eftir að gögnin voru sleppt sýndu Arvind Narayanan og Vitaly Shmatikov (2008) að hægt væri að læra um kvikmyndatökur tiltekinna fólks með því að nota bragð sem ég mun sýna þér í kafla 6. Jafnvel þó að árásarmaður gæti uppgötvað kvikmyndatölur einstaklingsins, það virðist ennþá ekki vera neitt viðkvæmt hér. Þó að það gæti verið satt almennt, í að minnsta kosti sumir af 500.000 manns í gagnapakkanum, voru kvikmyndatölur viðkvæmar. Í raun og veru, til að bregðast við losun og endurskilgreiningu gagna, gekk klæddur lesbísk kona í klaskuspúða gegn Netflix. Hér er hvernig vandamálið var sett fram í þessu máli (Singel 2009) :
"[M] ovie og einkunnargögn innihalda upplýsingar um ... mjög persónulega og viðkvæma eðli. Þátttakendur í kvikmyndum félagsins afhjúpa persónulegan áhuga Netflix og / eða baráttu með ýmsum mjög persónulegum málum, þar með talið kynhneigð, geðsjúkdóma, bata frá áfengissýki og fórnarlömb vegna skaðlegra misnotkana, líkamlega ofbeldis, heimilisofbeldi, hórdómur og hórdóm. "
Þetta dæmi sýnir að hægt er að finna upplýsingar sem sumir telja viðkvæma hluti af því sem kann að virðast vera góðkynja gagnagrunnur. Ennfremur sýnir það að aðalvarnarefni sem vísindamenn ráða til að verja viðkvæma gögn-de-auðkenningu - geta mistekist á óvart. Þessar tvær hugmyndir eru þróaðar nánar í kafla 6.
Endanleg hlutur sem þarf að hafa í huga um viðkvæmar upplýsingar er að safna því án samþykkis fólks vekur siðferðilega spurningu, jafnvel þótt ekki sé nein sérstakur skaði. Mikið eins og að horfa á einhvern sem er að fara í sturtu án samþykkis þeirra gæti verið talið brot á persónuvernd persónuupplýsinga, safna viðkvæmum upplýsingum og muna hversu erfitt það getur verið að ákveða hvað er viðkvæmt - án samþykkis skapar hugsanlega persónuverndarhugmyndir. Ég mun snúa aftur til spurninga um persónuvernd í kafla 6.
Niðurstaðan er að stórum gögnum, svo sem stjórnsýsluyfirlitum stjórnvalda og fyrirtækja, almennt ekki búið til í þeim tilgangi að félagsleg rannsókn. Stóra gagnasöfnin í dag, og líklega á morgun, hafa tilhneigingu til að hafa 10 einkenni. Mörg eigna sem almennt eru talin vera góð fyrir rannsóknir - stór, ávallt áfram og óvirkir - koma frá því í stafrænu aldri og ríkisstjórnir geta safnað gögnum í mælikvarða sem ekki var hægt áður. Og margir af þeim eiginleikum sem almennt eru talin vera slæm fyrir rannsóknir, ófullnægjandi, óaðgengilegar, órepresentative, reki, algrímfræðilega skelfilegur, óaðgengilegur, óhreinn og viðkvæmur - koma af þeirri staðreynd að þessi gögn voru ekki safnað af vísindamönnum fyrir vísindamenn. Hingað til hefur ég talað um ríkisstjórnar- og viðskiptagögn saman, en það eru nokkrir munur á milli tveggja. Að mínu mati hefur ríkisstjórnargögn tilhneigingu til að vera minna órepresentative, minna algrímlega skelfilegur og minna drifandi. Annars vegar eru rekstraryfirlit yfirleitt meira ávallt í gangi. Skilningur þessara 10 almennra einkenna er hjálplegt fyrsta skrefið í átt að námi frá stórum gögnum. Og nú snúum við við rannsóknaraðferðir sem við getum notað með þessum gögnum.