Sumir af the upplýsingar sem fyrirtæki og ríkisstjórnir hafa er viðkvæm.
Heilsa tryggingafélög hafa nákvæmar upplýsingar um læknishjálp tekið af viðskiptavinum sínum. Þessar upplýsingar væri hægt að nota fyrir mikilvægar rannsóknir um heilsu, en ef það varð almenningi það gæti hugsanlega leitt til tilfinningalegrar skaða (td skömm) og efnahagslega skaða (td tap atvinnu). Langt frá sérstakri, mörg stór gögn heimildum hafa upplýsingar sem er viðkvæmt. The viðkvæmar þessar upplýsingar eru hluti af þeirri ástæðu að stór gögn heimildir eru oft óaðgengilegar (lýst hér að ofan).
Ein leið til að vísindamenn reyna að takast á við þetta ástand er að de-þekkja gagnasett sem hafa viðkvæmar upplýsingar. En, eins og ég mun sýna í smáatriðum í 6. kafla (Ethics) Þessi aðferð alvarlega takmarkaður á þann hátt sem ekki er víða vel þegið af bæði félagslegum vísindamenn og gögn vísindamanna.
Að lokum, hafa stóra gagnaheimilda í dag (og á morgun) almennt tíu einkenni. Margir af góöa-stór, alltaf-á, og nonreactive koma frá þeirri staðreynd í stafrænum fyrirtækjum aldur og ríkisstjórnir eru fær um að safna gögnum á mælikvarða sem var ekki hægt áður. Og margir af slæmur eignir-ófullkominnar, óaðgengilegur, non-fulltrúa, reki, algorithmically háðungar, óaðgengilegar, óhrein, og viðkvæm koma frá því að gögnin séu ekki safnað af vísindamönnum fyrir vísindamenn. Skilningur þessir eiginleikar eru nauðsynleg fyrsta skrefið til að læra af stór gögn. Og nú snúum við rannsóknir aðferðir við getum notað með þessum gögnum.