Néhány információ, hogy a vállalatok és a kormányok érzékeny.
Egészségbiztosítási cégek részletes információkat az orvosi ellátást kapott ügyfeleiknek. Ezt az információt fel lehet használni a fontos kutatási egészségügyi, de ha ez nyilvánosságra került, hogy potenciálisan vezethet a érzelmi kár (pl zavar) és a gazdasági kár (pl munkahely elvesztése). Távol jellegzetes, sok nagy adatforrások információnk, hogy érzékeny. Az érzékeny természete ez az információ az egyik oka, hogy a nagy adatforrások gyakran hozzáférhetetlen (lásd fentebb).
Ennek egyik módja, hogy a kutatók azt igyekeztek kezelni ezt a helyzetet, hogy de-azonosítani adathalmazok, amelyek a bizalmas adatokat. De, mint azt mutatom be részletesen a 6. fejezetben (Etikai) ez a megközelítés súlyosan korlátozott módon nem méltányolt mind a társadalomtudósok és adatokat a tudósok.
Összefoglalva, a nagy adatforrások ma (és holnap) általában tíz jellemzőit. Sok a jó tulajdonságokkal, nagy, always-on, és nem reaktív-származik az a tény a digitális korban vállalatok és a kormányok képesek adatok gyűjtésére, olyan mértékben, amely nem volt lehetséges korábban. És sok a rossz tulajdonságok-hiányos, megközelíthetetlen, nem reprezentatív, sodródó, algoritmikusan keveredett, megközelíthetetlen, piszkos, és érzékeny, származik az a tény, hogy az adatokat nem gyűjtötték össze a kutatók a kutatók számára. Megértése ezek a jellemzők a szükséges első lépés a tanulás a nagy adat. És most térjünk vissza a kutatási stratégiák tudjuk használni ezeket az adatokat.