En del av den information som företag och regeringar har är känslig.
Sjukförsäkringsbolag har detaljerad information om den medicinska vård av sina kunder. Denna information kan användas för viktig forskning om hälsa, men om det blev offentligt kan det potentiellt leda till känslomässig skada (t.ex. förlägenhet) och ekonomisk skada (t.ex. förlust av anställning). Långt ifrån distinkta, många stora datakällor har information som är känslig. Den känsliga naturen av denna information är en del av anledningen till att stora datakällor är ofta otillgängliga (beskriven ovan).
Ett sätt att forskare försöker ta itu med den här situationen är att avidentifiera datamängder som har känslig information. Men, som jag kommer att visa i detalj i kapitel 6 (etik) detta tillvägagångssätt allvarligt begränsas på ett sätt som inte är allmänt uppskattas av både samhällsvetare och dataforskare.
Sammanfattningsvis stora datakällor i dag (och i morgon) har i allmänhet tio egenskaper. Många av de goda egenskaper-stora, alltid-på, och icke-reaktiva-kommer från det faktum I den digitala tidsåldern företag och regeringar kan samla in data på en skala som inte var möjligt tidigare. Och många av de dåliga egenskaper-ofullständig, otillgängliga, icke-representant, drivande, algoritm förvirrad, otillgängliga, smutsiga och känslig-kommer från det faktum att uppgifterna inte kan samlas in av forskare för forskare. Att förstå dessa egenskaper är ett nödvändigt första steg för att lära sig av stora data. Och nu vänder vi oss till forskning strategier vi kan använda med dessa data.