En del av den information som företag och regeringar har är känslig.
Sjukförsäkringsbolag har detaljerad information om sjukvården mottagen av sina kunder. Denna information kan användas för viktig forskning om hälsa, men om det blev offentligt kan det potentiellt leda till känslomässig skada (t.ex. förlägenhet) eller ekonomisk skada (t.ex. förlust av anställning). Många andra stora datakällor har också information som är känslig , vilket är en del av anledningen till att de ofta är otillgängliga.
Tyvärr är det ganska svårt att bestämma vilken information som är faktiskt känslig (Ohm 2015) , vilket illustrerades av Netflix-priset. Som jag kommer att beskriva i kapitel 5 släppte 2006 Netflix 100 miljoner filmbetyg från nästan 500 000 medlemmar och hade ett öppet samtal där människor från hela världen skickade in algoritmer som skulle kunna förbättra Netflix förmåga att rekommendera filmer. Innan data släpptes tog Netflix bort någon uppenbar personidentifierande information, till exempel namn. Men bara två veckor efter det att uppgifterna släpptes visade Arvind Narayanan och Vitaly Shmatikov (2008) att det var möjligt att lära sig specifika folks filmbetyg med hjälp av ett trick som jag visar dig i kapitel 6. Även om en angripare kan upptäcka en personens filmbetyg, tycks det fortfarande inte vara något känsligt här. Medan det kan vara sant i allmänhet, för åtminstone några av de 500 000 personerna i datasetet var filmbetygna känsliga. Faktum är att en closeted lesbisk kvinna som svar på frisläppandet och omidentifieringen av data kom till en klassdräkt mot Netflix. Så här har problemet uttryckts i denna rättegång (Singel 2009) :
"[M] ovie och rating data innehåller information av en ... mycket personlig och känslig natur. Medlemmens filmdata avslöjar ett Netflixmedlems personliga intresse och / eller kampar med olika mycket personliga problem, inklusive sexualitet, psykisk sjukdom, återhämtning från alkoholism och offer av incest, fysiskt missbruk, våld i hemmet, äktenskapsbrott och våldtäkt. "
Detta exempel visar att det kan finnas information som vissa anser att känsliga insidan av vad som verkar vara en godartad databas. Vidare visar det att ett huvudförsvar som forskare använder för att skydda känslig data-de-identifiering-kan misslyckas på överraskande sätt. Dessa två idéer utvecklas mer ingående i kapitel 6.
Den sista sak att tänka på om känslig data är att samla det utan människors samtycke ger upphov till etiska frågor, även om ingen särskild skada uppstår. Mycket som att titta på någon som tar en dusch utan sitt samtycke kan anses vara ett brott mot personens integritet, samla känslig information och kom ihåg hur svårt det kan vara att bestämma vad som är känsligt utan samtycke skapar potentiella integritetshänsyn. Jag återkommer till frågor om integritet i kapitel 6.
Sammanfattningsvis skapas stora datakällor, t.ex. administrativa register för myndigheter och företag, generellt inte för social forskning. De stora datakällorna idag, och sannolikt i morgon, tenderar att ha 10 egenskaper. Många av de egenskaper som generellt anses vara bra för forskning - stora, alltid på och icke-reaktiva - kommer från det faktum att de digitala åldersbolagen och regeringarna kan samla in data i en skala som tidigare inte var möjlig. Och många av de egenskaper som allmänt anses vara dåliga för att forskning är ofullständig, otillgänglig, icke representativ, drivande, algoritmiskt förvirrad, otillgänglig, smutsig och känslig, härrör från det faktum att dessa data inte samlades in av forskare för forskare. Hittills har jag pratat om regering och företagsdata tillsammans, men det finns vissa skillnader mellan de två. Enligt min erfarenhet tenderar regeringens data att vara mindre icke-representativ, mindre algoritmiskt förvirrad och mindre drivande. Å andra sidan är affärer administrativa register oftare. Att förstå dessa 10 allmänna egenskaper är ett användbart första steg mot lärande från stora datakällor. Och nu vänder vi oss till forskningsstrategier som vi kan använda med dessa data.