Nogle af de oplysninger, som virksomheder og regeringer har, er følsomme.
Sundhedsforsikringsselskaber har detaljerede oplysninger om den lægehjælp, som deres kunder har modtaget. Disse oplysninger kunne bruges til vigtig forskning om sundhed, men hvis det blev offentligt, kunne det potentielt føre til følelsesmæssig skade (fx forlegenhed) eller økonomisk skade (fx tab af beskæftigelse). Mange andre store datakilder har også information, der er følsom , hvilket er en del af grunden til, at de ofte er utilgængelige.
Desværre viser det sig at være ret vanskeligt at afgøre, hvilke oplysninger der faktisk er følsomme (Ohm 2015) , som det blev illustreret af Netflix-prisen. Som jeg vil beskrive i kapitel 5, udgav Netflix i 2006 100 millioner filmvurderinger fra næsten 500.000 medlemmer og havde et åbent opkald, hvor folk fra hele verden indsendte algoritmer, som kunne forbedre Netflix evne til at anbefale film. Før frigivelse af data fjernede Netflix enhver åbenlys personligt identificerende information, såsom navne. Men kun to uger efter at dataene blev udgivet (2008) viste Arvind Narayanan og Vitaly Shmatikov (2008) , at det var muligt at lære om bestemte folks filmkarakterer ved hjælp af et trick, som jeg vil vise dig i kapitel 6. Selvom en angriber kunne opdage en personens film ratings, synes der stadig ikke at være noget følsomt her. Selvom det kunne være rigtigt generelt, for mindst nogle af de 500.000 mennesker i datasættet, var filmklasserne følsomme. Faktisk, som en reaktion på frigivelsen og genidentificeringen af dataene, sluttede en closeted lesbisk kvinde til en klassedragt mod Netflix. Her er hvordan problemet blev udtrykt i denne retssag (Singel 2009) :
"[M] ovie og rating data indeholder oplysninger om en ... meget personlig og følsom karakter. Medlemmets filmdata udsætter et Netflix-medlems personlige interesse og / eller kamp med forskellige meget personlige problemer, herunder seksualitet, psykisk sygdom, genopretning fra alkoholisme og offer for incest, fysisk misbrug, vold i hjemmet, utroskab og voldtægt. "
Dette eksempel viser, at der kan være information, som nogle mennesker anser for følsomme inden for hvad der kan synes at være en godartet database. Endvidere viser det sig, at et hovedforsvar, som forskere bruger til at beskytte følsomme data-de-identifikationssystemer, kan mislykkes på overraskende måder. Disse to ideer er udviklet mere detaljeret i kapitel 6.
Den sidste ting at huske på om følsomme data er at indsamle det uden folks samtykke rejser etiske spørgsmål, selvom der ikke er nogen særlig skade. Meget som at se nogen, der tager et brusebad uden deres samtykke, kan betragtes som en krænkelse af personens privatliv, opsamling af følsomme oplysninger - og husk hvor svært det kan være at afgøre, hvad der er følsomt uden samtykke skaber potentielle privatlivsproblemer. Jeg vender tilbage til spørgsmål om privatlivets fred i kapitel 6.
Konklusionen er, at store datakilder, som f.eks. Regerings- og forretningsadministratorer, generelt ikke oprettes med henblik på social forskning. De store datakilder i dag, og sandsynligvis i morgen, har tendens til at have 10 karakteristika. Mange af de ejendomme, der generelt anses for at være gode til forskning - store, altid på og ikke-reaktive - kommer fra det faktum, at i digitale tidsalderfirmaer, og regeringerne er i stand til at indsamle data i en skala, der ikke var muligt tidligere. Og mange af de egenskaber, der generelt anses for at være dårlige for forskning-ufuldstændige, utilgængelige, ikke-repræsentative, drivende, algoritmisk forvirrede, utilgængelige, beskidte og følsomme, skyldes, at disse data ikke blev indsamlet af forskere til forskere. Hidtil har jeg snakket om regering og forretningsdata sammen, men der er nogle forskelle mellem de to. Efter min erfaring har regeringsdata tendens til at være mindre ikke-repræsentative, mindre algoritmisk forvirrede og mindre drivende. På den anden side har forretningsadministratorer tendens til at være mere altid. At forstå disse 10 generelle karakteristika er et nyttigt første skridt mod at lære fra store datakilder. Og nu vender vi os til forskningsstrategier, vi kan bruge med disse data.