Noe av informasjonen som selskaper og regjeringer har er sensitive.
Helseforsikringsselskaper har detaljert informasjon om sykepleie mottatt av sine kunder. Denne informasjonen kan brukes til viktig forskning om helse, men hvis den ble offentlig, kan den potensielt føre til følelsesmessig skade (f. Eks. Forlegenhet) eller økonomisk skade (f.eks. Tap av sysselsetting). Mange andre store datakilder har også informasjon som er sensitiv , noe som er en del av grunnen til at de ofte er utilgjengelige.
Dessverre viser det seg å være ganske vanskelig å bestemme hvilken informasjon som er faktisk følsom (Ohm 2015) , som illustrert av Netflix-prisen. Som jeg vil beskrive i kapittel 5, utgav Netflix i 2006 100 millioner filmverdier fra nesten 500 000 medlemmer og hadde en åpen samtale hvor folk fra hele verden sendte inn algoritmer som kunne forbedre Netflix evne til å anbefale filmer. Før du slipper dataene, fjernet Netflix noen åpenbare personlig identifiserende opplysninger, for eksempel navn. Men bare to uker etter at dataene ble utgitt, viste Arvind Narayanan og Vitaly Shmatikov (2008) at det var mulig å lære om bestemte folks filmrangeringer ved hjelp av et triks som jeg vil vise deg i kapittel 6. Selv om en angriper kunne oppdage en personens filmverdier, synes det fremdeles ikke å være noe følsomt her. Selv om det kan være sant generelt, for minst noen av de 500.000 personene i datasettet, var filmkvaliteten følsom. Faktisk, som et svar på utgivelsen og gjenidentifiseringen av dataene, kom en kledd lesbisk kvinne til en klassegjøringsdrakt mot Netflix. Slik er problemet uttrykt i denne søksmålet (Singel 2009) :
"[M] ovie og rating data inneholder informasjon av en ... svært personlig og sensitiv natur. Medlemmets filmdata avslører et Netflix-medlems personlige interesse og / eller kamp med ulike svært personlige problemer, inkludert seksualitet, psykisk lidelse, gjenoppretting av alkoholisme, og offer av incest, fysisk overgrep, vold i hjemmet, utroskap og voldtekt. "
Dette eksemplet viser at det kan være informasjon som noen anser som sensitiv innsiden av det som ser ut til å være en godartet database. Videre viser det at et hovedforsvar som forskere ansetter for å beskytte sensitiv data-de-identifikasjon, kan mislykkes på overraskende måter. Disse to ideene er utviklet mer detaljert i kapittel 6.
Den endelige tingen å huske på sensitive data er at det å samle det uten folks samtykke vekker etiske spørsmål, selv om det ikke er noen spesiell skade. Like som å se på noen som tar en dusj uten deres samtykke, kan anses å være et brudd på personens personvern, samle sensitiv informasjon, og husk hvor vanskelig det kan være å bestemme hva som er følsomt uten samtykke, skaper potensielle personvernproblemer. Jeg kommer tilbake til spørsmål om personvern i kapittel 6.
Som konklusjon er store datakilder, for eksempel regjerings- og forretningsadministrasjonsrekorder, generelt ikke opprettet for samfunnsforskning. De store datakildene i dag, og sannsynligvis i morgen, har en tendens til å ha 10 egenskaper. Mange av egenskapene som generelt regnes for å være gode for forskning - stor, alltid på og ikke-aktiv - kommer fra det faktum at de digitale tidsalderfirmaer og regjeringer kan samle inn data på en skala som ikke var mulig tidligere. Og mange av egenskapene som generelt anses å være dårlige for at forskning er ufullstendig, utilgjengelig, ikke representativ, drivende, algoritmisk forvirret, utilgjengelig, skitten og sensitiv, kommer fra det faktum at disse dataene ikke ble samlet inn av forskere for forskere. Så langt har jeg snakket om regjerings- og bedriftsdata sammen, men det er noen forskjeller mellom de to. Etter min erfaring har regjeringsdata tendens til å være mindre ikke representativ, mindre algoritmisk forvirret og mindre drivende. På den annen side har forretningsadministrasjonsrekord tendens til å være mer alltid på. Å forstå disse 10 generelle egenskapene er et nyttig første skritt mot læring fra store datakilder. Og nå går vi til forskningsstrategier vi kan bruke med disse dataene.