Een deel van de informatie die bedrijven en overheden hebben is gevoelig.
Zorgverzekeraars hebben gedetailleerde informatie over de medische zorg die hun klanten ontvangen. Deze informatie kan worden gebruikt voor belangrijk onderzoek over gezondheid, maar als het openbaar wordt, kan dit mogelijk leiden tot emotionele schade (bijvoorbeeld schaamte) of economische schade (bijvoorbeeld verlies van werk). Veel andere big data-bronnen hebben ook informatie die gevoelig is , wat een deel van de reden is waarom ze vaak ontoegankelijk zijn.
Helaas blijkt het nogal lastig om te beslissen welke informatie echt gevoelig is (Ohm 2015) , zoals werd geïllustreerd door de Netflix-prijs. Zoals ik in hoofdstuk 5 zal beschrijven, heeft Netflix in 2006 100 miljoen filmbeoordelingen uitgebracht door bijna 500.000 leden en een open oproep gedaan waarbij mensen van over de hele wereld algoritmen hebben ingediend die de mogelijkheid van Netflix om films aan te bevelen kunnen verbeteren. Voordat de gegevens werden vrijgegeven, verwijderde Netflix alle voor de hand liggende persoonlijk identificeerbare informatie, zoals namen. Maar, slechts twee weken nadat de gegevens waren vrijgegeven, hebben Arvind Narayanan en Vitaly Shmatikov (2008) laten zien dat het mogelijk was om de filmwaarderingen van specifieke mensen te leren door een truc te gebruiken die ik je in hoofdstuk 6 laat zien. Ook al kon een aanvaller een beoordelingen van person's film, er lijkt hier nog steeds niets gevoelig te zijn. Hoewel dat in het algemeen waar zou kunnen zijn, waren voor filmfragmenten voor ten minste een deel van de 500.000 mensen in de dataset gevoelige gegevens. In feite voegde een vrouw met een closeted lesbische vrouw zich als reactie op de release en heridentificatie van de gegevens toe aan een class-action-suit tegen Netflix. Hier is hoe het probleem werd uitgedrukt in deze rechtszaak (Singel 2009) :
"[M] ovie- en ratinggegevens bevatten informatie van een ... zeer persoonlijk en gevoelig karakter. De filmgegevens van het lid onthullen de persoonlijke interesse van een Netflix-lid en / of worstelt met verschillende zeer persoonlijke kwesties, zoals seksualiteit, psychische aandoeningen, herstel van alcoholisme, en slachtoffering van incest, fysieke mishandeling, huiselijk geweld, overspel en verkrachting. "
Dit voorbeeld laat zien dat er informatie kan zijn die sommige mensen als gevoelig beschouwen in wat een goedaardige database lijkt te zijn. Verder laat het zien dat een belangrijke verdediging die onderzoekers gebruiken om gevoelige data-de-identificatie te beschermen, op verrassende manieren kan falen. Deze twee ideeën worden in hoofdstuk 6 verder uitgewerkt.
Het laatste ding om te onthouden over gevoelige gegevens is dat het verzamelen zonder toestemming van mensen ethische vragen oproept, zelfs als er geen specifieke schade wordt veroorzaakt. Het lijkt erop dat iemand een douche nemen zonder hun toestemming kan beschouwen als een schending van de privacy van die persoon, gevoelige informatie verzamelen - en onthouden hoe moeilijk het kan zijn om te beslissen wat gevoelig is - zonder toestemming mogelijke privacyproblemen veroorzaakt. Ik zal in hoofdstuk 6 terugkomen op vragen over privacy.
Concluderend worden big data-bronnen, zoals overheids- en bedrijfsadministraties, meestal niet gemaakt voor sociaal onderzoek. De big data-bronnen van vandaag, en waarschijnlijk morgen, hebben meestal 10 kenmerken. Veel van de eigenschappen die over het algemeen als goed worden beschouwd voor onderzoek - groot, altijd aan en niet-reactief - komen voort uit het feit dat bedrijven in het digitale tijdperk gegevens kunnen verzamelen op een schaal die voorheen niet mogelijk was. En veel van de eigenschappen die algemeen als slecht worden beschouwd voor onderzoek - onvolledig, ontoegankelijk, niet-representatief, afdrijvend, algoritmisch verward, ontoegankelijk, vies en gevoelig - komen voort uit het feit dat deze gegevens niet door onderzoekers voor onderzoekers zijn verzameld. Tot nu toe heb ik het gehad over overheids- en bedrijfsgegevens samen, maar er zijn enkele verschillen tussen beide. In mijn ervaring zijn overheidsgegevens meestal minder niet-representatief, minder algoritmisch verward en minder driftig. Aan de andere kant zijn bedrijfsadministraties doorgaans altijd actueler. Het begrijpen van deze 10 algemene kenmerken is een nuttige eerste stap in het leren van big data-bronnen. En nu kijken we naar onderzoekstrategieën die we met deze gegevens kunnen gebruiken.