Alcune delle informazioni che le aziende ei governi hanno è sensibile.
Le compagnie di assicurazione sanitaria hanno informazioni dettagliate sulle cure mediche ricevute dai loro clienti. Queste informazioni potrebbero essere utilizzate per importanti ricerche sulla salute, ma se diventate pubbliche potrebbero potenzialmente causare danni emotivi (ad esempio, imbarazzo) o danni economici (ad esempio, perdita di posti di lavoro). Molte altre grandi fonti di dati hanno anche informazioni sensibili , che sono parte del motivo per cui sono spesso inaccessibili.
Sfortunatamente, risulta piuttosto complicato decidere quali informazioni siano effettivamente sensibili (Ohm 2015) , come è stato illustrato dal Premio Netflix. Come descriverò nel capitolo 5, nel 2006 Netflix ha rilasciato 100 milioni di valutazioni di film fornite da quasi 500.000 membri e ha avuto una chiamata aperta in cui persone provenienti da tutto il mondo hanno presentato algoritmi che potrebbero migliorare la capacità di Netflix di raccomandare film. Prima di rilasciare i dati, Netflix ha rimosso qualsiasi ovvia informazione di identificazione personale, come i nomi. Ma, solo due settimane dopo la pubblicazione dei dati, Arvind Narayanan e Vitaly Shmatikov (2008) hanno mostrato che era possibile conoscere le classifiche dei film di persone specifiche usando un trucco che ti mostrerò nel capitolo 6. Anche se un utente malintenzionato potrebbe scoprire un le classifiche dei film di una persona, sembra che non ci sia nulla di sensibile qui. Mentre questo potrebbe essere vero in generale, per almeno alcune delle 500.000 persone nel set di dati, le valutazioni dei film erano sensibili. In effetti, in risposta al rilascio e alla reidentificazione dei dati, una donna lesbica chiusa si è unita a una causa di azione collettiva contro Netflix. Ecco come il problema è stato espresso in questa causa (Singel 2009) :
"[M] ovie e dati di valutazione contengono informazioni di carattere ... altamente personale e sensibile. I dati del film del membro espongono l'interesse personale di un membro Netflix e / o lotta con varie questioni altamente personali, tra cui la sessualità, la malattia mentale, il recupero dall'alcolismo e la vittimizzazione da incesto, abuso fisico, violenza domestica, adulterio e stupro. "
Questo esempio mostra che ci possono essere informazioni che alcune persone considerano sensibili all'interno di quello che potrebbe sembrare un database benigno. Inoltre, mostra che una difesa principale che i ricercatori impiegano per proteggere i dati sensibili-de-identificazione può fallire in modi sorprendenti. Queste due idee sono sviluppate in maggior dettaglio nel capitolo 6.
L'ultima cosa da tenere a mente sui dati sensibili è che raccoglierla senza il consenso delle persone solleva questioni etiche, anche se non viene causato alcun danno specifico. Proprio come guardare qualcuno fare la doccia senza il loro consenso potrebbe essere considerato una violazione della privacy di quella persona, la raccolta di informazioni sensibili e ricordare quanto può essere difficile decidere ciò che è sensibile, senza il consenso crea potenziali problemi di privacy. Tornerò alle domande sulla privacy nel capitolo 6.
In conclusione, le grandi fonti di dati, come le registrazioni amministrative governative e commerciali, non sono generalmente create ai fini della ricerca sociale. Le grandi fonti di dati di oggi, e probabilmente domani, tendono ad avere 10 caratteristiche. Molte delle proprietà generalmente considerate valide per la ricerca - grandi, sempre attive e non reattive - provengono dal fatto che nell'era digitale le aziende e i governi sono in grado di raccogliere dati su una scala che non era possibile in precedenza. E molte delle proprietà che sono generalmente considerate negative per la ricerca - incomplete, inaccessibili, non rappresentative, alla deriva, algoritmicamente confuse, inaccessibili, sporche e sensibili - derivano dal fatto che questi dati non sono stati raccolti dai ricercatori per i ricercatori. Finora, ho parlato di dati governativi e aziendali insieme, ma ci sono alcune differenze tra i due. Nella mia esperienza, i dati del governo tendono ad essere meno non rappresentativi, meno confusi algoritmicamente e meno alla deriva. D'altra parte, i registri amministrativi aziendali tendono ad essere più sempre attivi. Comprendere queste 10 caratteristiche generali è un utile primo passo verso l'apprendimento da grandi fonti di dati. E ora passiamo alle strategie di ricerca che possiamo utilizzare con questi dati.