2.3.2.7 Sensitive

Alcune delle informazioni che le aziende ei governi hanno è sensibile.

Le casse malati hanno dettagliato le informazioni relative alle cure mediche ricevute dai loro clienti. Queste informazioni potrebbero essere utilizzate per importante ricerca sulla salute, ma se diventasse pubblica che potrebbe potenzialmente portare a danno emotivo (ad esempio, l'imbarazzo) e danno economico (ad esempio, la perdita di posti di lavoro). Lontano da, molte fonti di dati caratteristici grandi avere informazioni che sono sensibili. La natura sensibile di queste informazioni è una delle ragioni che le grandi fonti di dati sono spesso inaccessibili (sopra descritto).

Un modo che i ricercatori tentano di affrontare questa situazione è quello di de-identificare set di dati che contengono informazioni sensibili. Ma, come mostrerò in dettaglio nel capitolo 6 (Etica) questo approccio seriamente limitato in modi che non sono ampiamente apprezzati da entrambi gli scienziati sociali e scienziati di dati.

In conclusione, le grandi fonti di dati di oggi (e domani) hanno generalmente dieci caratteristiche. Molte delle buone proprietà-grandi, sempre-on, e non reattivo, provengono dal fatto nelle società nell'era digitale e governi sono in grado di raccogliere dati su una scala che non era possibile in precedenza. E, molte delle cattive proprietà-incompleta, inaccessibile, non rappresentativo, alla deriva, algoritmicamente confusi, inaccessibile, sporco, e sensibile-venire dal fatto che i dati non vengono raccolti dai ricercatori per i ricercatori. La comprensione di queste caratteristiche sono un primo passo necessario per imparare dai grandi dati. E, ora ci rivolgiamo alla ricerca di strategie che possiamo usare con questi dati.