Iuj de la informoj kiuj entreprenoj kaj registaroj havas estas sentema.
Sano asekuron kompanioj detala informo pri la medicina prizorgo ricevita de siaj klientoj. Tiu informo povus uzi por gravaj esploroj pri sano, sed se ĝi faris publika povus potenciale konduki al emociaj malbono (ekz, embarason) kaj ekonomia damaĝo (ekzemple perdo de dungado). For de distinga, multaj grandaj datumoj fontoj havas informon kiu estas sentema. La sentema naturo de tiu informo estas parto de la kialo ke grandaj datumoj fontoj estas ofte nealirebla (priskribita supre).
Unidirekta ke esploristoj provis trakti tiun situacion estas al de-identigi datumaroj kiuj havas sentema informo. Sed, kiel mi montros detale en ĉapitro 6 (Etiko) ĉi alproksimiĝo serioze limigita en manieroj kiuj ne estas vaste estimita de ambaŭ sociaj sciencistoj kaj datumoj sciencistoj.
En konkludo, la grandaj datumoj fontoj de hodiaŭ (kaj morgaŭ) ĝenerale havas dek karakterizaĵoj. Multaj de la bona propraĵoj-granda, ĉiam-sur, kaj nonreactive-veni de la fakto en la cifereca erao entreprenoj kaj registaroj povas kolekti datumojn al skalo kiu ne estis ebla antaŭe. Kaj multaj el la malbonaj ecoj-nekompletaj, nealireblaj, ne-reprezentanto, drivantaj, algorítmicamente Hontigitaj nealireblaj, malpura, kaj sentema-veni de la fakto ke la datumoj ne kolektitaj de esploristoj por esploristoj. Komprenante tiuj karakterizaĵoj estas necesa unua paŝo al lernanta de grandaj datumoj. Kaj nun ni turnas nin al esplori strategioj povas uzi kun ĉi tiuj datumoj.