Mae rhywfaint o'r wybodaeth fod cwmnïau a llywodraethau wedi yw sensitif.
cwmnïau yswiriant iechyd wedi manylu gwybodaeth am y gofal meddygol a dderbyniwyd gan eu cwsmeriaid. Gallai'r wybodaeth hon yn cael ei defnyddio ar gyfer ymchwil pwysig am iechyd, ond os daeth yn gyhoeddus y gallai o bosibl arwain at niwed emosiynol (ee, embaras) a niwed economaidd (ee, colli gwaith). Ymhell o, lawer o ffynonellau data mawr nodedig cael gwybodaeth sy'n sensitif. Mae natur sensitif y wybodaeth hon yn rhan o'r rheswm pam y ffynonellau data mawr yn aml yn anhygyrch (a ddisgrifir uchod).
Un ffordd y mae ymchwilwyr yn ceisio delio â'r sefyllfa hon yw i ddad-ddynodi setiau data sy'n cael gwybodaeth sensitif. Ond, fel y byddaf yn dangos yn fanwl ym Mhennod 6 (Moeseg) y dull hwn yn gyfyngedig ddifrifol mewn ffyrdd nad ydynt yn cael eu gwerthfawrogi yn eang gan y ddau gwyddonwyr cymdeithasol a gwyddonwyr data.
I gloi, mae'r ffynonellau data mawr o heddiw (ac yfory) yn gyffredinol wedi deg nodweddion. Llawer o'r eiddo-fawr da, bob amser yn-on, a nonreactive-dod oddi wrth y ffaith yn y cwmnïau oes ddigidol a llywodraethau yn gallu casglu data ar raddfa nad oedd yn bosibl o'r blaen. Ac, mae llawer o'r drwg eiddo-anghyflawn, anhygyrch, di-gynrychiolydd, drifftio, gwaradwyddir algorithmically, anhygyrch, yn fudr, ac yn sensitif-dod o'r ffaith nad yw'r data yn cael ei gasglu gan ymchwilwyr i ymchwilwyr. Deall nodweddion hyn yn gam cyntaf angenrheidiol i ddysgu o ddata mawr. Ac, yn awr rydym yn troi at strategaethau gallwn eu defnyddio gyda data hwn ymchwil.