Mae rhywfaint o'r wybodaeth fod cwmnïau a llywodraethau wedi yw sensitif.
Mae gan gwmnïau yswiriant iechyd wybodaeth fanwl am y gofal meddygol a dderbynnir gan eu cwsmeriaid. Gellid defnyddio'r wybodaeth hon ar gyfer ymchwil pwysig am iechyd, ond pe byddai'n dod yn gyhoeddus, gallai arwain at niwed emosiynol (ee embaras) neu niwed economaidd (ee colli cyflogaeth). Mae gan lawer o ffynonellau data mawr eraill wybodaeth sy'n sensitif , sy'n rhan o'r rheswm pam y maent yn aml yn anhygyrch.
Yn anffodus, mae'n ymddangos yn eithaf anodd i benderfynu pa wybodaeth sydd mewn gwirionedd yn sensitif (Ohm 2015) , fel y darlunnwyd gan Wobr Netflix. Fel y disgrifiaf ym mhennod 5, yn 2006, rhyddhaodd Netflix 100 miliwn o sgoriau ffilm a ddarparwyd gan bron i 500,000 o aelodau a chafodd galwad agored lle'r oedd pobl o bob cwr o'r byd yn cyflwyno algorithmau a allai wella gallu Netflix i argymell ffilmiau. Cyn rhyddhau'r data, tynnodd Netflix unrhyw wybodaeth amlwg sy'n nodi gwybodaeth bersonol, megis enwau. Ond, dim ond pythefnos ar ôl i'r data gael ei ryddhau, dangosodd Arvind Narayanan a Vitaly Shmatikov (2008) ei bod hi'n bosibl dysgu am gyfraddau ffilmiau pobl penodol gan ddefnyddio tric y byddaf yn ei ddangos i chi ym mhennod 6. Er y gallai ymosodwr ddarganfod graddfeydd ffilm person, nid yw'n ymddangos bod unrhyw beth yn sensitif o hyd yma. Er y gallai hynny fod yn wir yn gyffredinol, am o leiaf rai o'r 500,000 o bobl yn y set ddata, roedd graddfeydd ffilm yn sensitif. Mewn gwirionedd, mewn ymateb i ryddhau ac ail-adnabod y data, ymunodd menyw lesbiaidd wedi'i ffonio â siwt gweithredu dosbarth yn erbyn Netflix. Dyma sut y mynegwyd y broblem yn y gynghrair hon (Singel 2009) :
"Mae data [M] ovie a graddio yn cynnwys gwybodaeth am natur ... bersonol a sensitif iawn. Mae data ffilm yr aelod yn datgelu diddordeb personol a / neu frwydrau personol Netflix gyda materion personol iawn amrywiol, gan gynnwys rhywioldeb, salwch meddwl, adferiad o alcoholiaeth, ac erledigaeth rhag incest, camdriniaeth gorfforol, trais yn y cartref, godineb a threisio. "
Mae'r enghraifft hon yn dangos y gall fod gwybodaeth bod rhai pobl yn ystyried y tu mewn i'r hyn y mae'n ymddangos yn gronfa ddata ddidwyll yn sensitif. Ymhellach, mae'n dangos y gall prif amddiffyniad y mae ymchwilwyr yn ei ddefnyddio i warchod data sensitif-adnabod yn methu mewn ffyrdd syndod. Datblygir y ddau syniad hyn yn fanylach ym mhennod 6.
Y peth olaf i'w gadw mewn cof am ddata sensitif yw bod ei gasglu heb ganiatâd pobl yn codi cwestiynau moesegol, hyd yn oed os na chaiff niwed penodol ei achosi. Efallai y bydd rhywbeth tebyg i wylio rhywun sy'n cymryd cawod heb eu caniatâd yn cael ei ystyried yn groes i breifatrwydd y person hwnnw, gan gasglu gwybodaeth sensitif-a chofiwch pa mor anodd yw hi i benderfynu beth sy'n sensitif-heb ganiatâd yn creu pryderon preifatrwydd posibl. Dychwelaf at gwestiynau am breifatrwydd ym mhennod 6.
I gloi, nid yw ffynonellau data mawr, megis cofnodion gweinyddol y llywodraeth a busnes, yn cael eu creu at ddibenion ymchwil gymdeithasol yn gyffredinol. Mae ffynonellau data mawr heddiw, ac yn debygol yfory, yn tueddu i gael 10 nodwedd. Mae llawer o'r eiddo a ystyrir yn gyffredinol yn dda ar gyfer ymchwil-mawr, bob amser, ac anweithredol - yn dod o'r ffaith yn y cwmnïau oedran digidol a gall llywodraethau gasglu data ar raddfa nad oedd yn bosibl o'r blaen. Ac mae llawer o'r eiddo y tybir eu bod yn ddrwg ar gyfer ymchwil-anghyflawn, anhygyrch, nad ydynt yn gynrychioliadol, yn diflannu, yn anghydnaws, yn anhygyrch, yn fudr ac yn sensitif-yn deillio o'r ffaith nad oedd y data hyn yn cael ei gasglu gan ymchwilwyr i ymchwilwyr. Hyd yn hyn, rwyf wedi sôn am ddata'r llywodraeth a busnes gyda'i gilydd, ond mae rhai gwahaniaethau rhwng y ddau. Yn fy mhrofiad i, mae data'r llywodraeth yn dueddol o fod yn llai anghynrychioliadol, yn llai anghysbell yn algorithmig, ac yn llai difrifol. Un llaw arall, mae cofnodion gweinyddol busnes yn tueddu i fod yn fwy bob amser. Mae deall y 10 nodwedd gyffredinol hon yn gam cyntaf defnyddiol tuag at ddysgu o ffynonellau data mawr. Ac yn awr rydym yn troi at strategaethau ymchwil y gallwn eu defnyddio gyda'r data hwn.