Baadhi ya taarifa kwamba makampuni na serikali na ni nyeti.
Makampuni ya bima ya afya yana maelezo ya kina kuhusu huduma za matibabu zilizopatikana na wateja wao. Taarifa hii inaweza kutumika kwa ajili ya utafiti muhimu kuhusu afya, lakini ikiwa ikawa umma, inaweza kusababisha madhara ya kihisia (kwa mfano, aibu) au madhara ya kiuchumi (kwa mfano, kupoteza ajira). Vyanzo vingine vingi vya data pia vina habari ambazo ni nyeti , ambazo ni sehemu ya sababu kwa nini hawawezi kufikia.
Kwa bahati mbaya, inaonekana kuwa vigumu sana kuamua ni habari gani ambayo ni nyeti (Ohm 2015) , kama ilivyoonyeshwa na Tuzo ya Netflix. Kama nitakavyoelezea katika sura ya 5, mwaka wa 2006 Netflix ilitoa mahesabu ya movie milioni 100 iliyotolewa na wanachama wapatao 500,000 na alikuwa na wito wazi ambapo watu kutoka duniani kote waliwasilisha taratibu zinazoweza kuboresha uwezo wa Netflix kupendekeza sinema. Kabla ya kufungua data, Netflix iliondoa maelezo yoyote ya wazi ya kutambua binafsi, kama majina. Lakini, wiki mbili tu baada ya kutolewa data Arvind Narayanan na Vitaly Shmatikov (2008) walionyesha kuwa inawezekana kujifunza juu ya ratings watu maalum movie kutumia hila kwamba nitakuonyesha katika sura ya 6. Hata kama mshambulizi inaweza kugundua Vipimo vya filamu vya mtu, bado kunaonekana hakuna chochote kilicho nyeti hapa. Ingawa hiyo inaweza kuwa ya kweli kwa ujumla, kwa angalau baadhi ya watu 500,000 katika dasaset, makadirio ya filamu yalikuwa nyeti. Kwa kweli, kwa kukabiliana na kutolewa na kutambuliwa tena kwa data, mwanamke aliyekuwa amejifungua wajamii alijiunga na suti ya hatua ya darasa dhidi ya Netflix. Hapa ndivyo tatizo lilivyoelezwa katika kesi hii (Singel 2009) :
"[M] ovie na data rating ina habari ya ... sana binafsi na nyeti asili. Data ya mwanachama wa filamu inafungua maslahi binafsi ya mwanachama wa Netflix na / au anajitahidi na masuala mbalimbali ya kibinafsi, ikiwa ni pamoja na ngono, ugonjwa wa akili, upungufu wa ulevi, na unyanyasaji kutoka kwa mimba, unyanyasaji wa kimwili, unyanyasaji wa nyumbani, uzinzi, na ubakaji. "
Mfano huu unaonyesha kuwa kuna habari ambazo watu wengine wanaona kuwa nyeti ndani ya kile ambacho kinaonekana kuwa database ya benign. Zaidi ya hayo, inaonyesha kwamba ulinzi mkuu ambao watafiti wanaajiri kulinda data nyeti-de-identification-wanaweza kushindwa kwa njia za kushangaza. Mawazo haya mawili yanapatikana kwa kina zaidi katika sura ya 6.
Jambo la mwisho kukumbuka juu ya data nyeti ni kwamba kukusanya bila kibali cha watu huwafufua maswali ya kimaadili, hata kama hakuna madhara maalum yanayosababishwa. Kengi kama kumtazama mtu akiwa na oga bila idhini yake inaweza kuchukuliwa kuwa ukiukaji wa faragha ya mtu huyo, kukusanya taarifa nyeti-na kumbuka jinsi ngumu inaweza kuwa na uamuzi wa kile ambacho ni nyeti-bila idhini hujenga matatizo ya faragha. Nitarejea maswali kuhusu faragha katika sura ya 6.
Kwa kumalizia, vyanzo vya data kubwa, kama vile kumbukumbu za serikali na biashara za kumbukumbu, hazijatengenezwa kwa madhumuni ya utafiti wa kijamii. Vyanzo vya data kubwa vya leo, na labda kesho, huwa na sifa 10. Mali nyingi ambazo kwa ujumla huhesabiwa kuwa nzuri kwa ajili ya utafiti-kubwa, daima, na zisizo za kutosha-zinatoka na ukweli katika makampuni ya umri wa miaka na serikali zinaweza kukusanya data kwa kiwango ambacho haikuwezekana hapo awali. Na mali nyingi ambazo kwa ujumla huhesabiwa kuwa mbaya kwa ajili ya utafiti usio kamili, usioweza kupatikana, usio na uwakilishi, unasababishwa, unafadhaika kimya, hauwezi kufikirika, unaofikia na unaofaa-huja kutokana na ukweli kwamba data hizi hazikukusanywa na watafiti kwa watafiti. Hadi sasa, nimezungumzia data za serikali na biashara pamoja, lakini kuna tofauti kati ya hizo mbili. Katika uzoefu wangu, data ya serikali huelekea kuwa chini ya wasimamizi, chini ya algorithmically confounded, na chini drifting. Kwa upande mwingine, rekodi za utawala wa biashara huwa ni zaidi ya kila wakati. Kuelewa sifa hizi 10 kwa ujumla ni hatua ya kwanza ya kusaidia kuelekea kwenye vyanzo vya data kubwa. Na sasa tunageuka mikakati ya utafiti tunaweza kutumia na data hii.