Disa nga informacionet që kompanitë dhe qeveritë kanë është e ndjeshme.
Kompanitë e sigurimeve shëndetësore kanë informacion të hollësishëm për kujdesin mjekësor të marrë nga klientët e tyre. Ky informacion mund të përdoret për hulumtime të rëndësishme në lidhje me shëndetin, por nëse bëhet publike, mund të çojë në dëmtime emocionale (p.sh. siklet) ose dëm ekonomik (p.sh. humbje punësimi). Shumë burime të tjera të të dhënave gjithashtu kanë informacion që është i ndjeshëm , gjë që është pjesë e arsyes pse ato shpesh janë të paarritshme.
Për fat të keq, rezulton të jetë mjaft e ndërlikuar për të vendosur se cili informacion është në të vërtetë i ndjeshëm (Ohm 2015) , siç është ilustruar nga Çmimi Netflix. Siç do ta përshkruaj në kapitullin 5, në 2006 Netflix lëshoi 100 milionë ratings film të siguruara nga pothuajse 500,000 anëtarë dhe kishte një telefonatë të hapur ku njerëzit nga e gjithë bota paraqitnin algoritme që mund të përmirësonin aftësinë e Netflix për të rekomanduar filma. Para lëshimit të të dhënave, Netflix hoqi çdo informacion identifikimi të dukshëm personal, siç janë emrat. Por vetëm dy javë pas publikimit të të dhënave, Arvind Narayanan dhe Vitaly Shmatikov (2008) treguan se ishte e mundur të mësohej për vlerësimet e filmave të njerëzve të caktuar duke përdorur një mashtrim që do t'ju tregoja në kapitullin 6. Edhe pse një sulmues mund të zbulonte një vlerësimet e filmit të personit, ende nuk duket të jetë ndonjë gjë e ndjeshme këtu. Ndërsa kjo mund të jetë e vërtetë në përgjithësi, për të paktën disa nga 500,000 njerëz në grupin e të dhënave, ratings film ishin të ndjeshme. Në fakt, në përgjigje të lirimit dhe ri-identifikimit të të dhënave, një grua lezbike e mbyllur u bashkua me një padi në klasë kundër Netflix. Ja se si u shpreh problemi në këtë padi (Singel 2009) :
"Të dhënat dhe të dhënat e vlerësimit përmbajnë informacion të një natyre ... shumë personale dhe të ndjeshme. Të dhënat e filmit të anëtarit ekspozojnë interesin personal të një anëtari Netflix dhe / ose ballafaqohen me çështje të ndryshme personale, duke përfshirë seksualitetin, sëmundjet mendore, shërimin nga alkoolizmi dhe viktimizimin nga incesti, abuzimi fizik, dhuna në familje, kurorëshkelja dhe përdhunimi.
Ky shembull tregon se mund të ketë informacione që disa njerëz e konsiderojnë të ndjeshëm brenda asaj që mund të duket të jetë një bazë e mirë e të dhënave. Më tej, ajo tregon se një mbrojtje kryesore që hulumtuesit punësojnë për të mbrojtur të dhëna të ndjeshme - de-identifikimi - mund të dështojnë në mënyra të habitshme. Këto dy ide zhvillohen më hollësisht në kapitullin 6.
Gjëja e fundit që duhet mbajtur parasysh të dhënat e ndjeshme është se mbledhja e saj pa pëlqimin e njerëzve ngre pyetje etike, edhe nëse nuk shkaktohet ndonjë dëm specifik. Shumë sikur të shikosh dikë që të marrë një dush pa pëlqimin e tyre, mund të konsiderohet si një shkelje e privatësisë së atij personi, duke grumbulluar informacione të ndjeshme - dhe mos harroni se sa e vështirë mund të jetë të vendosni se çfarë është e ndjeshme - pa pëlqimin krijon shqetësime potenciale për privatësinë. Do të kthehem në pyetjet rreth privatësisë në kapitullin 6.
Në përfundim, burimet e mëdha të të dhënave, të tilla si të dhënat qeveritare dhe administrative të biznesit, në përgjithësi nuk krijohen për qëllime të kërkimit shoqëror. Burimet e mëdha të të dhënave sot, dhe të ngjarë që nesër, kanë tendencë të kenë 10 karakteristika. Shumë prej pronave që përgjithësisht konsiderohen të mira për hulumtime - të mëdha, gjithnjë në-dhe jo-aktive - vijnë nga fakti në kompanitë e moshës dixhitale dhe qeveritë janë në gjendje të mbledhin të dhëna në një shkallë që nuk ishte e mundur më parë. Dhe shumë prej pronave që përgjithësisht konsiderohen të jenë të këqija për kërkime të papërfunduara, të paarritshme, jo-përfaqësuese, të shkyçura, algoritmikisht të hutuara, të paarritshme, të pista dhe të ndjeshme vijnë nga fakti se këto të dhëna nuk u mblodhën nga studiuesit për kërkuesit. Deri më tani, unë kam folur së bashku për të dhënat e qeverisë dhe të biznesit, por ka disa dallime mes tyre. Në përvojën time, të dhënat e qeverisë tentojnë të jenë më pak jo përfaqësuese, më pak konfuzë në mënyrë algoritmike dhe më pak të zhvendosur. Nga ana tjetër, të dhënat administrative të biznesit kanë tendencë të jenë gjithmonë më shumë. Kuptimi i këtyre 10 karakteristikave të përgjithshme është një hap i parë i dobishëm drejt të mësuarit nga burimet e mëdha të të dhënave. Dhe tani i drejtohemi strategjive të kërkimit që mund t'i përdorim me këto të dhëna.