માહિતી કંપનીઓ અને સરકારો હોય છે કે કેટલાક સંવેદનશીલ છે.
આરોગ્ય વીમા કંપનીઓ પાસે તેમના ગ્રાહકો દ્વારા મળેલી તબીબી સંભાળ વિશે વિગતવાર માહિતી છે. આ માહિતીનો સ્વાસ્થ્ય વિશે મહત્વપૂર્ણ સંશોધન માટે ઉપયોગ થઈ શકે છે, પરંતુ જો તે જાહેર થઈ જાય, તો તે સંભવિત રૂપે લાગણીશીલ નુકસાન (દા.ત. શરમજનક) અથવા આર્થિક નુકસાન (દા.ત. રોજગાર ગુમાવવી) તરફ દોરી શકે છે. ઘણાં અન્ય મોટા ડેટા સ્રોતોમાં પણ એવી માહિતી હોય છે જે સંવેદનશીલ હોય છે , જે તે કારણનો ભાગ છે કે શા માટે તેઓ વારંવાર અપ્રાપ્ય છે.
કમનસીબે, તે નક્કી કરવા માટે તદ્દન મુશ્કેલ છે કે કઈ માહિતી ખરેખર સંવેદનશીલ છે (Ohm 2015) , જેમ કે Netflix Prize દ્વારા સમજાવવામાં આવ્યું હતું હું પ્રકરણ 5 માં વર્ણન કરું છું તેમ, 2006 માં, નેટફ્લિક્સે લગભગ 500,000 સભ્યો દ્વારા પ્રદાન કરેલ 100 મિલિયન મૂવી રેટિંગ્સ રિલીઝ કર્યા હતા અને એક ખુલ્લો કૉલ કર્યો હતો જ્યાં સમગ્ર વિશ્વમાં લોકો એલ્ગોરિધમ્સ સબમિટ કરે છે કે જે ફિલ્મોની ભલામણ કરવા માટે Netflix ની ક્ષમતાને સુધારી શકે છે. ડેટા બહાર પાડતા પહેલા, નેટફ્લિક્સે કોઈ પણ સ્પષ્ટ રૂપે ઓળખી શકાય તેવી માહિતી, જેમ કે નામો દૂર કર્યા. પરંતુ, માહિતી પ્રકાશિત થયા બાદ માત્ર બે અઠવાડિયા અરવિંદ નારાયણન અને વિટ્ટા શમેટિકોવ (2008) દર્શાવ્યું હતું કે પ્રકરણ 6 માં દર્શાવતી યુક્તિ દ્વારા ચોક્કસ લોકોની મૂવી રેટિંગ્સ વિશે શીખવું શક્ય હતું. વ્યક્તિની મૂવી રેટિંગ્સ, હજી પણ અહીં સંવેદનશીલ નથી લાગતું. તે સામાન્ય રીતે સાચી હોઈ શકે છે, જ્યારે ડેટાસેટમાં ઓછામાં ઓછા 500,000 લોકોમાંના કેટલાક, ફિલ્મ રેટિંગ્સ સંવેદનશીલ હતા. વાસ્તવમાં, ડેટાના પ્રકાશન અને પુનઃ-ઓળખના પ્રતિભાવમાં, એક સસલું લેસ્બિયન લેડી મહિલા નેટફિલ્ક્સ સામે ક્લાસ એક્શન સ્યુટમાં જોડાઈ. આ મુકદ્દમામાં સમસ્યા કેવી રીતે વ્યક્ત કરવામાં આવી છે તે અહીં છે (Singel 2009) :
"[એમ] ઓવી અને રેટિંગ ડેટામાં ... અત્યંત વ્યક્તિગત અને સંવેદનશીલ પ્રકૃતિની માહિતી છે. સદસ્યની મૂવી માહિતી Netflix સભ્યના વ્યક્તિગત હિત અને / અથવા જાતિયતા, માનસિક બીમારી, મદ્યપાનમાંથી પુનઃપ્રાપ્તિ, વ્યભિચાર, શારીરિક દુર્વ્યવહાર, ઘરેલું હિંસા, વ્યભિચાર, અને બળાત્કારનો ભોગ બનનાર સહિત અત્યંત મહત્વપૂર્ણ વ્યક્તિગત મુદ્દાઓ સાથે સંઘર્ષ કરે છે. "
આ ઉદાહરણ બતાવે છે કે એવી માહિતી હોઇ શકે છે કે જે કેટલાક લોકો સૌમ્ય ડેટાબેઝમાં દેખાશે તે અંગેની સંવેદનશીલતાને ધ્યાનમાં લે છે. વધુમાં, તે દર્શાવે છે કે સંશોધકોએ એક મુખ્ય સંરક્ષણ કે જેણે સંવેદનશીલ ડેટા-ડિ-આઇડેન્ટીકેશનનું રક્ષણ કરવું છે - આશ્ચર્યજનક રીતે નિષ્ફળ થઈ શકે છે. આ બે વિચારો પ્રકરણ 6 માં વધારે વિગતવાર વિકસિત થયા છે.
સંવેદનશીલ ડેટા વિશે ધ્યાનમાં રાખવા માટે અંતિમ બાબત એ છે કે તે લોકોની સંમતિ વિના એકત્ર કરે છે નૈતિક પ્રશ્નો ઉભા કરે છે, પછી ભલે કોઈ ચોક્કસ નુકસાન ન થાય. સંવેદનશીલ માહિતીને એકઠું કરનાર કોઈ વ્યક્તિને તેમની સંમતિ વિના સ્નાન લેવાનું જોવું ગમે છે-સંવેદનશીલ માહિતી એકઠી કરે-અને યાદ રાખો કે સંવેદનશીલતા વગર સંવેદનશીલતા શું છે તે સંભવિત ગોપનીયતા ચિંતા બનાવે છે પ્રકરણ 6 માં હું ગોપનીયતા વિશેના પ્રશ્નો પર પાછા આવીશ.
નિષ્કર્ષમાં, મોટા માહિતી સ્ત્રોતો, જેમ કે સરકારી અને વ્યવસાયિક વહીવટી રેકોર્ડ્સ સામાન્ય રીતે સામાજિક સંશોધનના ઉદ્દેશ્ય માટે બનાવવામાં આવતા નથી. આજે મોટા ડેટા સ્રોત અને સંભવિત કાલે, 10 લાક્ષણિકતાઓ ધરાવે છે મોટાભાગની મિલકતો સંશોધન-મોટું, હંમેશાં, અને બિન-સક્રિય-માટે સારી માનવામાં આવે છે- ડિજિટલ વયની કંપનીઓ અને સરકારોમાં હકીકતમાંથી આવવું તે શક્ય તેટલા પ્રમાણમાં ડેટા એકત્રિત કરવામાં સક્ષમ છે. અને ઘણી બધી મિલકતો સંશોધન-અપૂર્ણ, અપ્રાપ્ય, અવિનયી, ડ્રિફ્ટિંગ, એલ્ગોરિધમિકલી ગૂંચવણ, અપ્રાપ્ય, ગંદી અને સંવેદનશીલ માટે સામાન્ય રીતે માનવામાં આવે છે તે હકીકતથી સંશોધકો માટે આ માહિતી એકત્રિત કરવામાં આવી નથી. અત્યાર સુધી, મેં સરકારી અને વ્યવસાય ડેટા સાથે મળીને વાત કરી છે, પરંતુ બે વચ્ચેના કેટલાક તફાવતો છે. મારા અનુભવમાં, સરકારી આંકડા ઓછો પ્રતિનિધિત્વ કરે છે, ઓછા ગાણિતિક રીતે શંકાસ્પદ છે, અને ઓછા પ્રવાહ. એક બીજી બાજુ, વ્યવસાયિક વહીવટી રેકોર્ડ્સ હંમેશાં ચાલુ રહે છે. આ 10 સામાન્ય લાક્ષણિક્તાઓને સમજવું મોટા ડેટા સ્ત્રોતોમાંથી શીખવાની દિશામાં સહાયરૂપ પ્રથમ પગલું છે. અને હવે અમે આ માહિતી સાથે ઉપયોગ કરી શકીએ છીએ તે સંશોધન વ્યૂહરચનાઓ તરફ ફરીએ છીએ.