കമ്പനികളും സർക്കാരുകൾ ഉണ്ടെന്ന് ചില വിവരങ്ങൾ സെൻസിറ്റീവ് ആണ്.
ആരോഗ്യ ഇൻഷുറൻസ് കമ്പനികൾ അവരുടെ ഉപഭോക്താക്കൾ സ്വീകരിക്കുന്ന മെഡിക്കൽ പരിചരണത്തെക്കുറിച്ച് വിശദമായ വിവരങ്ങൾ നൽകുന്നു. ആരോഗ്യം സംബന്ധിച്ച സുപ്രധാന ഗവേഷണത്തിനായി ഈ വിവരങ്ങൾ ഉപയോഗപ്പെടുത്താമെങ്കിലും, അത് പൊതുവാണെങ്കിൽ, അത് വൈകാരികമായ ദോഷം (ഉദാഹരണത്തിന്, നാണംകെട്ടത്) അല്ലെങ്കിൽ സാമ്പത്തിക ദോഷം (ഉദാഹരണത്തിന്, തൊഴിൽ നഷ്ടം) എന്നിവയിലേയ്ക്ക് നയിച്ചേക്കാം. മറ്റു വലിയ ഡാറ്റാ സ്രോതസ്സുകളിൽ സെൻസിറ്റീവ് ആയ വിവരവും ഉണ്ട്, അവ പലപ്പോഴും ആക്സസ് ചെയ്യാൻ കഴിയാത്തതിൻറെ കാരണം തന്നെയാണ്.
നിർഭാഗ്യവശാൽ, നെറ്റ്ഫ്ക്സ് സമ്മാനം ചിത്രീകരിച്ചത് പോലെ യഥാർത്ഥത്തിൽ സെൻസിറ്റീവായ എന്തെല്ലാം തീരുമാനങ്ങൾ (Ohm 2015) തീരുമാനിക്കേണ്ടത് വളരെ കുഴപ്പമുണർത്തുന്നതായി മാറുന്നു. ഞാൻ അഞ്ചാം അദ്ധ്യായത്തിൽ വിവരിക്കുന്നതുപോലെ 2006 ൽ നെറ്റ്ഫ്ലിക്സ് ഏതാണ്ട് 500,000 അംഗങ്ങളുടെ 100 മില്യൺ മൂവി റേറ്റിംഗുകൾ പുറത്തിറക്കി. ലോകമെമ്പാടുമുള്ള ആളുകൾ സിനിമകൾ ശുപാർശ ചെയ്യാനുള്ള നെറ്റ്ഫ്ലിക്സിൻറെ കഴിവിനെ മെച്ചപ്പെടുത്തുന്നതിന് അൽഗോരിതം സമർപ്പിച്ചു. ഡാറ്റ റിലീസ് ചെയ്യുന്നതിനു മുമ്പ്, പേരുകൾ പോലുള്ള വ്യക്തമായി തിരിച്ചറിയാവുന്ന വിവരങ്ങളെ നെറ്റ്ഫിക്സ് നീക്കംചെയ്തു. പക്ഷേ, ഡാറ്റ പുറത്തിറങ്ങിയ രണ്ടാഴ്ച്ച കഴിഞ്ഞ് അരവിന്ദ് നാരായണൻ, വിറ്റാലി ഷമാറ്റിക്കോവ് (2008) കാണിച്ചുതന്നു. ചില ആളുകളുടെ സിനിമാ റേറ്റിംഗുകളെക്കുറിച്ച് അറിയാൻ കഴിയുമെന്ന് ഞാൻ തെളിയിച്ചിട്ടുണ്ട്. ഞാൻ നിങ്ങളെ ഒരു അധ്യായത്തിൽ കാണിക്കും. ഒരു ആക്രമണകാരിക്ക് വ്യക്തിയുടെ സിനിമാ റേറ്റിംഗ്, ഇപ്പോഴും ഇവിടെ സെൻസിറ്റീവ് ഒന്നും തോന്നുന്നില്ല. അത് പൊതുവായിരിക്കുമെങ്കിലും, ഡാറ്റാഗണത്തിലെ ഏതാണ്ട് 500,000 പേരെങ്കിലും, സിനിമാ റേറ്റിംഗ് സെൻസിറ്റീവ് ആയിരുന്നു. യഥാർഥത്തിൽ, ഡാറ്റയുടെ പ്രസിദ്ധീകരണവും വീണ്ടും തിരിച്ചറിവിനും വിധേയമായി, ഒരു വേശ്യാവൃത്തിയായ സ്ത്രീക്ക് നെറ്റ്ഫ്ലിക്സിനെതിരെ ഒരു ക്ലാസ്-ആക്ഷൻ സ്യൂട്ടിൽ ചേർന്നു. ഈ കേസിൽ ഈ പ്രശ്നം എങ്ങനെ വെളിപ്പെടുത്തിയിരിക്കുന്നുവെന്നാണ് (Singel 2009) :
"[എം] ഒവിയിലും റേറ്റിംഗ് ഡാറ്റയിലും അടങ്ങിയിരിക്കുന്ന വിവരങ്ങൾ വളരെ വ്യക്തിഗതവും സെൻസിറ്റീവുമായ സ്വഭാവമാണ്. ലൈംഗികത, മാനസിക രോഗങ്ങൾ, മദ്യപാനത്തിൽനിന്നുള്ള മോചനദ്രവ്യം, അഗമ്യത്തിൽ നിന്നുള്ള ഉപദ്രവങ്ങൾ, ശാരീരിക പീഡനം, ഗാർഹിക പീഡനം, വ്യഭിചാരം, ബലാത്സംഗം തുടങ്ങി നിരവധി വ്യക്തിപരമായ പ്രശ്നങ്ങളുള്ള ഒരു നെറ്റ്ഫ്ലിക്സ് അംഗത്തിന്റെ സ്വകാര്യ താത്പര്യവും / അല്ലെങ്കിൽ സമരവും അംഗങ്ങളുടെ ചിത്ര വിവരങ്ങൾ വെളിപ്പെടുത്തുന്നു.
ചില ആളുകൾ ഒരു ഏകാത്മക ഡാറ്റാബേസ് എന്നു തോന്നിയേക്കാവുന്ന തരത്തിൽ സെൻസിറ്റീവ് പരിഗണിക്കുന്ന വിവരങ്ങൾ ഉണ്ടെന്ന് ഈ ഉദാഹരണം കാണിക്കുന്നു. കൂടാതെ, സെൻസിറ്റീവ് ഡേറ്റയുടെ തിരിച്ചറിയൽ പരിരക്ഷിക്കാൻ ഗവേഷകർ കരുതിയിരുന്ന ഒരു പ്രധാന പ്രതിരോധം, അതിശയകരമായ വഴികളിൽ പരാജയപ്പെടാൻ ഇടയാക്കുന്നു എന്നാണ്. ഈ രണ്ട് ആശയങ്ങളും ആറാം അധ്യായത്തിൽ വിശദമായി വികസിപ്പിച്ചെടുക്കുന്നു.
സെൻസിറ്റീവ് ഡേറ്റയുടെ ഓർമ്മ നിലനിർത്താനുള്ള അവസാന സംഗതി, ജനങ്ങളുടെ സമ്മതമില്ലാതെ അത് ശേഖരിക്കുന്നത് ഒരു പ്രത്യേക ദോഷം സംഭവിച്ചിട്ടില്ലെങ്കിൽ പോലും, സദാചാര ചോദ്യങ്ങളെ ഉയർത്തിക്കാണിക്കുക എന്നതാണ്. അവരുടെ സമ്മതമില്ലാതെ ഒരു ഷവർ എടുക്കുന്ന ഒരാൾ ആ വ്യക്തിയുടെ സ്വകാര്യതയുടെ ലംഘനമായി കണക്കാക്കുകയും, സെൻസിറ്റീവായ വിവരങ്ങൾ ശേഖരിക്കുകയും ചെയ്തേക്കാം, ഒപ്പം രഹസ്യ സ്വഭാവം എന്താണെന്നത് തീരുമാനിക്കാൻ കഴിയുന്നത് എത്ര ബുദ്ധിമുട്ടാണ് എന്നത്-ഒരുപക്ഷേ സ്വകാര്യത സമ്മർദ്ദം സൃഷ്ടിക്കുന്നതിനുള്ള സമ്മതമില്ലാതെ. ഞാൻ സ്വകാര്യത സംബന്ധിച്ച 6-ാം അധ്യായത്തിലെ ചോദ്യങ്ങൾക്കുള്ളതാണ്.
സമാപനത്തിൽ, സർക്കാർ, ബിസിനസ് അഡ്മിനിസ്ട്രേഷൻ റെക്കോർഡുകൾ തുടങ്ങിയ വൻതോതിലുള്ള ഡാറ്റ സ്രോതസ്സുകൾ സാധാരണ ഗതിയിൽ സാമൂഹ്യ ഗവേഷണത്തിന് വേണ്ടി സൃഷ്ടിക്കപ്പെടുന്നില്ല. ഇന്നത്തെ വലിയ ഡാറ്റാ സ്രോതസ്സുകളും സാധ്യതയനുസരിച്ച് നാളെ 10 ഗുണങ്ങളും ഉണ്ട്. ഗവേഷണ-സുപ്രഭാതം, എല്ലായ്പ്പോഴും-നോൺ-നോൺ-ആക്ടിവിറ്റിക്കുള്ള, അനൗപചാരികമായ പല വസ്തുക്കളും, ഡിജിറ്റൽ യുഗത്തിലെ കമ്പനികളിൽ നിന്നും ഗവൺമെൻറുകളിൽ നിന്നും നേരത്തെ തന്നെ സാധ്യമല്ലാത്ത അളവിൽ ഡാറ്റ ശേഖരിക്കാൻ സാധിക്കും. ഗവേഷകരുടെ ഗവേഷകർ ഈ ശേഖരം ശേഖരിച്ചില്ല എന്ന വസ്തുതയിൽ നിന്ന് പലതും ഗവേഷണ-അപൂർണമായ, പ്രവേശിക്കാനാകാത്തതും, രേഖപ്പെടുത്താത്തതും, തിരക്കുകീഴിൽ, അൽഗോരിഥാമൂവപരമായും ആശയക്കുഴപ്പത്തിലായതും, ആക്സസ് ചെയ്യാനാവാത്തതും, വൃത്തികെട്ടതും, സെൻസിറ്റീവ് ആയതുമാണ്. ഇതുവരെ, ഞാൻ ഗവൺമെന്റും ബിസിനസ് ഡാറ്റയും ഒന്നിച്ചു സംസാരിച്ചിട്ടുണ്ട്, എന്നാൽ രണ്ടുപേരും തമ്മിൽ ചില വ്യത്യാസങ്ങൾ ഉണ്ട്. എന്റെ അനുഭവത്തിൽ ഗവൺമെൻറ് ഡാറ്റ വളരെ കുറവല്ലാത്തതും അൽഗോരിതംകൊണ്ടുള്ള ആശയക്കുഴപ്പം കുറവും കുറവുള്ളതും കുറവുമാണ്. മറുവശത്ത്, ബിസിനസ്സ് അഡ്മിനിസ്ട്രേറ്റീവ് റെക്കോർഡുകൾ കൂടുതൽ എല്ലായ്പ്പോഴും തുടരുകയാണ്. ഈ 10 പൊതു സവിശേഷതകൾ മനസിലാക്കുന്നത് വലിയ ഡാറ്റാ ഉറവിടങ്ങളിൽ നിന്ന് പഠനത്തിന് സഹായകരമായ ഒരു ആദ്യപടിയാണ്. ഇപ്പോൾ നമ്മൾ ഈ ഡാറ്റ ഉപയോഗിച്ച് ഉപയോഗിക്കാൻ കഴിയുന്ന ഗവേഷണതന്ത്രങ്ങളിലേക്ക് തിരിയുന്നു.