Компаниялар мен үкіметтер бар екенін Кейбір мәліметтер сезімтал.
Медициналық сақтандыру компаниялары тұтынушылардан алған медициналық көмек туралы толық ақпарат алады. Бұл ақпарат денсаулығы туралы маңызды зерттеулер үшін пайдаланылуы мүмкін, бірақ егер ол жария болған болса, ол эмоциялық зиянды (мысалы, ыңғайсыздық) немесе экономикалық зиянды (мысалы, жұмыспен қамтуды жоғалтуға) әкелуі мүмкін. Көптеген басқа үлкен деректер көздерінде ақпараттар өте сезімтал , бұл олардың жиі қол жетімсіз болғандығының бір бөлігі.
Өкінішке орай, Netflix сыйлығымен суреттелгендей, қандай ақпарат шын мәнінде сезімтал екенін анықтау өте қиын (Ohm 2015) . 5-тарауда айтқанымдай, 2006 жылы Netflix 500,000-ға жуық мүшелерінің 100 миллион кинофильмін шығарды және бүкіл әлемдегі адамдар Netflix фильмдерін ұсынуға қабілеттілігін жақсарта алатын алгоритмдер ұсынған ашық қоңырау шалған. Деректерді шығармас бұрын, Netflix атаулар сияқты айқын жеке анықтайтын ақпаратты жойды. Алайда, Arvind Narayanan және Vitaly Shmatikov (2008) деректерін шығарғаннан кейін екі апта өткен соң, 6-тарауда көрсететін трюк арқылы белгілі бір адамдардың киноларының рейтингтерін білуге болатындығын көрсетті. Шабуылшы адамның кино рейтингісі болса да, мұнда әлі ештеңе сезімтал емес сияқты. Дегенмен, бұл шындыққа сәйкес болуы мүмкін, алайда кем дегенде 500 000 адамның деректер жиынтығындағы кинолардың рейтингтері сезімтал болды. Шындығында, деректерді босату және қайта сәйкестендіруге байланысты, жабық лесбияндық әйел Netflix-ке қарсы іс-әрекет кофесіне қосылды. Мәселе осы сот процесінде қалай айтылғаны туралы (Singel 2009) :
«[M] ovie және рейтингі деректерінде ... жоғары жеке және сезімтал сипаты туралы ақпарат бар. Қатысушы кинофильмі Netflix қатысушысының жеке қызығушылығын тудырады және / немесе сексуалдылық, психикалық аурулар, алкоголизмнен қалпына келтіру, инкассодан, физикалық зорлық-зомбылықтан, тұрмыстық зорлық-зомбылықтан, неке адалдығын бұзудан және зорлаудан құтылу сияқты әртүрлі жеке мәселелермен күреседі ».
Бұл мысалда кейбіреулердің жақсы деректер базасы ретінде көрінетін нәрселерді сезінетіні туралы ақпарат болуы мүмкін екенін көрсетеді. Бұдан басқа, зерттеушілер құпия деректерді де-идентификациялауды қорғау үшін жұмыс істейтін негізгі қорғаныс таңқаларлық жолмен сәтсіз болуы мүмкін екенін көрсетеді. Бұл екі идея 6-тарауда егжей-тегжейлі жасалды.
Сезімтал деректер туралы естен шығармаудың соңғы себебі - оны адамдардың келісімінсіз жинау этикалық мәселелерді көтереді, тіпті нақты зиян келтірілмесе де. Біреудің келісімінсіз душ қабылдағанын көру сияқты адамның құпиялылығының бұзылуы деп есептеледі, құпия ақпарат жинауды және құпиялылықты сақтауға қатысты мәселелерді келіспей-ақ, қандай сезімтал екенін анықтау өте қиын екенін еске түсіріңіз. 6-тараудағы құпиялылық туралы сұрақтарға қайта ораламын.
Қорытындылай келе, үкіметтік және іскери әкімшілік есептер сияқты үлкен дерек көздері әдетте әлеуметтік зерттеу мақсатында жасалмаған. Бүгінгі күні, және, бәлкім, ертеңгі күннің үлкен деректер көздері 10 сипаттамаға ие. Зерттеу үшін жақсы деп саналатын көптеген қасиеттер - үлкен, әрдайым және реакциясыз, сандық жастағы компаниялар мен үкіметтердің фактілерінен туындайды, бұған дейін мүмкін емес деректерді жинауға қабілетті. Зерттеушілер үшін зерттеудің толық емес, жетпейтін, репрезентативтік емес, ауытқуы, алгоритмдік шатастырылған, қол жетімсіз, лас және сезімтал болуы үшін әдетте зиянды болып саналатын көптеген қасиеттер зерттеушілер үшін бұл деректерді жинаған жоқ. Мен әлі күнге дейін үкімет пен іскерлік деректер туралы бір-бірімен сөйлесіп отырмын, бірақ олардың арасындағы кейбір айырмашылықтар бар. Менің тәжірибемдегі үкіметтің деректері аз репрезентативті емес, кем алгоритмдік түрде шатастырылып, азайған. Бір жағынан, іскери әкімшілік жазбалар үнемі жұмыс істей бастайды. Осы 10 жалпы сипаттаманы түсіну үлкен деректер көздерінен үйренуге көмектесетін алғашқы қадам болып табылады. Енді біз осы деректермен қолдануға болатын зерттеу стратегиясына жүгінеміз.