ზოგიერთი ინფორმაცია, რომ კომპანიებმა და მთავრობებმა მგრძნობიარეა.
ჯანმრთელობის დაზღვევის კომპანიებს აქვთ დეტალური ინფორმაცია კლიენტის მიერ მიღებული სამედიცინო მომსახურების შესახებ. ეს ინფორმაცია შეიძლება გამოყენებულ იქნას ჯანმრთელობის შესახებ მნიშვნელოვან კვლევებზე, მაგრამ თუ საზოგადოება გახდა, ეს შეიძლება გამოიწვიოს ემოციური ზიანი (მაგალითად, არეულობის) ან ეკონომიკური ზიანი (მაგ. დასაქმების დაკარგვა). ბევრ სხვა დიდ მონაცემთა წყაროს ასევე გააჩნია ინფორმაცია, რომელიც მგრძნობიარეა , რაც იმას ნიშნავს, რომ ისინი ხშირად მიუწვდომელია.
სამწუხაროდ, აღმოჩნდება საკმაოდ მწვავე გადასაწყვეტი, რა ინფორმაცია რეალურად მგრძნობიარეა (Ohm 2015) , როგორც ეს იყო ნაჩვენები Netflix Prize. როგორც მე 5-ე თავში ვწერდი, 2006 წელს Netflix- მა გამოუშვა 100 მილიონი ფილმის რეიტინგი, რომელსაც 500 000-ზე მეტი წევრი ჰყავდა და ღია ზარი ჰქონდა, სადაც მსოფლიოს ყველა ხალხმა წარმოადგინა ალგორითმები, რომლებმაც შეიძლება გააუმჯობესონ Netflix- ს რეკომენდაციები. მონაცემთა გათავისუფლების დაწყებამდე Netflix ამოიღეს რაიმე აშკარა პირადობის საიდენტიფიკაციო ინფორმაცია, როგორიცაა სახელები. თუმცა, ორი კვირის შემდეგ მონაცემები გაათავისუფლეს არვინდ ნარკოიანმა და ვიტალი შმატიკოვმა (2008) აჩვენეს, რომ შესაძლებელი იყო კონკრეტული ადამიანების ფილმების რეიტინგების შესახებ გაეცნოთ, რომ მე გამოხატავ თავი მე -6 თავში. მიუხედავად იმისა, რომ თავდამსხმელს შეეძლო აღმოჩენა პიროვნების ფილმების რეიტინგები, აქ ჯერ კიდევ არ არის მგრძნობიარე. მიუხედავად იმისა, რომ ეს შეიძლება იყოს ჭეშმარიტი ზოგადად, მინიმუმ დაახლოებით 500,000 ადამიანი მონაცემთა ნაკრებს, ფილმის რეიტინგები იყო მგრძნობიარე. სინამდვილეში, მონაცემების გათავისუფლებისა და ხელახლა იდენტიფიცირების საპასუხოდ, დახურულ ლესბოსელ ქალბატონს შეუერთდა კლას-მოქმედების სარჩელი Netflix- ს წინააღმდეგ. აი, როგორ გამოიკვეთა პრობლემა ამ სარჩელში (Singel 2009) :
"[M] ovie და სარეიტინგო მონაცემები შეიცავს ინფორმაციას ... უაღრესად პირადი და მგრძნობიარე ბუნება. წევრი ფილმის მონაცემები ასახავს Netflix- ის პირად ინტერესს და / ან ებრძვის სხვადასხვა უაღრესად პერსონალურ საკითხებს, მათ შორის სექსუალობას, ფსიქიკურ ავადმყოფობას, ალკოჰოლიზმისგან აღდგენას და ინვალიდობის, ფიზიკური შეურაცხყოფის, ოჯახური ძალადობის, მრუშობისა და გაუპატიურების მსხვერპლს.
ეს მაგალითი გვიჩვენებს, რომ შეიძლება არსებობდეს ინფორმაცია, რომ ზოგიერთი ადამიანი მიიჩნევს მგრძნობიარე შიგნით, რაც, როგორც ჩანს, კეთილსინდისიერი მონაცემთა ბაზაა. გარდა ამისა, ის გვიჩვენებს, რომ მთავარი დაცვა, რომელიც მკვლევარს ემსახურება, მგრძნობიარე მონაცემების დაცვა-დე-იდენტიფიკაციის დაცვა შეუძლია, ვერც ერთი გასაკვირი გზაა. ეს ორი იდეა მე -6 თავში უფრო დეტალურად არის შემუშავებული.
მგრძნობიარე მონაცემების შესახებ მხედველობიდან გამომდინარე, ის არის, რომ ხალხის თანხმობის გარეშე შეგროვება ეთიკური კითხვების ბრუნვას იწვევს, თუნდაც კონკრეტული ზიანის მიყენება. უფრო მეტად, როგორიც უყურებს ვინმეს უყურებს შხაპის მიღებას მათი თანხმობის გარეშე, შეიძლება ჩაითვალოს ამ პიროვნების კონფიდენციალურობის დარღვევით, მგრძნობიარე ინფორმაციის შეგროვებასა და გახსოვდეთ, თუ რამდენად რთულია ის, თუ რა არის მგრძნობიარე, თანხმობის გარეშე. მე დავბრუნდები კითხვებზე კონფიდენციალურობის შესახებ მე -6 თავში.
დასასრულს, დიდი მონაცემთა წყაროები, როგორიცაა სახელმწიფო და ბიზნეს ადმინისტრაციული ჩანაწერები, საერთოდ არ არის შექმნილი სოციალური კვლევის მიზნით. დღევანდელი დიდი მონაცემების წყარო და სავარაუდოდ ხვალ, 10 თვისს აქვს. ბევრი თვისებები, რომლებიც ზოგადად მიიჩნევა კვლევისთვის დიდი, მუდმივად, და არარეაქტიური, ის ფაქტი, რომ ციფრულ ასაკობრივ კომპანიებსა და მთავრობებს შეუძლიათ შეძლონ მონაცემთა შეგროვება მასშტაბით, რომელიც ადრე არ იყო შესაძლებელი. და ბევრი ისეთი თვისება, რომელიც ზოგადად განიხილება კვლევის არასრული, მიუწვდომელი, არაპროფესიონალური, დრიფტის, ალგორითმულად დამაბნეველი, მიუწვდომელი, ბინძური და მგრძნობიარეა, რადგან ეს მონაცემები მკვლევართა მკვლევარების მიერ არ შეგროვდა. ჯერჯერობით, მე ვისაუბრე მთავრობასთან და ბიზნეს-მონაცემებთან ერთად, მაგრამ ორი განსხვავებაა. ჩემი გამოცდილებიდან გამომდინარე, სამთავრობო მონაცემები ნაკლებად უპრეცედენტოა, ნაკლებად ალგორითმურად დაიბნევა და ნაკლებად დრიფტი. მეორე მხრივ, ბიზნეს ადმინისტრაციული ჩანაწერები უფრო ხშირად იწყება. ამ 10 ზოგადი მახასიათებლის გააზრება არის სასარგებლო პირველი ნაბიჯი დიდი მონაცემთა წყაროდან სწავლისკენ. ახლა ჩვენ მივმართავთ კვლევის სტრატეგიას, რომელსაც ჩვენ შეგვიძლია გამოვიყენოთ ეს მონაცემები.