Ορισμένες από τις πληροφορίες ότι οι εταιρείες και οι κυβερνήσεις έχουν είναι ευαίσθητο.
Οι ασφαλιστικές εταιρείες υγείας έχουν αναλυτικές πληροφορίες σχετικά με την ιατρική περίθαλψη που έλαβαν οι πελάτες τους. Αυτές οι πληροφορίες θα μπορούσαν να χρησιμοποιηθούν για σημαντική έρευνα για την υγεία, αλλά αν γινόταν δημόσια, θα μπορούσε να οδηγήσει ενδεχομένως σε συναισθηματική βλάβη (π.χ. αμηχανία) ή οικονομική βλάβη (π.χ. απώλεια απασχόλησης). Πολλές άλλες μεγάλες πηγές δεδομένων διαθέτουν επίσης πληροφορίες ευαίσθητες , οι οποίες αποτελούν μέρος του λόγου για τον οποίο είναι συχνά απρόσιτες.
Δυστυχώς, αποδεικνύεται πολύ δύσκολο να αποφασιστεί ποια πληροφορία είναι πραγματικά ευαίσθητη (Ohm 2015) , όπως έδειξε το βραβείο Netflix. Όπως θα περιγράψω στο κεφάλαιο 5, το 2006 η Netflix κυκλοφόρησε 100 εκατομμύρια βαθμολογίες ταινιών από σχεδόν 500.000 μέλη και είχε μια ανοιχτή κλήση όπου άνθρωποι από όλο τον κόσμο υπέβαλαν αλγόριθμους που θα μπορούσαν να βελτιώσουν την ικανότητα του Netflix να προτείνει ταινίες. Πριν από την απελευθέρωση των δεδομένων, η Netflix αφαιρέθηκε κάθε προφανή προσωπική ταυτότητα, όπως ονόματα. Αλλά μόλις δύο εβδομάδες μετά την απελευθέρωση των δεδομένων, οι Arvind Narayanan και Vitaly Shmatikov (2008) έδειξαν ότι ήταν δυνατό να μάθουμε για τις βαθμολογίες ταινιών συγκεκριμένων ανθρώπων χρησιμοποιώντας ένα τέχνασμα που θα σας δείξω στο κεφάλαιο 6. Παρόλο που ένας εισβολέας θα μπορούσε να ανακαλύψει βαθμολογίες ταινιών ενός ατόμου, εξακολουθεί να μην φαίνεται τίποτα ευαίσθητο εδώ. Ενώ αυτό μπορεί να ισχύει εν γένει, για τουλάχιστον μερικά από τα 500.000 άτομα του συνόλου δεδομένων, οι αξιολογήσεις ταινιών ήταν ευαίσθητες. Στην πραγματικότητα, ως απόκριση στην απελευθέρωση και την επαναπροσδιορισμό των δεδομένων, μια κλειστή λεσβιακή γυναίκα εντάχθηκε σε μια αγωγή κατηγορίας-δράσης εναντίον της Netflix. Δείτε πώς το πρόβλημα εκφράστηκε σε αυτήν την αγωγή (Singel 2009) :
"Τα δεδομένα [M] ovie και αξιολόγησης περιέχουν πληροφορίες με ... πολύ προσωπικό και ευαίσθητο χαρακτήρα. Τα δεδομένα ταινίας του μέλους εκθέτουν το προσωπικό συμφέρον του μέλους του Netflix ή / και αγωνίζονται με διάφορα ιδιαίτερα προσωπικά ζητήματα, όπως η σεξουαλικότητα, η ψυχική ασθένεια, η αποκατάσταση από τον αλκοολισμό και η θυματοποίηση από την αιμομιξία, τη σωματική κακοποίηση, την ενδοοικογενειακή βία, τη μοιχεία και τον βιασμό ».
Αυτό το παράδειγμα δείχνει ότι μπορεί να υπάρχουν πληροφορίες που μερικοί άνθρωποι θεωρούν ευαίσθητες μέσα σε κάτι που φαίνεται να είναι μια καλοήθη βάση δεδομένων. Περαιτέρω, δείχνει ότι μια κύρια υπεράσπιση που χρησιμοποιούν οι ερευνητές για την προστασία ευαίσθητων δεδομένων-de-identification-μπορεί να αποτύχει με εκπληκτικούς τρόπους. Αυτές οι δύο ιδέες αναπτύσσονται λεπτομερέστερα στο κεφάλαιο 6.
Το τελευταίο πράγμα που πρέπει να θυμάστε σχετικά με τα ευαίσθητα δεδομένα είναι ότι η συλλογή τους χωρίς τη συγκατάθεση των πολιτών δημιουργεί ηθικές ερωτήσεις, ακόμη και αν δεν προκληθεί καμία ειδική βλάβη. Το να παρακολουθεί κανείς ένα ντους χωρίς τη συγκατάθεσή του μπορεί να θεωρηθεί παραβίαση του απορρήτου αυτού του ατόμου, συλλέγοντας ευαίσθητες πληροφορίες - και να θυμάστε πόσο δύσκολο είναι να αποφασίσετε τι είναι ευαίσθητο - χωρίς συγκατάθεση δημιουργεί πιθανές ανησυχίες για την προστασία της ιδιωτικής ζωής. Θα επανέλθω σε ερωτήσεις σχετικά με την προστασία της ιδιωτικής ζωής στο κεφάλαιο 6.
Συμπερασματικά, οι μεγάλες πηγές δεδομένων, όπως τα κυβερνητικά και επιχειρησιακά αρχεία, γενικά δεν δημιουργούνται για σκοπούς κοινωνικής έρευνας. Οι μεγάλες πηγές δεδομένων του σήμερα, και πιθανώς αύριο, τείνουν να έχουν 10 χαρακτηριστικά. Πολλές από τις ιδιότητες που θεωρούνται γενικά καλές για έρευνα - μεγάλες, πάντοτε και μη αντιδραστικές - προέρχονται από το γεγονός ότι οι εταιρείες ψηφιακής εποχής και οι κυβερνήσεις είναι σε θέση να συλλέγουν δεδομένα σε κλίμακα που δεν ήταν δυνατή προηγουμένως. Και πολλές από τις ιδιότητες που θεωρούνται γενικά κακές για την έρευνα - ελλιπείς, απρόσιτες, μη αντιπροσωπευτικές, παρασυρόμενες, αλγοριθμικά συγκεχυμένες, απρόσιτες, βρώμικες και ευαίσθητες - προέρχονται από το γεγονός ότι τα δεδομένα αυτά δεν συλλέχθηκαν από ερευνητές για ερευνητές. Μέχρι στιγμής, μίλησα για κυβερνητικά και επιχειρηματικά δεδομένα μαζί, αλλά υπάρχουν κάποιες διαφορές μεταξύ των δύο. Από την εμπειρία μου, τα κυβερνητικά δεδομένα τείνουν να είναι λιγότερο μη αντιπροσωπευτικά, λιγότερο αλγοριθμικά συγκεχυμένα και λιγότερο παρασυρόμενα. Από την άλλη πλευρά, τα διοικητικά αρχεία επιχειρήσεων τείνουν να είναι πιο πάντοτε. Η κατανόηση αυτών των 10 γενικών χαρακτηριστικών είναι ένα χρήσιμο πρώτο βήμα προς την εκμάθηση από μεγάλες πηγές δεδομένων. Και τώρα στραφούμε σε ερευνητικές στρατηγικές που μπορούμε να χρησιμοποιήσουμε με αυτά τα δεδομένα.