Ορισμένες από τις πληροφορίες ότι οι εταιρείες και οι κυβερνήσεις έχουν είναι ευαίσθητο.
εταιρείες ασφάλισης υγείας έχουν λεπτομερείς πληροφορίες σχετικά με την ιατρική περίθαλψη που έλαβε από τους πελάτες τους. Αυτή η πληροφορία θα μπορούσε να χρησιμοποιηθεί για τη σημαντική έρευνα για την υγεία, αλλά αν έγινε δημόσια ότι θα μπορούσε δυνητικά να οδηγήσει σε συναισθηματική βλάβη (π.χ., αμηχανία) και οικονομική ζημία (π.χ. απώλεια εργασίας). Μακριά από το διακριτικό, πολλές μεγάλες πηγές δεδομένων έχει πληροφορίες που είναι ευαίσθητο. Ο ευαίσθητος χαρακτήρας αυτών των πληροφοριών είναι μέρος του λόγου ότι οι μεγάλες πηγές δεδομένων είναι συχνά απρόσιτες (που περιγράφεται παραπάνω).
Ένας τρόπος που οι ερευνητές επιχειρούν να αντιμετωπίσουν αυτή την κατάσταση είναι να καταργήσουμε την ταυτότητα σύνολα δεδομένων που έχουν ευαίσθητες πληροφορίες. Αλλά, όπως θα σας δείξω λεπτομερώς στο Κεφάλαιο 6 (Ηθική) η προσέγγιση σοβαρά περιορισμένη με τρόπους που δεν είναι ευρέως εκτιμηθεί από τους δύο κοινωνικούς επιστήμονες και επιστήμονες δεδομένων.
Εν κατακλείδι, οι μεγάλες πηγές δεδομένων του σήμερα (και αύριο) έχουν γενικά δέκα χαρακτηριστικά. Πολλές από τις καλές ιδιότητες-μεγάλο, πάντα-on, και μη αντιδραστική-προέρχεται από το γεγονός στις επιχειρήσεις ψηφιακή εποχή και οι κυβερνήσεις είναι σε θέση να συλλέγουν δεδομένα σε μια κλίμακα που δεν ήταν δυνατό στο παρελθόν. Και, πολλές από τις κακές ιδιότητες-ατελής, απρόσιτη, μη αντιπροσωπευτικό, παρασυρόμενα, αλγοριθμικά συγχέονται, απρόσιτες, βρώμικο, και ευαίσθητα-προέρχεται από το γεγονός ότι τα δεδομένα δεν συλλέγονται από τους ερευνητές για τους ερευνητές. Κατανοώντας αυτά τα χαρακτηριστικά είναι ένα απαραίτητο πρώτο βήμα για την εκμάθηση από μεγάλες δεδομένα. Και, τώρα στρεφόμαστε στην έρευνα στρατηγικές που μπορούμε να χρησιμοποιήσουμε με αυτά τα δεδομένα.