Δεδομένα που τηρούνται από τις επιχειρήσεις και τις κυβερνήσεις είναι δύσκολο για τους ερευνητές να έχουν πρόσβαση.
Τον Μάιο του 2014, η αμερικανική Εθνική Ατζέντα Ασφαλείας άνοιξε ένα κέντρο δεδομένων στις αγροτικές Γιούτα που έχει μια αμήχανη όνομα, η Intelligence Κοινότητα ολοκληρωμένη εθνική ασφάλεια στον κυβερνοχώρο Πρωτοβουλία Κέντρο Δεδομένων. Ωστόσο, αυτό το κέντρο δεδομένων, η οποία έχει γίνει γνωστή ως το Data Center της Γιούτα, φέρεται να έχει εκπληκτική δυνατότητες. Μια έκθεση ισχυρίζεται ότι το Data Center της Γιούτα είναι σε θέση να αποθηκεύσει και να επεξεργαστεί όλες τις μορφές επικοινωνίας, συμπεριλαμβανομένων των "όλο το περιεχόμενο των ιδιωτικών μηνυμάτων ηλεκτρονικού ταχυδρομείου, κινητό τηλέφωνο κλήσεις, και τις αναζητήσεις της Google, καθώς και όλα τα είδη των προσωπικών δεδομένων τα έσοδα μονοπάτια στάθμευσης, ταξιδιωτικά δρομολόγια , οι αγορές βιβλιοπωλείο, και άλλες ψηφιακές `σκουπίδια τσέπης» (Bamford 2012) . Εκτός από τις εγείροντας ανησυχίες για την ευαίσθητη φύση του μεγάλο μέρος των πληροφοριών δεν σταματούν σε μεγάλα στοιχεία, τα οποία θα περιγραφούν πιο κάτω, το Data Center της Γιούτα είναι ένα ακραίο παράδειγμα ενός πλούσια πηγή δεδομένων που είναι απρόσιτες για τους ερευνητές. Γενικότερα, πολλές πηγές των μεγάλων στοιχείων που θα ήταν χρήσιμο να είναι ερευνητές που ελέγχεται και περιορίζεται από τις κυβερνήσεις (π.χ. φορολογικά δεδομένα και εκπαιδευτικά δεδομένα) και των επιχειρήσεων (π.χ., ερωτήματα για κινητήρες και τηλεφώνημα μετα-δεδομένων αναζήτησης). Ως εκ τούτου, τα στοιχεία αυτά δεν θα είναι άμεσα διαθέσιμα στους ερευνητές στα πανεπιστήμια, και οι περισσότεροι δεν θα είναι καν στη διάθεση των ερευνητών στις κυβερνήσεις ή εταιρείες.
Στην εμπειρία μου, πολλοί ερευνητές βασίζονται σε πανεπιστήμια παρανοούν την πηγή αυτής της δύσκολης πρόσβασης. Αυτά τα στοιχεία δεν είναι απρόσιτο γιατί οι άνθρωποι σε εταιρείες και κυβερνήσεις είναι ηλίθιοι, τεμπέληδες, ή αδιάφορος. Αντίθετα, υπάρχουν σοβαρές νομικές, τεχνικές, επαγγελματικές και ηθικές φραγμών που εμποδίζουν την πρόσβαση στα δεδομένα. Για παράδειγμα, ορισμένοι όροι-of-service συμφωνίες για τις ιστοσελίδες επιτρέπουν μόνο στοιχεία που πρέπει να χρησιμοποιούνται από τους υπαλλήλους ή για τη βελτίωση της υπηρεσίας. Έτσι, ορισμένες μορφές της ανταλλαγής των δεδομένων θα μπορούσε να εκθέσει τις εταιρείες να νόμιμους αγωγές από τους πελάτες. Υπάρχουν, επίσης, σημαντικές επιχειρηματικές τους κινδύνους για τις εταιρείες που εμπλέκονται στην ανταλλαγή δεδομένων. Προσπαθήστε να φανταστείτε πώς το κοινό θα ανταποκριθεί εάν τα προσωπικά δεδομένα αναζήτηση τυχαία διαρρεύσει από το Google, ως μέρος ενός πανεπιστημιακού ερευνητικού έργου. Μια τέτοια παραβίαση δεδομένων, αν ακραία, ίσως ακόμη και να είναι ένα υπαρξιακό κίνδυνο για την εταιρεία. Έτσι, η Google και οι περισσότερες μεγάλες εταιρείες-είναι πολύ αποστρέφονται τον κίνδυνο για την ανταλλαγή δεδομένων με τους ερευνητές.
Στην πραγματικότητα, σχεδόν όλοι όσοι είναι σε θέση να παρέχουν πρόσβαση σε μεγάλες ποσότητες δεδομένων γνωρίζουν την ιστορία του Αμπντούρ Chowdhury. Το 2006, όταν ήταν ο επικεφαλής της έρευνας AOL, ο απελευθερώνονται σκόπιμα τι σκέφτηκε ήταν ανώνυμα ερωτήματα αναζήτησης από 650.000 χρήστες της AOL με την ερευνητική κοινότητα. Σε ό, τι μπορώ να πω, Chowdhury και οι ερευνητές στο AOL είχε καλές προθέσεις και νόμιζαν ότι είχαν ανώνυμα τα δεδομένα. Αλλά, ήταν λάθος. Ήταν γρήγορα ανακάλυψε ότι τα στοιχεία δεν ήταν τόσο ανώνυμα και οι ερευνητές πίστευαν, και δημοσιογράφοι από την εφημερίδα New York Times, ήταν σε θέση να προσδιορίσει τους ανθρώπους στο σύνολο δεδομένων με ευκολία (Barbaro and Zeller Jr 2006) . Μόλις ανακαλύφθηκαν τα προβλήματα αυτά, Chowdhury αφαιρεθεί τα στοιχεία από την ιστοσελίδα της AOL, αλλά ήταν πολύ αργά. Τα δεδομένα που είχαν αναδημοσιευθούν σε άλλους δικτυακούς τόπους, και θα εξακολουθεί να είναι μάλλον διαθέσιμα όταν διαβάζετε αυτό το βιβλίο. Λόγω της προσπάθειας του να μοιράζονται δεδομένα με την ερευνητική κοινότητα, Chowdhury απολύθηκε, και παραιτήθηκε ο επικεφαλής αξιωματικός της τεχνολογίας της AOL (Hafner 2006) . Όπως δείχνει αυτό το παράδειγμα, τα οφέλη για συγκεκριμένα άτομα μέσα από τις εταιρείες να διευκολύνει την πρόσβαση των δεδομένων είναι αρκετά μικρό και το χειρότερο σενάριο είναι τρομερό.
Η έρευνα μπορεί, ωστόσο, να αποκτήσουν πρόσβαση στα δεδομένα που είναι απρόσιτα στο ευρύ κοινό. Οι κυβερνήσεις έχουν διαδικασίες που οι ερευνητές μπορούν να ακολουθήσουν για να υποβάλουν αίτηση για την πρόσβαση, και όπως τα παραδείγματα αργότερα σε αυτό το κεφάλαιο δείχνουν, οι ερευνητές μπορεί περιστασιακά να αποκτήσουν πρόσβαση σε εταιρικά δεδομένα. Για παράδειγμα, Einav et al. (2015) συνεργάζεται με έναν ερευνητή στο eBay για να μελετήσει τα ψηφιακά ίχνη από ηλεκτρονικές δημοπρασίες. Θα μιλήσουμε περισσότερο για την έρευνα που προήλθε από τη συνεργασία αυτή αργότερα στο κεφάλαιο (Ενότητα 2.4.3.2), αλλά εγώ το αναφέρω τώρα, γιατί είχε και τα τέσσερα από τα συστατικά που βλέπω σε επιτυχημένες συνεργασίες: το ενδιαφέρον των ερευνητών, την ικανότητα των ερευνητών, συμφέρον της εταιρείας, και την ικανότητα της εταιρείας. Με άλλα λόγια, Einav και οι συνεργάτες του ήταν ενδιαφέρονται και ικανός να σπουδάζουν σε απευθείας σύνδεση δημοπρασίες. Και, το eBay ήταν επίσης. Ωστόσο, έχω δει πολλές πιθανή συνεργασία αποτυγχάνουν, επειδή είτε ο ερευνητής ή η εταιρεία δεν διέθετε ένα από αυτά τα συστατικά.
Ακόμα και αν είστε σε θέση να αναπτύξει μια συνεργασία με μια επιχείρηση, όμως, υπάρχουν κάποια μειονεκτήματα για εσάς. Κατ 'αρχάς, οι ερωτήσεις που μπορείτε να ζητήσετε με τα δεδομένα που ενδέχεται να είναι περιορισμένη? εταιρείες είναι απίθανο να επιτρέψει την έρευνα που θα μπορούσε να τους κάνει να φαίνονται άσχημα. Δεύτερον, εσείς πιθανώς δεν θα είναι σε θέση να μοιραστείτε τα δεδομένα σας με άλλους ερευνητές, πράγμα που σημαίνει ότι άλλοι ερευνητές δεν θα είναι σε θέση να ελέγξει και να επεκτείνει τα αποτελέσματά σας. Περαιτέρω, οι συμπράξεις αυτές μπορούν να δημιουργήσουν τουλάχιστον την εμφάνιση μιας σύγκρουσης συμφερόντων, όπου οι άνθρωποι μπορεί να πιστεύουν ότι τα αποτελέσματά σας επηρεάστηκαν από συνεργασίες σας. Όλα αυτά τα μειονεκτήματα μπορούν να αντιμετωπιστούν, αλλά είναι σημαντικό να είναι σαφές ότι η συνεργασία με δεδομένα που δεν είναι προσιτό σε όλους είχε δύο upsides και μειονεκτήματα.
Εν ολίγοις, τα μέρη των μεγάλων δεδομένα είναι απρόσιτες για τους ερευνητές. Υπάρχουν σοβαρές νομικές, τεχνικές, επαγγελματικές και ηθικές φραγμών που εμποδίζουν την πρόσβαση στα δεδομένα, και αυτά τα εμπόδια δεν θα πάει μακριά. Οι εθνικές κυβερνήσεις έχουν γενικά καθιερωμένες διαδικασίες για τη διευκόλυνση της πρόσβασης στα δεδομένα, αλλά η διαδικασία μπορεί να είναι περισσότερο ad hoc σε πολιτειακό και τοπικό επίπεδο. Επίσης, σε ορισμένες περιπτώσεις, οι ερευνητές μπορούν να συνεργαζόμαστε με τις εταιρείες να αποκτήσουν πρόσβαση σε δεδομένα, αλλά αυτό μπορεί να δημιουργήσει μια ποικιλία προβλημάτων για τους ερευνητές.