Τα δεδομένα που κατέχουν εταιρείες και κυβερνήσεις είναι δύσκολο για τους ερευνητές να έχουν πρόσβαση.
Τον Μάιο του 2014, ο Οργανισμός Εθνικής Ασφαλείας των ΗΠΑ ίδρυσε ένα κέντρο δεδομένων στην αγροτική περιοχή της Γιούτα με ένα περίεργο όνομα, το Κέντρο Πληροφοριών για την Πρωτοβουλία Κινητής Ασφάλειας της Intelligence Community. Ωστόσο, αυτό το κέντρο δεδομένων, το οποίο έχει γίνει γνωστό ως Κέντρο Δεδομένων της Γιούτα, έχει αναφερθεί ότι έχει εκπληκτικές δυνατότητες. Μια αναφορά αναφέρει ότι είναι σε θέση να αποθηκεύει και να επεξεργάζεται όλες τις μορφές επικοινωνίας, συμπεριλαμβανομένου του "πλήρους περιεχομένου ιδιωτικών μηνυμάτων ηλεκτρονικού ταχυδρομείου, τηλεφωνικών κλήσεων και αναζητήσεων Google, καθώς και όλων των ειδών διαδρομών προσωπικών δεδομένων, αποδείξεων στάθμευσης, ταξιδιωτικών δρομολογίων, αγορών βιβλιοπωλείων , και άλλα ψηφιακά "τσέπη απορριμμάτων" " (Bamford 2012) . Εκτός από τις ανησυχίες για τον ευαίσθητο χαρακτήρα πολλών από τις πληροφορίες που συλλέχθηκαν στα μεγάλα δεδομένα, οι οποίες θα περιγραφούν παρακάτω, το Κέντρο Δεδομένων της Γιούτα είναι ένα ακραίο παράδειγμα πλούσιας πηγής δεδομένων που είναι απρόσιτη για τους ερευνητές. Γενικότερα, πολλές πηγές μεγάλων δεδομένων που θα ήταν χρήσιμες ελέγχονται και περιορίζονται από τις κυβερνήσεις (π.χ. φορολογικά δεδομένα και εκπαιδευτικά δεδομένα) ή εταιρείες (π.χ. ερωτήματα για μηχανές αναζήτησης και μετα-δεδομένα τηλεφωνικών κλήσεων). Επομένως, παρόλο που υπάρχουν αυτές οι πηγές δεδομένων, είναι άχρηστες για τους σκοπούς της κοινωνικής έρευνας επειδή είναι απροσπέλαστες.
Από την εμπειρία μου, πολλοί ερευνητές με έδρα τα πανεπιστήμια παρερμηνεύουν την πηγή αυτής της απροσπέλαστης. Αυτά τα δεδομένα είναι απροσπέλαστα, όχι επειδή οι άνθρωποι των εταιρειών και των κυβερνήσεων είναι ηλίθιοι, τεμπέληδες ή ανυπόφοροι. Αντιθέτως, υπάρχουν σοβαροί νομικοί, επιχειρηματικοί και ηθικοί φραγμοί που εμποδίζουν την πρόσβαση σε δεδομένα. Παραδείγματος χάριν, ορισμένες συμφωνίες παροχής συμβολαίων για ιστότοπους επιτρέπουν μόνο τη χρήση δεδομένων από τους υπαλλήλους ή τη βελτίωση της υπηρεσίας. Έτσι, ορισμένες μορφές ανταλλαγής δεδομένων θα μπορούσαν να εκθέσουν τις εταιρείες σε νόμιμες αγωγές από πελάτες. Υπάρχουν επίσης σημαντικοί επιχειρηματικοί κίνδυνοι για τις εταιρείες που συμμετέχουν στην ανταλλαγή δεδομένων. Προσπαθήστε να φανταστείτε πώς θα απαντούσε το κοινό εάν προσωπικά δεδομένα αναζήτησης έπληξαν κατά λάθος από την Google στο πλαίσιο ενός πανεπιστημιακού ερευνητικού προγράμματος. Μια τέτοια παραβίαση δεδομένων, αν είναι ακραία, μπορεί να είναι ακόμη και ένας υπαρξιακός κίνδυνος για την εταιρεία. Έτσι, η Google και οι περισσότερες μεγάλες εταιρείες είναι πολύ ανυπόφορες για την ανταλλαγή δεδομένων με τους ερευνητές.
Στην πραγματικότητα, σχεδόν όλοι όσοι είναι σε θέση να παρέχουν πρόσβαση σε μεγάλα ποσά δεδομένων γνωρίζουν την ιστορία του Abdur Chowdhury. Το 2006, όταν ήταν επικεφαλής της έρευνας στην AOL, σκόπιμα απελευθέρωσε στην ερευνητική κοινότητα τι σκέφτηκε ότι ήταν ανώνυμα ερωτήματα αναζήτησης από 650.000 χρήστες AOL. Από όσο μπορώ να πω, ο Chowdhury και οι ερευνητές της AOL είχαν καλές προθέσεις και νόμιζαν ότι είχαν ανώνυμα τα δεδομένα. Αλλά ήταν λάθος. Ανακαλύφθηκε γρήγορα ότι τα δεδομένα δεν ήταν τόσο ανώνυμα όσο σκέφτηκαν οι ερευνητές και οι δημοσιογράφοι από τους New York Times κατάφεραν να προσδιορίσουν με ευκολία κάποιον στο σύνολο δεδομένων (Barbaro and Zeller 2006) . Μόλις ανακαλύφθηκαν αυτά τα προβλήματα, ο Chowdhury αφαιρέθηκε τα δεδομένα από την ιστοσελίδα της AOL, αλλά ήταν πολύ αργά. Τα δεδομένα είχαν μεταφερθεί σε άλλους ιστότοπους και πιθανότατα θα είναι διαθέσιμα όταν διαβάζετε αυτό το βιβλίο. Η Chowdhury απολύθηκε και ο επικεφαλής της τεχνολογίας AOL παραιτήθηκε (Hafner 2006) . Όπως δείχνει αυτό το παράδειγμα, τα οφέλη για συγκεκριμένα άτομα εντός των επιχειρήσεων για τη διευκόλυνση της πρόσβασης σε δεδομένα είναι αρκετά μικρά και το χειρότερο σενάριο είναι τρομερό.
Ωστόσο, οι ερευνητές μπορούν μερικές φορές να αποκτήσουν πρόσβαση σε δεδομένα που είναι απρόσιτα για το ευρύ κοινό. Ορισμένες κυβερνήσεις διαθέτουν διαδικασίες που μπορούν να ακολουθήσουν οι ερευνητές για να υποβάλουν αίτηση πρόσβασης και όπως δείχνουν τα παραδείγματα που ακολουθούν σε αυτό το κεφάλαιο, οι ερευνητές μπορούν να αποκτήσουν περιστασιακά πρόσβαση σε εταιρικά δεδομένα. Για παράδειγμα, οι Einav et al. (2015) συνεργάζεται με έναν ερευνητή στο eBay για να μελετήσει σε απευθείας σύνδεση δημοπρασίες. Θα μιλήσω περισσότερο για την έρευνα που προέκυψε από αυτή τη συνεργασία αργότερα στο κεφάλαιο, αλλά το αναφέρω τώρα, επειδή είχε και τα τέσσερα συστατικά που βλέπω σε επιτυχημένες συνεργασίες: το ενδιαφέρον των ερευνητών, τις δυνατότητες των ερευνητών, το ενδιαφέρον των εταιρειών και την ικανότητα της εταιρείας . Έχω δει πολλές πιθανές συνεργασίες αποτυγχάνουν επειδή είτε ο ερευνητής είτε ο συνεργάτης - είτε πρόκειται για εταιρεία είτε για κυβέρνηση - δεν είχαν κάποιο από αυτά τα συστατικά.
Ακόμα κι αν είστε σε θέση να αναπτύξετε μια εταιρική σχέση με μια επιχείρηση ή να αποκτήσετε πρόσβαση σε περιορισμένα κυβερνητικά δεδομένα, υπάρχουν όμως ορισμένα μειονεκτήματα για εσάς. Πρώτον, πιθανότατα δεν θα μπορείτε να μοιράζεστε τα δεδομένα σας με άλλους ερευνητές, πράγμα που σημαίνει ότι άλλοι ερευνητές δεν θα είναι σε θέση να επαληθεύσουν και να επεκτείνουν τα αποτελέσματά σας. Δεύτερον, οι ερωτήσεις που μπορείτε να ζητήσετε ενδέχεται να είναι περιορισμένες. οι εταιρείες είναι απίθανο να επιτρέψουν έρευνα που θα μπορούσε να τους κάνει να φαίνονται κακοί. Τέλος, αυτές οι εταιρικές σχέσεις μπορούν να δημιουργήσουν τουλάχιστον την εμφάνιση σύγκρουσης συμφερόντων, όπου οι άνθρωποι μπορεί να πιστεύουν ότι τα αποτελέσματά σας επηρεάζονται από τις συνεργασίες σας. Όλα αυτά τα μειονεκτήματα μπορούν να αντιμετωπιστούν, αλλά είναι σημαντικό να είναι ξεκάθαρο ότι η εργασία με δεδομένα που δεν είναι προσβάσιμα σε όλους έχει τόσο όψεις όσο και μειονεκτήματα.
Συνοπτικά, πολλά μεγάλα δεδομένα είναι απροσπέλαστα για τους ερευνητές. Υπάρχουν σοβαροί νομικοί, επιχειρηματικοί και ηθικοί φραγμοί που εμποδίζουν την πρόσβαση στα δεδομένα και τα εμπόδια αυτά δεν θα εξαλειφθούν καθώς βελτιώνεται η τεχνολογία, επειδή δεν αποτελούν τεχνικά εμπόδια. Ορισμένες εθνικές κυβερνήσεις έχουν θεσπίσει διαδικασίες για την παροχή πρόσβασης σε δεδομένα για ορισμένα σύνολα δεδομένων, αλλά η διαδικασία είναι ιδιαίτερα ad hoc σε κρατικό και τοπικό επίπεδο. Επίσης, σε ορισμένες περιπτώσεις, οι ερευνητές μπορούν να συνεργαστούν με εταιρείες για να αποκτήσουν πρόσβαση σε δεδομένα, αλλά αυτό μπορεί να δημιουργήσει μια ποικιλία προβλημάτων για τους ερευνητές και τις εταιρείες.