Dati detenuti da imprese e governi sono difficili per i ricercatori di accedere.
Nel mese di maggio 2014, il programma di sicurezza nazionale degli Stati Uniti ha aperto un centro dati in Utah rurale che ha un nome imbarazzante, l'intelligenza comunitaria globale nazionale Cybersecurity Initiative Data Center. Tuttavia, questa data center, che è venuto ad essere conosciuto come l'Utah Data Center, è segnalato per avere capacità di stupefacenti. Un rapporto sostiene che il Data Center Utah è in grado di memorizzare ed elaborare tutte le forme di comunicazione, tra cui "l'intero contenuto di e-mail private, chiamate al cellulare, e le ricerche di Google, così come tutti i tipi di dati personali ricevute percorsi-parcheggio, itinerari di viaggio , gli acquisti libreria, e altri digitale `cucciolata tasca '" (Bamford 2012) . Oltre alle preoccupazioni sensibilizzazione sulla natura sensibile gran parte delle informazioni catturate in grandi dati, che verrà descritto più sotto, il Data Center Utah è un esempio estremo di una ricca fonte di dati che è inaccessibile ai ricercatori. Più in generale, molte fonti di Big Data che sarebbe utile per i ricercatori sono controllati e limitati da parte dei governi (ad esempio, dati fiscali e dati educativi) e le società (ad esempio, le query ai motori e telefonata meta-dati di ricerca). Pertanto, questi dati non saranno immediatamente disponibili per i ricercatori presso le università, e la maggior parte non sarà anche a disposizione dei ricercatori nei governi o aziende.
Nella mia esperienza, molti ricercatori basati presso le università fraintendono la fonte di questa inaccessibilità. Questi dati non sono inaccessibili perché le persone presso aziende e governi sono stupidi, pigri, o indifferente. Piuttosto, ci sono gravi giuridiche, tecniche, di business, e le barriere etiche che impediscono l'accesso ai dati. Ad esempio, alcuni accordi termini-of-service per i siti web consentono solo dati da utilizzare da parte dei dipendenti o per migliorare il servizio. Così alcune forme di condivisione dei dati potrebbe esporre le aziende a cause legittime da parte dei clienti. Ci sono anche notevoli rischi di business per le aziende coinvolte nella condivisione dei dati. Provate a immaginare come il pubblico avrebbe risposto se i dati di ricerca personali accidentalmente trapelato da Google come parte di un progetto di ricerca universitaria. Tale violazione dei dati, se estremo, potrebbe anche essere un rischio esistenziale per la società. Quindi, Google e più grandi aziende-sono molto avversi al rischio sulla condivisione dei dati con i ricercatori.
Infatti, quasi tutti coloro che sono in grado di fornire l'accesso a grandi quantità di dati conosce la storia di Abdur Chowdhury. Nel 2006, quando era il capo della ricerca di AOL, ha intenzionalmente rilasciato quello che pensava erano anonimi query di ricerca da 650.000 utenti AOL per la comunità di ricerca. Per quanto posso dire, Chowdhury ei ricercatori della AOL avevano buone intenzioni e hanno pensato che avevano anonimizzati i dati. Ma, si sbagliavano. E 'stato subito scoperto che i dati non erano come anonimo come i ricercatori hanno pensato, e giornalisti del New York Times sono stati in grado di identificare le persone nel gruppo di dati con facilità (Barbaro and Zeller Jr 2006) . Una volta che questi problemi sono stati scoperti, Chowdhury rimosso i dati dal sito web di AOL, ma era troppo tardi. I dati sono stati ripubblicato su altri siti web, e probabilmente sarà ancora disponibile quando si sta leggendo questo libro. A causa del suo tentativo di condividere dati con la comunità di ricerca, Chowdhury è stato licenziato, e chief technology officer di AOL è dimesso (Hafner 2006) . Come mostra l'esempio, i benefici per gli individui specifici all'interno delle aziende per facilitare l'accesso ai dati sono piuttosto piccole e la peggiore delle ipotesi è terribile.
La ricerca può, tuttavia, ottenere l'accesso a dati che sono inaccessibili al grande pubblico. I governi hanno procedure che i ricercatori possono seguire per richiedere l'accesso, e come gli esempi più avanti in questo capitolo spettacolo, i ricercatori possono a volte ottenere l'accesso ai dati aziendali. Ad esempio, Einav et al. (2015) ha collaborato con un ricercatore a eBay per studiare le tracce digitali di aste online. Parlerò di più sulla ricerca che è venuto da questa collaborazione più avanti nel capitolo (sezione 2.4.3.2), ma parlarne ora perché aveva tutti e quattro gli ingredienti che vedo in partnership di successo: interesse ricercatore, capacità di ricercatore, l'interesse della società, e la capacità della società. In altre parole, Einav e colleghi sono stati interessati e in grado di studiare le aste on-line. E, eBay era anche. Tuttavia, ho visto tanti possibili collaborazioni falliscono perché sia il ricercatore o la società mancava uno di questi ingredienti.
Anche se si è in grado di sviluppare una partnership con un business, tuttavia, ci sono alcuni aspetti negativi per voi. In primo luogo, le domande che si può chiedere con i dati con probabile essere limitato; le aziende sono improbabili per consentire la ricerca che potrebbe farle sembrare cattivo. In secondo luogo, probabilmente non in grado di condividere i dati con altri ricercatori, il che significa che altri ricercatori non saranno in grado di verificare e ampliare i risultati. Inoltre, questi partenariati possono creare almeno l'apparenza di un conflitto di interessi, in cui la gente potrebbe pensare che i risultati sono stati influenzati dai vostri partnership. Tutti questi aspetti negativi possono essere affrontati, ma è importante essere chiaro che lavorare con i dati che non è accessibile a tutti aveva entrambe pregi e svantaggi.
In sintesi, un sacco di grandi dati sono inaccessibili ai ricercatori. Ci sono gravi giuridiche, tecniche, di business, e le barriere etiche che impediscono l'accesso ai dati, e queste barriere non andrà via. I governi nazionali generalmente hanno stabilito procedure per abilitare l'accesso ai dati, ma il processo può essere più ad hoc, a livello statale e locale. Inoltre, in alcuni casi, i ricercatori possono collaborare con aziende di ottenere l'accesso ai dati, ma questo può creare una varietà di problemi per i ricercatori.