I dati detenuti da aziende e governi sono difficili da raggiungere per i ricercatori.
Nel maggio 2014, l'Agenzia per la sicurezza nazionale degli Stati Uniti ha aperto un centro dati nelle zone rurali dello Utah con un nome scomodo, il Centro dati dell'Iniziativa per la sicurezza informatica nazionale intelligente dell'Intelligence Community. Tuttavia, questo centro dati, che è diventato noto come Utah Data Center, è dotato di capacità sorprendenti. Un rapporto afferma che è in grado di archiviare ed elaborare tutte le forme di comunicazione tra cui "il contenuto completo di e-mail private, chiamate telefoniche e ricerche Google, così come tutti i tipi di percorsi di dati personali - ricevute di parcheggio, itinerari di viaggio, acquisti di librerie e altri "rifiuti letti tascabili" digitali (Bamford 2012) . Oltre a sollevare preoccupazioni sulla natura sensibile di gran parte delle informazioni acquisite nei big data, che verranno descritte più avanti, il Data Center di Utah è un esempio estremo di una ricca fonte di dati inaccessibile ai ricercatori. Più in generale, molte fonti di big data che potrebbero essere utili sono controllate e limitate dai governi (ad esempio, dati fiscali e dati didattici) o società (ad es. Query ai motori di ricerca e metadati delle telefonate). Pertanto, anche se queste fonti di dati esistono, sono inutili ai fini della ricerca sociale perché sono inaccessibili.
Nella mia esperienza, molti ricercatori delle università fraintendono la fonte di questa inaccessibilità. Questi dati sono inaccessibili non perché le persone nelle aziende e nei governi sono stupidi, pigri o indifferenti. Piuttosto, esistono gravi ostacoli legali, commerciali ed etici che impediscono l'accesso ai dati. Ad esempio, alcuni accordi sui termini di servizio per i siti Web consentono solo ai dati di essere utilizzati dai dipendenti o di migliorare il servizio. Pertanto, alcune forme di condivisione dei dati potrebbero esporre le aziende a cause legali legittime da parte dei clienti. Vi sono anche notevoli rischi aziendali per le aziende coinvolte nella condivisione dei dati. Prova ad immaginare come il pubblico risponderebbe se i dati di ricerca personali trapelassero accidentalmente da Google come parte di un progetto di ricerca universitario. Una tale violazione dei dati, se estrema, potrebbe persino rappresentare un rischio esistenziale per l'azienda. Quindi Google - e la maggior parte delle grandi aziende - sono molto avverse al rischio nella condivisione dei dati con i ricercatori.
Infatti, quasi tutti coloro che sono in grado di fornire accesso a grandi quantità di dati conoscono la storia di Abdur Chowdhury. Nel 2006, quando era a capo della ricerca di AOL, ha intenzionalmente rilasciato alla comunità di ricerca quelle che pensava fossero query di ricerca anonime da 650.000 utenti di AOL. Per quanto ne so, Chowdhury e i ricercatori di AOL avevano buone intenzioni e pensavano di aver reso anonimi i dati. Ma si sbagliavano. È stato subito scoperto che i dati non erano così anonimi come pensavano i ricercatori, e i giornalisti del New York Times erano in grado di identificare facilmente qualcuno nel set di dati (Barbaro and Zeller 2006) . Una volta scoperti questi problemi, Chowdhury rimosse i dati dal sito web di AOL, ma era troppo tardi. I dati sono stati ripubblicati su altri siti Web e probabilmente saranno ancora disponibili quando stai leggendo questo libro. Chowdhury è stato licenziato e il responsabile della tecnologia capo di AOL ha rassegnato le dimissioni (Hafner 2006) . Come mostra questo esempio, i benefici per specifici individui all'interno delle aziende per facilitare l'accesso ai dati sono piuttosto piccoli e lo scenario peggiore è terribile.
Tuttavia, i ricercatori possono talvolta accedere a dati inaccessibili al pubblico in generale. Alcuni governi hanno procedure che i ricercatori possono seguire per richiedere l'accesso e, come mostrano gli esempi più avanti in questo capitolo, i ricercatori possono occasionalmente accedere ai dati aziendali. Ad esempio, Einav et al. (2015) collaborato con un ricercatore di eBay per studiare le aste online. Parlerò di più della ricerca che è nata da questa collaborazione più avanti nel capitolo, ma ne parlo ora perché aveva tutti e quattro gli ingredienti che vedo in partnership di successo: interesse dei ricercatori, capacità di ricercatore, interesse aziendale e capacità dell'azienda . Ho visto molte potenziali collaborazioni fallire perché o il ricercatore o il partner, sia esso una società o un governo, mancava uno di questi ingredienti.
Anche se sei in grado di sviluppare una partnership con un'azienda o di ottenere accesso a dati governativi limitati, tuttavia, ci sono alcuni aspetti negativi per te. In primo luogo, probabilmente non sarai in grado di condividere i tuoi dati con altri ricercatori, il che significa che altri ricercatori non saranno in grado di verificare ed estendere i risultati. In secondo luogo, le domande che puoi porre possono essere limitate; è improbabile che le aziende consentano una ricerca che potrebbe farle sembrare cattive. Infine, queste partnership possono creare almeno l'apparenza di un conflitto di interessi, in cui le persone potrebbero pensare che i risultati siano influenzati dalle partnership. Tutti questi aspetti negativi possono essere affrontati, ma è importante essere chiari sul fatto che lavorare con dati che non sono accessibili a tutti ha sia lati positivi che negativi.
In breve, molti dati importanti sono inaccessibili ai ricercatori. Esistono gravi ostacoli legali, commerciali ed etici che impediscono l'accesso ai dati e tali ostacoli non andranno via via che la tecnologia migliora perché non sono ostacoli tecnici. Alcuni governi nazionali hanno stabilito procedure per abilitare l'accesso ai dati per alcuni set di dati, ma il processo è particolarmente ad hoc a livello statale e locale. Inoltre, in alcuni casi, i ricercatori possono collaborare con le aziende per ottenere l'accesso ai dati, ma ciò può creare una varietà di problemi per ricercatori e aziende.