Gegevens van bedrijven en overheden zijn moeilijk voor onderzoekers om toegang te krijgen.
In mei 2014, de US National Security Agenda opende een datacenter in landelijke Utah, dat een onhandige naam heeft, de Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Echter, dit datacenter, die bekend is geworden als de Utah Data Center aan, naar verluidt verbluffende mogelijkheden hebben. Een rapport beweert dat de Utah Data Center is in staat om op te slaan en te verwerken alle vormen van communicatie met inbegrip van "de complete inhoud van privé e-mails, telefoontjes en Google zoekopdrachten, evenals allerlei persoonlijke gegevens paden parkeren ontvangstbewijzen, rondreizen , boekhandel aankopen, en andere digitale `pocket nest '' (Bamford 2012) . Naast de verhoging bezorgdheid over de gevoelige aard van veel informatie meegenomen in big data, die verder hieronder zal worden beschreven, de Utah Data Center is een extreem voorbeeld van een rijke gegevensbron die niet toegankelijk is voor onderzoekers. Meer in het algemeen, vele bronnen van big data die nuttig zou zijn voor onderzoekers worden beheerst en beperkt door de overheid (bijvoorbeeld fiscale gegevens en educatieve gegevens) en bedrijven (bijvoorbeeld vragen aan motoren en telefoontje meta-data te zoeken). Daarom zullen deze gegevens niet direct beschikbaar voor onderzoekers aan universiteiten, en de meeste zullen niet eens beschikbaar voor onderzoekers in de overheden of bedrijven.
In mijn ervaring, veel onderzoekers gebaseerd op universiteiten begrijpen de bron van deze ontoegankelijkheid. Deze gegevens zijn niet toegankelijk omdat mensen bij bedrijven en overheden zijn dom, lui, of onverschillig. In plaats daarvan zijn er ernstige juridische, technische, zakelijke en ethische barrières die toegang tot de gegevens te voorkomen. Bijvoorbeeld, sommige termen-of-service-overeenkomsten voor websites staan alleen gegevens die moeten worden gebruikt door de werknemers of om de dienstverlening te verbeteren. Dus bepaalde vormen van het delen van gegevens kunnen bedrijven bloot aan legitieme rechtszaken van klanten. Er zijn ook aanzienlijke zakelijke risico's voor bedrijven die betrokken zijn bij het delen van gegevens. Probeer voor te stellen hoe het publiek zou reageren als persoonlijke zoekgegevens per ongeluk gelekt uit Google als onderdeel van een universitair onderzoeksproject. Een dergelijke inbreuk op de gegevensbeveiliging, zo extreem, misschien zelfs een existentiële risico's voor het bedrijf. Dus Google-en de meeste grote bedrijven-zijn zeer risicomijdend over het delen van gegevens met onderzoekers.
In feite, bijna iedereen die in staat is om de toegang tot grote hoeveelheden leveren van data kent het verhaal van Abdur Chowdhury. In 2006, toen hij het hoofd van de AOL-onderzoek was, dat hij met opzet vrijgelaten wat hij dacht werden anoniem zoekopdrachten van 650.000 AOL gebruikers om de onderzoeksgemeenschap. Voor zover ik kan vertellen, Chowdhury en de onderzoekers van AOL had goede bedoelingen en ze dachten dat ze de gegevens hadden geanonimiseerd. Maar ze hadden het mis. Het werd al snel ontdekt dat de gegevens waren niet zo anoniem als de onderzoekers dachten, en verslaggevers van de New York Times in staat waren om mensen te identificeren in de dataset met gemak (Barbaro and Zeller Jr 2006) . Zodra deze problemen werden ontdekt, Chowdhury verwijderde de gegevens van de website van AOL, maar het was te laat. De gegevens waren reposted op andere websites, en het zal waarschijnlijk nog steeds beschikbaar zijn wanneer u het lezen van dit boek. Omwille van zijn poging om gegevens met de onderzoeksgemeenschap te delen, werd Chowdhury in brand gestoken, en AOL's chief technology officer ontslag (Hafner 2006) . Zoals dit voorbeeld laat zien, de voordelen voor specifieke personen binnen van bedrijven om toegang tot de gegevens te vergemakkelijken zijn vrij klein en de worst-case scenario is verschrikkelijk.
Onderzoek kan echter toegang krijgen tot gegevens die niet toegankelijk is voor het grote publiek. Overheden hebben procedures die onderzoekers kunnen volgen toe te passen voor de toegang, en zoals de voorbeelden verderop in dit hoofdstuk laten zien, kunnen de onderzoekers af en toe de toegang tot bedrijfsgegevens te krijgen. Bijvoorbeeld Einav et al. (2015) samen met een onderzoeker aan eBay om de digitale sporen te bestuderen van online veilingen. Ik zal meer over het onderzoek dat uit deze samenwerking later in het hoofdstuk (paragraaf 2.4.3.2) kwam praten, maar ik noem het nu, want het had alle vier de ingrediënten die ik zie in succesvolle samenwerkingsverbanden: onderzoeker rente, onderzoeker vermogen, bedrijf rente en vermogen bedrijf. Met andere woorden, Einav en medewerkers waren geïnteresseerd in en kunnen bestuderen online veilingen. En, eBay ook. Maar ik heb gezien veel mogelijke samenwerking mislukken omdat ofwel de onderzoeker of het bedrijf miste een van deze ingrediënten.
Zelfs als je in staat om een partnerschap te ontwikkelen met een bedrijf, echter, zijn er een aantal nadelen voor u. Ten eerste, de vragen die je kunt stellen met de gegevens met waarschijnlijk worden beperkt; bedrijven is het onwaarschijnlijk dat onderzoek dat kan zodat ze er slecht mogelijk te maken. Ten tweede, zult u waarschijnlijk niet in staat zijn om uw gegevens te delen met andere onderzoekers, wat betekent dat andere onderzoekers niet in staat zal zijn om te verifiëren en te verlengen van uw resultaten. Verder kunnen deze partnerschappen op zijn minst de schijn van een belangenconflict, waar mensen zouden kunnen denken dat de resultaten werden beïnvloed door uw partnerschappen. Al deze nadelen kunnen worden aangepakt, maar het is belangrijk om duidelijk te zijn dat het werken met gegevens die niet voor iedereen toegankelijk had zowel positieve kanten en nadelen.
Kortom, veel van de big data niet toegankelijk is voor onderzoekers. Er zijn ernstige juridische, technische, zakelijke en ethische barrières die toegang tot de gegevens te voorkomen, en deze barrières zal niet verdwijnen. Nationale overheden hebben over het algemeen de procedures voor het inschakelen van toegang tot de gegevens vastgesteld, maar het proces kan meer ad hoc op de staats-en lokaal niveau. Voorts kan in sommige gevallen onderzoekers kunnen samenwerken met bedrijven om toegang te verkrijgen, maar dit kan diverse problemen voor onderzoekers.