Gegevens van bedrijven en overheden zijn moeilijk toegankelijk voor onderzoekers.
In mei 2014 opende het Amerikaanse National Security Agency een datacenter op het platteland van Utah met een lastige naam, het Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Dit gegevenscentrum, dat bekend is geworden als het Utah Data Center, heeft echter verbazingwekkende mogelijkheden. Eén rapport beweert dat het in staat is om alle vormen van communicatie op te slaan en te verwerken, inclusief "de volledige inhoud van privé-e-mails, mobiele telefoongesprekken en Google-zoekopdrachten, evenals alle soorten paden voor persoonlijke gegevens - parkeerontvangstbewijzen, reisroutes, boekhandelsaankopen en ander digitaal 'zakafval' " (Bamford 2012) . Naast het uiten van bezorgdheid over het gevoelige karakter van veel van de informatie die is vastgelegd in big data, die hieronder verder zal worden beschreven, is het Utah Data Center een extreem voorbeeld van een rijke gegevensbron die niet toegankelijk is voor onderzoekers. Meer in het algemeen worden veel bronnen van big data die nuttig zouden zijn, gecontroleerd en beperkt door overheden (bijv. Belastinggegevens en educatieve gegevens) of bedrijven (bijv. Zoekopdrachten naar zoekmachines en meta-gegevens over telefoongesprekken). Hoewel deze gegevensbronnen bestaan, zijn ze daarom nutteloos voor sociaal onderzoek, omdat ze niet toegankelijk zijn.
In mijn ervaring, veel onderzoekers op universiteiten miskennen de bron van deze ontoegankelijkheid. Deze gegevens zijn niet toegankelijk, niet omdat mensen bij bedrijven en overheden dom, lui of onverschillig zijn. Integendeel, er zijn ernstige juridische, zakelijke en ethische barrières die toegang tot gegevens verhinderen. Bepaalde gebruiksvoorwaardenovereenkomsten voor websites staan bijvoorbeeld toe dat gegevens door werknemers worden gebruikt of om de service te verbeteren. Dus bepaalde vormen van gegevensuitwisseling kunnen bedrijven blootstellen aan legitieme rechtszaken van klanten. Er zijn ook substantiële bedrijfsrisico's voor bedrijven die betrokken zijn bij het delen van gegevens. Probeer je voor te stellen hoe het publiek zou reageren als persoonlijke zoekgegevens per ongeluk uit Google lekken als onderdeel van een universitair onderzoeksproject. Zo'n gegevensinbreuk kan, zelfs extreem, zelfs een existentieel risico voor het bedrijf zijn. Dus Google - en de meeste grote bedrijven - zijn zeer risicomijdend in het delen van gegevens met onderzoekers.
In feite kent bijna iedereen die in staat is om toegang te bieden tot grote hoeveelheden gegevens het verhaal van Abdur Chowdhury. In 2006, toen hij hoofd van het onderzoek bij AOL was, liet hij opzettelijk aan de onderzoeksgemeenschap weten wat hij dacht dat geanonimiseerde zoekopdrachten van 650.000 AOL-gebruikers waren. Voor zover ik kan nagaan, hadden Chowdhury en de onderzoekers van AOL goede bedoelingen en dachten ze dat ze de gegevens hadden geanonimiseerd. Maar ze hadden ongelijk. Er werd snel ontdekt dat de gegevens niet zo anoniem waren als de onderzoekers dachten, en verslaggevers van de New York Times konden met gemak iemand in de dataset identificeren (Barbaro and Zeller 2006) . Toen deze problemen eenmaal waren ontdekt, verwijderde Chowdhury de gegevens van de website van AOL, maar het was te laat. De gegevens zijn opnieuw gepost op andere websites en deze zijn waarschijnlijk nog steeds beschikbaar wanneer u dit boek aan het lezen bent. Chowdhury werd ontslagen en de chief technology officer van AOL nam ontslag (Hafner 2006) . Zoals uit dit voorbeeld blijkt, zijn de voordelen voor specifieke personen binnen bedrijven om de toegang tot gegevens te vergemakkelijken vrij beperkt en in het slechtste geval is het slecht.
Onderzoekers kunnen echter soms toegang krijgen tot gegevens die niet toegankelijk zijn voor het grote publiek. Sommige regeringen hebben procedures die onderzoekers kunnen volgen om toegang te vragen, en zoals de voorbeelden later in dit hoofdstuk laten zien, kunnen onderzoekers af en toe toegang krijgen tot bedrijfsgegevens. Einav et al. (2015) samen met een onderzoeker bij eBay om online veilingen te bestuderen. Ik zal later in het hoofdstuk meer vertellen over het onderzoek dat uit deze samenwerking voortkwam, maar ik noem het nu omdat het alle vier de ingrediënten bevat die ik zie in succesvolle partnerschappen: interesse van onderzoekers, onderzoeksmogelijkheden, bedrijfsbelangen en bedrijfscapaciteiten . Ik heb gezien dat veel potentiële samenwerkingsverbanden mislukken omdat zowel de onderzoeker als de partner, of het nu een bedrijf of een overheid was, een van deze ingrediënten misten.
Zelfs als u in staat bent om een partnerschap met een bedrijf te ontwikkelen of toegang te krijgen tot beperkte overheidsgegevens, zijn er enkele nadelen voor u. Ten eerste kunt u uw gegevens waarschijnlijk niet delen met andere onderzoekers, wat betekent dat andere onderzoekers uw resultaten niet kunnen verifiëren en uitbreiden. Ten tweede kunnen de vragen die u kunt stellen, beperkt zijn; Het is onwaarschijnlijk dat bedrijven onderzoek toestaan waardoor ze er slecht uitzien. Ten slotte kunnen deze partnerschappen op zijn minst het uiterlijk van een belangenconflict creëren, waarbij mensen kunnen denken dat uw resultaten zijn beïnvloed door uw partnerschappen. Al deze nadelen kunnen worden aangepakt, maar het is belangrijk om duidelijk te zijn dat het werken met gegevens die niet voor iedereen toegankelijk zijn, zowel voordelen als nadelen heeft.
Kortom, veel big data is ontoegankelijk voor onderzoekers. Er zijn ernstige juridische, zakelijke en ethische barrières die toegang tot gegevens verhinderen, en deze barrières zullen niet verdwijnen als technologie verbetert omdat het geen technische belemmeringen zijn. Sommige nationale regeringen hebben procedures ingesteld voor het toegankelijk maken van gegevenstoegang voor sommige gegevenssets, maar het proces is vooral ad hoc op nationaal en lokaal niveau. In sommige gevallen kunnen onderzoekers ook samenwerken met bedrijven om toegang tot gegevens te krijgen, maar dit kan een verscheidenheid van problemen voor onderzoekers en bedrijven opleveren.