Data wat deur maatskappye en regerings gehou word, is moeilik vir navorsers om toegang te verkry.
In Mei 2014 het die Amerikaanse Nasionale Veiligheidsagentskap 'n datasentrum in landelike Utah geopen met 'n ongemaklike naam, die Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Hierdie data sentrum, wat bekend staan as die Utah Data Center, het egter ongelooflike vermoëns. Een verslag beweer dat dit alle vorme van kommunikasie kan stoor en verwerk, insluitend "die volledige inhoud van privaat e-posse, selfoonoproepe en Google-soektogte, sowel as allerhande persoonlike data-roetes-parkeerkommitte, reisroetes, boekwinkel aankope , en ander digitale 'sakvullis' " (Bamford 2012) . Benewens die bekommernis oor die sensitiewe aard van baie van die inligting wat gevang word in groot data, wat hieronder beskryf word, is die Utah Data Centre 'n uiterste voorbeeld van 'n ryk databron wat ontoeganklik is vir navorsers. Meer algemeen, baie bronne van groot data wat nuttig sal wees, word beheer en beperk deur regerings (bv. Belastingdata en opvoedkundige data) of maatskappye (bv. Navrae aan soekenjins en meta-data vir oproepe). Dus, alhoewel hierdie databronne bestaan, is hulle nutteloos vir die doeleindes van sosiale navorsing omdat hulle ontoeganklik is.
In my ervaring verstaan baie navorsers op universiteite die bron van hierdie ontoeganklikheid. Hierdie data is ontoeganklik nie omdat mense by maatskappye en regerings stom, lui of onaangenaam is nie. Daar is eerder ernstige regs-, besigheids- en etiese hindernisse wat toegang tot data voorkom. Byvoorbeeld, in sommige diensbepalingsooreenkomste vir webwerwe word data slegs deur werknemers gebruik of om die diens te verbeter. So sekere vorms van data-sharing kan maatskappye blootstel aan regmatige regsgedinge van kliënte. Daar is ook aansienlike besigheidsrisiko's vir maatskappye wat betrokke is by die deel van data. Probeer om te dink hoe die publiek sal reageer as persoonlike soekdata per ongeluk uit Google uitgelek word as deel van 'n universiteitsnavorsingsprojek. So 'n databreuk, indien ekstreem, kan selfs 'n eksistensiële risiko vir die maatskappy wees. So Google en die meeste groot maatskappye is baie riskant om data met navorsers te deel.
Trouens, feitlik almal wat in staat is om toegang te gee tot groot hoeveelhede data, ken die verhaal van Abdur Chowdhury. In 2006, toe hy die hoof van navorsing by AOL was, het hy doelbewus vrygestel aan die navorsingsgemeenskap wat hy gedink het was anonieme soektogte van 650 000 AOL-gebruikers. Sover ek kan sê, het Chowdhury en die navorsers by AOL goeie bedoelings gehad, en hulle het gedink dat hulle die data geanonimiseer het. Maar hulle was verkeerd. Daar is vinnig ontdek dat die data nie so anoniem was soos die navorsers gedink het nie, en verslaggewers van die New York Times was maklik om iemand in die datastel te identifiseer (Barbaro and Zeller 2006) . Sodra hierdie probleme ontdek is, het Chowdhury die data van AOL se webwerf verwyder, maar dit was te laat. Die data is op ander webwerwe herposisioneer, en dit sal waarskynlik nog beskikbaar wees as u hierdie boek lees. Chowdhury is afgedank, en AOL se hoof-tegnologie-beampte het bedank (Hafner 2006) . Soos hierdie voorbeeld toon, is die voordele vir spesifieke individue binne maatskappye om data toegang te fasiliteer, redelik klein en die ergste scenario is verskriklik.
Navorsers kan egter soms toegang verkry tot data wat ontoeganklik is vir die algemene publiek. Sommige regerings het prosedures wat navorsers kan volg om aansoek te doen, en soos die voorbeelde later in hierdie hoofstuk wys, kan navorsers af en toe toegang verkry tot korporatiewe data. Byvoorbeeld, Einav et al. (2015) saam met 'n navorser by eBay aanlyn-veilings bestudeer. Ek sal meer praat oor die navorsing wat later in die hoofstuk uit hierdie samewerking gekom het, maar ek noem dit nou omdat dit al vier die bestanddele gehad het wat ek in suksesvolle vennootskappe sien: navorserbelang, navorservermoë, maatskappybelang en maatskappyvermoë . Ek het gesien dat baie potensiële samewerkings misluk omdat óf die navorser óf die vennoot óf 'n maatskappy of regering óf een van hierdie bestanddele het.
Selfs as jy 'n vennootskap met 'n besigheid kan ontwikkel of toegang tot beperkte regeringsdata kan kry, is daar egter 'n paar nadele vir jou. Eerstens sal u waarskynlik nie u data met ander navorsers kan deel nie, wat beteken dat ander navorsers nie u resultate sal kan verifieer en uitbrei nie. Tweedens, die vrae wat u kan vra, kan beperk word; maatskappye is onwaarskynlik om navorsing te gee wat hulle sleg kan laat lyk. Ten slotte kan hierdie vennootskappe ten minste die voorkoms van 'n botsing van belange skep, waar mense dalk dink dat jou resultate deur jou vennootskappe beïnvloed is. Al hierdie nadele kan aangespreek word, maar dit is belangrik om duidelik te wees dat die werk met data wat nie vir almal toeganklik is nie, beide opwaarts en nadele het.
Samevattend is baie groot data ontoeganklik vir navorsers. Daar is ernstige regs-, besigheids- en etiese hindernisse wat toegang tot data voorkom, en hierdie struikelblokke sal nie weggaan nie, aangesien tegnologie verbeter omdat dit nie tegniese hindernisse is nie. Sommige nasionale regerings het prosedures ingestel om toegang tot data vir sommige datastelle moontlik te maak, maar die proses is veral ad hoc op staats- en plaaslike vlakke. Ook, in sommige gevalle, kan navorsers met maatskappye saamwerk om data toegang te verkry, maar dit kan 'n verskeidenheid probleme vir navorsers en maatskappye skep.