Të dhënat e mbajtura nga bizneset dhe qeveritë janë të vështira për studiuesit për të hyrë.
Në maj të vitit 2014, Axhenda e Sigurisë Kombëtare të SHBA hapi një qendër të dhënave në Utah rurale që ka një emër të vështirë, National Kibernetike Iniciativa Qendra Data Intelligence Community gjithëpërfshirës. Megjithatë, kjo qendër të dhënave, i cili ka ardhur për t'u njohur si Qendrën e të Dhënave Utah, është raportuar të ketë aftësi befasues. Një raport pretendon se Qendra Data Utah është në gjendje për të ruajtur dhe të procesit të gjitha format e komunikimit, duke përfshirë "përmbajtjen e plotë e-mail private, telefonata celular dhe kërkime Google, si dhe të gjitha llojet e të dhënave personale faturave shtigje-parkimit, itineraret e udhëtimit , blerjet librari, dhe të tjera digjitale `pjellë xhep '" (Bamford 2012) . Përveç shqetësimeve ngritjes rreth natyrës së ndjeshme të më të madhe të informacionit të kapur në të dhënat e mëdha, të cilat do të përshkruhen më poshtë, Qendra Data Utah është një shembull ekstrem i një burim të pasur të të dhënave që është i paarritshëm për hulumtuesit. Më në përgjithësi, shumë burime të të dhënave të mëdha që do të jenë të dobishme për studiuesit janë të kontrolluara dhe të kufizuara nga qeveritë (p.sh., të dhënat e taksave dhe të dhënave arsimore) dhe kompanitë (p.sh., pyetje për motorët e kërkimit dhe thirrje telefonike meta-të dhënave). Prandaj, këto të dhëna nuk do të jetë menjëherë në dispozicion të studiuesve në universitete, dhe më nuk do të jetë në dispozicion të studiuesve të qeverive apo kompanive.
Në përvojën time, shumë hulumtues bazuar në universitetet keqkuptojnë burimin e kësaj paarritshmëri. Këto të dhëna nuk janë të paarritshëm për shkak se njerëzit në kompanitë dhe qeveritë janë të trashë, dembel, ose të pakujdesshëm. Përkundrazi, janë serioze ligjore, teknike, të biznesit, dhe pengesat etike që pengojnë qasjen e të dhënave. Për shembull, disa terma-e-shërbimit marrëveshjet për faqet e internetit të vetëm të lejojë të dhënat që do të përdoret nga punonjësit apo për përmirësimin e shërbimit. Pra, forma të caktuara të ndarjes së të dhënave mund të ekspozojnë kompanitë që të padive të ligjshme nga konsumatorët. Ka edhe rreziqe të konsiderueshme të biznesit të kompanive të përfshira në shkëmbimin e të dhënave. Mundohuni të imagjinoni se si publiku do të përgjigjet në qoftë se të dhënat e kërkimit personal rrjedhur aksidentalisht nga Google, si pjesë e një projekti kërkimor universitar. Tillë një shkelje e të dhënave, qoftë ekstreme, edhe mund të jetë një rrezik ekzistencial për kompaninë. Kështu Google-dhe më të mëdha kompanitë-të rrezik-urrejtës shumë në lidhje me ndarjen e të dhënave me hulumtuesit.
Në fakt, pothuajse të gjithë ata që është në një pozicion për të siguruar qasje në sasi të mëdha të të dhënave e dinë historinë e Abdur Chowdhury. Në vitin 2006, kur ai ishte kreu i hulumtimit AOL, ai qëllimisht liruar atë që ai mendonte ishin anonime kërko pyetje nga 650.000 përdoruesit AOL për komunitetin kërkimor. Me aq sa unë mund të them, Chowdhury dhe hulumtuesit në AOL kishte qëllime të mira dhe ata mendonin se kishin anonime e të dhënave. Por, ata e kishin gabim. Ajo u zbulua shpejt se të dhënat nuk ishin aq anonim sa studiuesit mendonin, dhe gazetarët nga New York Times kanë qenë në gjendje për të identifikuar njerëzit në dataset me lehtësi (Barbaro and Zeller Jr 2006) . Pasi këto probleme janë zbuluar, Chowdhury hequr të dhënat nga faqen e internetit AOL, por ishte tepër vonë. Të dhënat ishin reposted në faqet e internetit të tjera, dhe kjo ndoshta do të jetë ende në dispozicion, kur ju jeni duke lexuar këtë libër. Për shkak të përpjekjes së tij për të ndarë të dhënat me komunitetin kërkimor, Chowdhury u shkarkua, dhe shefi AOL teknologji dorëheqjen (Hafner 2006) . Si ky shembull tregon, përfitimet për individë të veçantë brenda të kompanive për të lehtësuar aksesin e të dhënave janë mjaft të vogla dhe rastin më të keq është e tmerrshme.
Hulumtimi mund të, megjithatë, të kenë akses në të dhënat që është i paarritshëm për publikun e gjerë. Qeveritë kanë procedura që studiuesit mund të ndiqni për të aplikuar për të hyrë, dhe si shembujt më vonë në këtë kapitull tregojnë, studiuesit herë pas here mund të kenë akses në të dhënat e korporatave. Për shembull, Einav et al. (2015) në partneritet me një studiues në eBay për të studiuar gjurmët dixhitale nga ankandeve online. Unë do të flasim më shumë për hulumtim që erdhi nga ky bashkëpunim më vonë në kapitullin (Seksioni 2.4.3.2), por unë përmend atë tani, sepse ajo kishte të gjitha katër përbërësit që unë shoh në partneritet të suksesshëm: interes studiuesi, aftësi studiues, interesi kompani, dhe aftësi kompania. Me fjalë të tjera, Einav dhe kolegët ishin të interesuar dhe të aftë për të studiuar ankandeve online. Dhe, eBay ishte gjithashtu. Megjithatë, unë kam parë shumë bashkëpunim mundur dështojnë, sepse as studiues apo kompania mungonte një prej këtyre përbërësve.
Edhe në qoftë se ju jeni në gjendje për të zhvilluar një partneritet me një biznes, megjithatë, ka disa dobësi për ju. Së pari, pyetjet që ju mund të pyesni me të dhënat me të ngjarë të jetë i kufizuar; kompanitë nuk kanë gjasa për të lejuar kërkime që do të mund t'i bëjë ata të duken keq. Së dyti, ju ndoshta nuk do të jetë në gjendje për të ndarë të dhënat tuaja me studiues të tjerë, që do të thotë se studiuesit e tjerë nuk do të jetë në gjendje për të verifikuar dhe për të zgjeruar rezultatet tuaja. Më tej, këto partneritete mund të krijojnë të paktën pamjen e konfliktit të interesit, ku njerëzit mund të mendojnë se rezultatet tuaja janë ndikuar nga partneritetet tuaj. Të gjitha këto dobësi mund të trajtohen, por është e rëndësishme që të jetë e qartë se duke punuar me të dhëna që nuk është e arritshme për të gjithë kishin të dy upsides dhe dobësi.
Në përmbledhje, shumë të dhëna të mëdha është i paarritshëm për të studiuesve. Nuk janë serioze ligjore, teknike, të biznesit, dhe pengesat etike që pengojnë qasjen e të dhënave, dhe këto pengesa nuk do të shkojnë larg. qeveritë kombëtare në përgjithësi kanë krijuar procedura për të mundësuar qasje të dhënave, por procesi mund të jetë më e ad hoc në nivel shtetëror dhe lokal. Gjithashtu, në disa raste, studiuesit mund të partner me kompanitë për të marrë qasje të dhënave, por kjo mund të krijojë një sërë problemesh për studiuesit.