Të dhënat e mbajtura nga kompanitë dhe qeveritë janë të vështira për kërkuesit.
Në maj të vitit 2014, Agjencia Kombëtare e Sigurisë së SHBA hapi një qendër të dhënash në Utahin rural me një emër të vështirë, Qendrën e të Dhënave Inisiativa për Gjithëpërfshirjen e Sigurisë Kombëtare të Sigurisë Kombëtare të Inteligjencës. Megjithatë, ky qendër e të dhënave, e cila ka ardhur të njihet si Qendra e të Dhënave në Utah, raportohet se ka aftësi mahnitëse. Një raport pohon se është në gjendje të ruajë dhe përpunojë të gjitha format e komunikimit duke përfshirë "përmbajtjen e plotë të emaileve private, telefonatave celularë dhe kërkimeve në Google, si dhe të gjitha llojet e të dhënave personale të shtigjeve-faturat e parkimit, itineraret e udhëtimit, blerjet në librari , dhe mbeturina të tjera dixhitale "xhepi" (Bamford 2012) . Përveç ngritjes së shqetësimeve në lidhje me natyrën e ndjeshme të shumicës së informacionit të kapur në të dhëna të mëdha, të cilat do të përshkruhen më poshtë, Qendra e të Dhënave në Utah është një shembull ekstrem i burimit të pasur të të dhënave që është i paarritshëm për kërkuesit. Në përgjithësi, shumë burime të të dhënave të mëdha që do të ishin të dobishme kontrollohen dhe kufizohen nga qeveritë (p.sh., të dhënat e taksave dhe të dhënat arsimore) ose kompanitë (p.sh., pyetjet për motorët e kërkimit dhe meta-të dhënat telefonike). Prandaj, edhe pse këto burime të të dhënave ekzistojnë, ato janë të padobishme për qëllime të hulumtimit social, sepse ato janë të paarritshme.
Në përvojën time, shumë hulumtues të bazuar në universitete keqkuptojnë burimin e kësaj paaftësie. Këto të dhëna janë të paarritshme, jo sepse njerëzit në kompani dhe qeveri janë budallenj, dembelë ose të pakujdesshëm. Përkundrazi, ka barriera serioze ligjore, afariste dhe etike që pengojnë hyrjen e të dhënave. Për shembull, disa marrëveshje të termave të shërbimit për faqet e internetit lejojnë vetëm të dhënat që përdoren nga punonjësit ose për të përmirësuar shërbimin. Pra format e caktuara të ndarjes së të dhënave mund t'i ekspozojnë kompanitë në padi të ligjshme nga konsumatorët. Ka gjithashtu rreziqe të konsiderueshme të biznesit për kompanitë e përfshira në shkëmbimin e të dhënave. Mundohuni të imagjinoni se si publiku do të përgjigjet nëse të dhënat e kërkimit personal të rrjedhur nga Google si pjesë e një projekti kërkimor universitar. Një shkelje e tillë e të dhënave, qoftë ekstreme, mund të jetë edhe një rrezik ekzistencial për kompaninë. Pra, Google-dhe shumica e kompanive të mëdha-janë shumë të rrezikuar nga ndarja e të dhënave me kërkuesit.
Në fakt, pothuajse kushdo që është në gjendje të sigurojë akses në sasi të mëdha të të dhënave e di historinë e Abdur Chowdhury. Në vitin 2006, kur ai ishte kreu i hulumtimit në AOL, ai me qëllim lëshoi në komunitetin hulumtues atë që ai mendonte se ishin anonim i pyetjeve të kërkimit nga 650,000 përdorues të AOL. Për aq sa unë mund të them, Chowdhury dhe studiuesit në AOL kishin qëllime të mira, dhe ata mendonin se kishin anonimizuar të dhënat. Por ata ishin të gabuar. Është zbuluar shpejt se të dhënat nuk ishin aq anonime sa mendonin hulumtuesit, dhe gazetarët nga New York Times ishin në gjendje të identifikonin me lehtësi dikë në grupin e të dhënave (Barbaro and Zeller 2006) . Sapo këto probleme u zbuluan, Chowdhury hoqi të dhënat nga faqja e internetit e AOL-së, por ishte tepër vonë. Të dhënat ishin ripublikuar në faqet e internetit të tjera, dhe ndoshta do të mbeten në dispozicion kur lexoni këtë libër. Chowdhury u shkarkua dhe oficeri i teknologjisë së lartë të AOL-së dha dorëheqjen (Hafner 2006) . Siç tregon ky shembull, përfitimet për individë të caktuar brenda kompanive për të lehtësuar aksesin e të dhënave janë mjaft të vogla dhe skenari më i keq është i tmerrshëm.
Studiuesit, megjithatë, ndonjëherë mund të kenë akses në të dhënat që janë të paarritshme për publikun e gjerë. Disa qeveri kanë procedura që hulumtuesit mund të ndjekin për të aplikuar për qasje, dhe siç tregojnë shembujt e mëvonshëm në këtë kapitull, hulumtuesit munden ndonjëherë të kenë akses në të dhënat e korporatave. Për shembull, Einav et al. (2015) u bashkua me një studiues në eBay për të studiuar ankandet në internet. Unë do të flas më shumë rreth hulumtimit që erdhi nga ky bashkëpunim më vonë në kapitull, por e përmend atë tani sepse i kishte të katër përbërësit që unë shoh në partneritete të suksesshme: interesi i studiuesit, aftësia e studiuesit, interesi i kompanisë dhe aftësia e kompanisë . Kam parë që shumë bashkëpunime të mundshme dështojnë, sepse kërkuesi ose partneri, qoftë kompani apo qeveri, i mungonte një nga këto përbërës.
Edhe nëse jeni në gjendje të zhvilloni një partneritet me një biznes apo të fitoni qasje në të dhëna të kufizuara të qeverisë, megjithatë, ka disa dobësi për ju. Së pari, ndoshta nuk do të jeni në gjendje të ndani të dhënat tuaja me hulumtuesit e tjerë, që do të thotë se studiuesit e tjerë nuk do të jenë në gjendje të verifikojnë dhe të zgjerojnë rezultatet tuaja. Së dyti, pyetjet që mund të kërkoni mund të jenë të kufizuara; kompanitë nuk kanë gjasa të lejojnë hulumtime që mund t'i bëjnë ato të duken të këqija. Përfundimisht, këto partneritete mund të krijojnë të paktën shfaqjen e një konflikti interesi, ku njerëzit mund të mendojnë se rezultatet tuaja janë ndikuar nga partneritetet tuaja. Të gjitha këto dobësi mund të adresohen, por është e rëndësishme të jetë e qartë se puna me të dhënat që nuk është i arritshëm për të gjithë ka dy avantazhe dhe dobësi.
Në përmbledhje, shumë të dhëna të mëdha janë të paarritshme për kërkuesit. Ekzistojnë barriera serioze ligjore, afariste dhe etike që pengojnë qasjen e të dhënave dhe këto pengesa nuk do të largohen pasi teknologjia përmirësohet sepse ato nuk janë barriera teknike. Disa qeveri kombëtare kanë krijuar procedura për mundësimin e qasjes së të dhënave për disa të dhëna, por procesi është veçanërisht ad hoc në nivel shtetëror dhe lokal. Gjithashtu, në disa raste, hulumtuesit mund të bashkëpunojnë me kompanitë për të marrë qasje në të dhëna, por kjo mund të krijojë një sërë problemesh për kërkuesit dhe kompanitë.