Data miżmuma min-negozji u l-gvernijiet huma diffiċli għar-riċerkaturi jkollhom aċċess.
F'Mejju 2014, l-Aġenda ta 'Sigurtà Nazzjonali Amerikan fetħet ċentru tad-data fil Utah rurali li għandha l-isem skomdi, il Nazzjonali sigurtà ċibernetika Inizjattiva Data Center Intelligence Komunità Komprensiv. Madankollu, dan iċ-ċentru tad-data, li wasal li jkun magħruf bħala l-Center Data Utah, huwa rrappurtat li jkollha kemm kapaċitajiet ċifra inkredibbli. Rapport wieħed jallega li d-data Ċentru Utah huwa kapaċi li jaħżen u jipproċessa l-forom kollha ta 'komunikazzjoni inklużi "l-kontenut kollu ta' emails privati, sejħiet cell phone, u tfittxijiet Google, kif ukoll kull xorta ta 'dejta personali irċevuti trails-parkeġġ, itinerarji ivvjaġġar , ix-xiri librerija, u diġitali `mifrex oħra but" " (Bamford 2012) . Barra mill-iqajjem tħassib dwar in-natura sensittiva ta 'ħafna mill-informazzjoni jinqabdux dejta kbar, li se jiġi deskritt aktar hawn taħt, il--Data Center Utah huwa eżempju estrem ta' sors tad-data għani li ma jkunx aċċessibbli għar-riċerkaturi. B'mod aktar ġenerali, ħafna sorsi ta 'dejta kbar li jkunu utli għar-riċerkaturi huma kkontrollati u limitati minn gvernijiet (eż data fiskali u dejta edukattivi) u l-kumpaniji (eż, mistoqsijiet lil magni u telefonata meta-data tfittxija). Għalhekk, din id-data mhux se tkun disponibbli minnufih għar-riċerkaturi fl-universitajiet, u l-aktar mhux saħansitra se jkunu disponibbli għar-riċerkaturi fil-gvernijiet jew kumpaniji.
Fl-esperjenza tiegħi, ħafna riċerkaturi bbażati fl-universitajiet jifhmu ħażin l-sors ta 'din inaċċessibbiltà. Din id-data ma jkunux inaċċessibbli minħabba poplu fil-kumpaniji u l-gvernijiet huma stupid, għażżien, jew uncaring. Anzi, hemm serji legali, tekniċi, kummerċjali, u l-ostakli etiċi li jipprevjenu l-aċċess tad-data. Per eżempju, xi ftehimiet termini ta-servizz għall-websajts jippermettu biss li data li għandha tintuża mill-impjegati jew biex itejbu s-servizz. Allura ċerti forom ta 'skambju ta' dejta tista 'tesponi lill-kumpaniji biex kawżi leġittimi mill-klijenti. Hemm ukoll riskji kummerċjali sostanzjali għall-kumpaniji involuti fid-data ta 'qsim. Ipprova li wieħed jimmaġina kif il-pubbliku ser twieġeb jekk id-dejta tat-tiftix personali aċċidentalment nixxew barra mill-Google bħala parti minn proġett ta 'riċerka universitarja. Tali ksur tad-dejta, jekk estrema, jista 'anke jkun riskju eżistenzjali għall-kumpanija. Allura Google-u l-aktar kumpaniji kbar-wasalt kondiviżjoni ta 'data ma' riċerkaturi ħafna beżgħana-riskju.
Fil-fatt, kważi kulħadd li huwa f'pożizzjoni li jipprovdi aċċess għal ammonti kbar ta 'data jaf l-istorja ta' Abdur Chowdhury. Fl-2006, meta kien il-kap ta 'riċerka AOL, huwa intenzjonalment rilaxxati liema hu maħsub kienu anonimizzati tfittxija minn 650,000 utenti AOL għall-komunità tar-riċerka. Safejn I peux, Chowdhury u r-riċerkaturi fil AOL kellhom intenzjonijiet tajbin u ħasbu li kienu anonima-data. Iżda, dawn kienu żbaljati. Ġie malajr skoprew li d-data ma kinux anonima-riċerkaturi ħasbu, u jirrappurtawha mill-New York Times kienu kapaċi jidentifikaw in-nies fid-dataset bil-faċilità (Barbaro and Zeller Jr 2006) . Ladarba dawn il-problemi ġew skoperti, Chowdhury neħħiet id-data mill-websajt AOL, imma kien tard wisq. Id-data kienu ġew reposted fuq websajts oħra, u dan probabbilment se jibqa 'disponibbli meta inti taqra dan il-ktieb. Minħabba l-attentat tiegħu biex jaqsmu data mal-komunità tar-riċerka, Chowdhury kien sparati, u l-uffiċjal AOL kap tat-teknoloġija irriżenja (Hafner 2006) . Peress li dan l-eżempju juri, il-benefiċċji għall-individwi speċifiċi ġewwa tal-kumpaniji li jiffaċilitaw l-aċċess tad-data huma pjuttost żgħar u l-agħar xenarju hija terribbli.
Riċerka jista, madankollu, ikollhom aċċess għad-dejta li ma jkunx aċċessibbli għall-pubbliku ġenerali. Gvernijiet għandhom proċeduri li r-riċerkaturi tista 'ssegwi biex tapplika għal aċċess, u bħala l-eżempji aktar tard f'dan il-kapitolu juri, riċerkaturi jistgħu kultant jiksbu aċċess għal data korporattiva. Per eżempju, Einav et al. (2015) IMSEHBIN ma riċerkatur fl-eBay biex tistudja l-traċċi diġitali mill-irkanti onlajn. I ser nitkellmu aktar dwar ir-riċerka li ġew minn din il-kollaborazzjoni aktar tard fil-kapitolu (Sezzjoni 2.4.3.2), imma jien jsemmuha issa minħabba li kellha l-erba 'ingredjenti li nara fil sħubijiet ta' suċċess: interess riċerkatur, kapaċità riċerkatur, interess kumpanija, u l-kapaċità tal-kumpanija. Fi kliem ieħor, Einav u l-kollegi kienu interessati fi u kapaċi li jistudjaw irkanti onlajn. U, eBay kien ukoll. Madankollu, stajt tidher kollaborazzjoni possibbli jonqsu ħafna għaliex jew il-riċerkatur jew kumpanija ma kellhiex waħda minn dawn l-ingredjenti.
Anke jekk inti tista 'tiżviluppa sħubija ma' negozju, madankollu, hemm xi aspetti negattivi għalik. L-ewwel, il-mistoqsijiet li inti tista 'tistaqsi mad-dejta ma' probabbilment jiġi limitat; kumpaniji mhux probabbli li jippermettu riċerka li jista 'jagħmilhom ħarsa ħażina. It-tieni, inti probabilment mhux se jkunu jistgħu jaqsmu d-data tiegħek ma 'riċerkaturi oħra, li jfisser li r-riċerkaturi oħra mhux se tkun tista' tivverifika u testendi riżultati tiegħek. Barra minn hekk, dawn is-sħubijiet jistgħu joħolqu għall-inqas id-dehra ta 'kunflitt ta' interess, fejn in-nies jista 'jaħseb li r-riżultati tiegħek kienu influwenzati minn sħubiji tiegħek. Kollha ta 'dawn negattivi jistgħu jkunu indirizzati, iżda huwa importanti li jkun ċar li l-ħidma ma' data li ma tkunx aċċessibbli għal kulħadd kellu kemm upsides u negattivi.
Fil-qosor, lottijiet ta 'data kbar ma jkunx aċċessibbli għar-riċerkaturi. Hemm huma serji legali, tekniċi, kummerċjali, u l-ostakli etiċi li jipprevjenu aċċess għad-data, u dawn l-ostakoli ma jmorrux lil hinn. Il-gvernijiet nazzjonali ġeneralment ikunu stabbiliti proċeduri li jippermettu aċċess għad-data, iżda l-proċess tista 'tkun aktar ad hoc fil-livelli statali u lokali. Ukoll, f'xi każijiet, ir-riċerkaturi jistgħu sħab ma 'kumpaniji biex jiksbu aċċess għad-data, iżda dan jista' joħloq varjetà ta 'problemi għar-riċerkaturi.