Ang data na hawak ng mga kumpanya at pamahalaan ay mahirap para ma-access ng mga mananaliksik.
Noong Mayo 2014, binuksan ng US National Security Agency ang sentro ng data sa kanayunan ng Utah na may isang awkward name, ang Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Gayunpaman, ang sentro ng datos na ito, na kilala bilang Utah Data Center, ay iniulat na mayroong kamangha-manghang mga kakayahan. Sinasabi ng isang ulat na maaari itong iimbak at iproseso ang lahat ng mga paraan ng komunikasyon kabilang ang "kumpletong nilalaman ng mga pribadong email, mga tawag sa cell phone, at mga paghahanap sa Google, pati na rin ang lahat ng uri ng personal na trail ng data-mga resibo sa paradahan, mga itinerary sa paglalakbay, mga pagbili sa bookstore , at iba pang mga digital 'bulsa na magkalat' " (Bamford 2012) . Bilang karagdagan sa pagpapalaki ng mga alalahanin tungkol sa sensitibong katangian ng karamihan ng impormasyon na nakuha sa malaking data, na inilarawan sa ibaba, ang Utah Data Center ay isang matinding halimbawa ng isang rich source ng data na hindi naa-access sa mga mananaliksik. Sa pangkalahatan, maraming mga mapagkukunan ng malaking data na magiging kapaki-pakinabang ay kinokontrol at pinaghihigpitan ng mga pamahalaan (halimbawa, data ng buwis at data sa edukasyon) o mga kumpanya (hal., Mga query sa mga search engine at meta-data ng tawag sa telepono). Samakatuwid, kahit na ang mga pinagmumulan ng data ay umiiral, walang silbi ang mga ito para sa mga layunin ng panlipunang pananaliksik dahil hindi sila mapupuntahan.
Sa aking karanasan, maraming mga mananaliksik na nakabase sa mga unibersidad ay hindi maunawaan ang pinagmulan ng hindi naa-access. Ang mga datos na ito ay hindi maaabot dahil ang mga tao sa mga kumpanya at gobyerno ay mga bobo, tamad, o walang pag-aalinlangan. Sa halip, may mga malubhang legal, negosyo, at etikal na mga hadlang na pumipigil sa pag-access ng data. Halimbawa, ang ilang mga kasunduan sa termino sa serbisyo para sa mga website ay nagpapahintulot lamang sa data na gagamitin ng mga empleyado o upang mapabuti ang serbisyo. Kaya ang ilang mga paraan ng pagbabahagi ng data ay maaaring ilantad ang mga kumpanya sa mga lehitimong lawsuits mula sa mga customer. Mayroon ding mga malaking panganib sa negosyo sa mga kumpanya na kasangkot sa pagbabahagi ng data. Sikaping isipin kung paano tutugon ang publiko kung ang personal na data ng paghahanap ay di-sinasadyang natanggal mula sa Google bilang bahagi ng isang proyekto sa pananaliksik sa unibersidad. Ang nasabing paglabag sa data, kung sobra, ay maaaring maging isang panganib na eksistensyal para sa kumpanya. Kaya ang Google-at karamihan sa mga malalaking kumpanya-ay labis na mapanganib tungkol sa pagbabahagi ng data sa mga mananaliksik.
Sa katunayan, halos lahat ng nasa posisyon upang magbigay ng access sa malalaking halaga ng data ay alam ang kuwento ni Abdur Chowdhury. Noong 2006, nang siya ang pinuno ng pananaliksik sa AOL, sinadya niyang inilabas sa komunidad ng pananaliksik kung ano ang inisip niya ay mga anonymous na query sa paghahanap mula sa 650,000 na gumagamit ng AOL. Bilang malayo sa maaari kong sabihin, Chowdhury at ang mga mananaliksik sa AOL ay may mahusay na intensyon, at naisip nila na sila ay hindi nakikilala ang data. Ngunit sila ay mali. Mabilis na natuklasan na ang data ay hindi nakapagpakilalang gaya ng iniisip ng mga mananaliksik, at ang mga reporters mula sa New York Times ay nakilala ang isang tao sa dataset nang madali (Barbaro and Zeller 2006) . Sa sandaling natuklasan ang mga problemang ito, inalis ng Chowdhury ang data mula sa website ng AOL, ngunit huli na. Ang data ay nai-reposted sa iba pang mga website, at posibleng magagamit pa rin ito kapag binabasa mo ang aklat na ito. Ang Chowdhury ay pinaputok, at ang punong opisyal ng teknolohiya ng AOL ay nagbitiw (Hafner 2006) . Tulad ng ipinakita sa halimbawang ito, ang mga benepisyo para sa mga partikular na indibidwal sa loob ng mga kumpanya upang mapadali ang pag-access ng data ay medyo maliit at ang pinakamasama na sitwasyon ay kahila-hilakbot.
Gayunpaman, ang mga mananaliksik ay maaaring makakuha ng access sa data na hindi naa-access sa pangkalahatang publiko. Ang ilang pamahalaan ay may mga pamamaraan na maaaring sundin ng mga mananaliksik upang mag-aplay para sa pag-access, at bilang mga halimbawa sa ibang pagkakataon sa pagpapakita ng kabanatang ito, ang mga mananaliksik ay maaaring paminsan-minsang makakuha ng access sa corporate data. Halimbawa, ang Einav et al. (2015) nakipagsosyo sa isang mananaliksik sa eBay upang mag-aral ng mga online na auction. Gusto kong makipag-usap nang higit pa tungkol sa pananaliksik na nagmula sa pakikipagtulungan na ito sa huli sa kabanata, ngunit binabanggit ko ito ngayon dahil mayroon itong lahat ng apat na sangkap na nakikita ko sa matagumpay na pakikipagsosyo: interes ng tagapagpananaliksik, kakayahan ng tagapagpananaliksik, interes ng kumpanya, at kakayahan ng kumpanya . Nakakita ako ng maraming mga potensyal na pakikipagtulungan na nabigo dahil sa alinman sa mananaliksik o ang kasosyo-maging isang kumpanya o pamahalaan-kulang sa isa sa mga sangkap na ito.
Kahit na maaari kang bumuo ng isang pakikipagtulungan sa isang negosyo o makakuha ng access sa pinaghihigpitan data ng pamahalaan, gayunpaman, mayroong ilang mga downsides para sa iyo. Una, malamang na hindi mo maibabahagi ang iyong data sa iba pang mga mananaliksik, na nangangahulugan na ang ibang mga mananaliksik ay hindi makapag-verify at mapalawak ang iyong mga resulta. Pangalawa, ang mga katanungan na maaari mong itanong ay maaaring limitado; ang mga kumpanya ay malamang na hindi pinapayagan ang pananaliksik na maaaring gumawa ng mga ito hitsura masama. Sa wakas, ang mga pakikipagsosyo na ito ay maaaring lumikha ng hindi bababa sa hitsura ng isang kontrahan ng interes, kung saan maaaring isipin ng mga tao na ang iyong mga resulta ay naiimpluwensyahan ng iyong mga pakikipagsosyo. Ang lahat ng mga downsides ay maaaring matugunan, ngunit ito ay mahalaga upang maging malinaw na ang pagtatrabaho sa data na hindi naa-access sa lahat ay may parehong upsides at downsides.
Sa buod, maraming mga malaking data ay hindi naa-access sa mga mananaliksik. May mga seryosong ligal, negosyo, at etikal na mga hadlang na pumipigil sa pag-access ng data, at ang mga hadlang na ito ay hindi mawawala habang nagpapabuti ang teknolohiya dahil hindi sila teknikal na mga hadlang. Ang ilang mga pambansang pamahalaan ay nagtatag ng mga pamamaraan para ma-enable ang access ng data para sa ilang mga dataset, ngunit ang proseso ay lalo na ad hoc sa antas ng estado at lokal. Gayundin, sa ilang mga kaso, ang mga mananaliksik ay maaaring makipagsosyo sa mga kumpanya upang makakuha ng access sa data, ngunit maaari itong lumikha ng iba't ibang mga problema para sa mga mananaliksik at mga kumpanya.