2.3.2.2 hindi mararating

Data na hawak ng mga negosyo at pamahalaan ay mahirap para sa mga mananaliksik na ang.

Noong Mayo 2014, ang US National Security Agenda binuksan ng isang data center sa rural Utah na may isang mahirap na pangalan, ang Intelligence Community Comprehensive Pambansang Cybersecurity Initiative Data Center. Gayunman, ang data na ito center, na kung saan ay dumating na kilala bilang ang Utah Data Center, ay iniulat na magkaroon ng lubhang kataka-taka kakayahan. One ulat alleges na ang Utah Data Center ay may kakayahan upang mag-imbak at iproseso ang lahat ng mga paraan ng komunikasyon kabilang ang "ang kumpletong nilalaman ng pribadong email, tawag sa cell phone, at mga paghahanap sa Google, pati na rin ang lahat ng uri ng personal na data resibo trails-parking, travel itineraries , bookstore pagbili, at iba pang mga digital `bulsa magkalat '" (Bamford 2012) . Bilang karagdagan sa mga pagtaas alalahanin tungkol sa sensitibong likas na katangian ng karamihan sa impormasyon nakuha sa malaking data, na kung saan ay inilarawan higit pa sa ibaba, ang Utah Data Center ay isang matinding halimbawa ng isang rich source ng data na ay hindi mararating sa mga mananaliksik. Higit pang mga pangkalahatan, maraming mga mapagkukunan ng malaking data na magiging kapaki-pakinabang sa mga mananaliksik ay kontrolado at hinihigpitan ng pamahalaan (halimbawa, buwis data at pang-edukasyon data) at mga kumpanya (eg, mga query sa mga search engine at tawag sa telepono meta-data). Samakatuwid, ang mga data ay hindi kaagad na magagamit sa mga mananaliksik sa unibersidad, at karamihan ay hindi kahit na magagamit sa mga mananaliksik sa mga pamahalaan o kumpanya.

Sa aking karanasan, maraming mga mananaliksik batay sa mga unibersidad hindi maunawaan o maintindihan ang pinagmulan ng kahirapan sa pagkarating na ito. Ang mga data ay hindi mararating dahil ang mga tao sa mga kumpanya at mga pamahalaan ay bobo, tamad, o uncaring. Sa halip, may mga seryosong legal, teknikal, negosyo, at etikal na mga hadlang na maiwasan ang data access. Halimbawa, ang ilang mga tuntunin-of-service kasunduan para sa mga website lamang payagan data na ginagamit ng mga empleyado o upang mapabuti ang serbisyo. Kaya ilang mga paraan ng pagbabahagi ng data ay maaaring maglantad sa mga kumpanya upang lehitimong lawsuits mula sa mga customer. May mga makabuluhang mga panganib ng negosyo sa mga kumpanya na kasangkot sa data sharing din. Subukang isipin kung paano ang pampublikong ay tumugon kung ang data personal search sinasadyang leaked out mula sa Google bilang bahagi ng isang proyekto unibersidad pananaliksik. Tulad ng isang paglabag ng data, kung extreme, maaaring kahit na maging isang existential panganib para sa kumpanya. So Google-at pinaka-malalaking kumpanya-ay masyadong panganib-tutol tungkol sa pagbabahagi ng data sa mga mananaliksik.

Sa katunayan, halos lahat ng tao kung sino ang nasa isang posisyon upang magbigay ng access sa mga malalaking halaga ng data alam ang kuwento ng Abdur Chowdhury. Noong 2006, kapag siya ay ang pinuno ng AOL pananaliksik, siya ay sadyang pinakawalan kung ano ang inisip niya ay hindi nakikilala query sa paghahanap mula 650,000 AOL user sa komunidad pananaliksik. Gaya malayo gaya maaari ko bang sabihin, Chowdhury at ang mga mananaliksik sa AOL ay may magandang intensyon at inisip nila na sila ay hindi nakikilala ang data. Ngunit, sila ay mali. Ito ay mabilis na natuklasan na ang mga data ay hindi bilang anonymous bilang ang mga mananaliksik naisip, at reporters mula sa New York Times ay able sa kilalanin ang mga tao sa dataset na may kadalian (Barbaro and Zeller Jr 2006) . Sa sandaling ang mga problemang ito ay natuklasan, Chowdhury inalis ang data mula sa AOL website, ngunit ito ay masyadong huli na. Ang data ay nag-repost sa ibang mga website, at ito ay malamang na makukuha pa rin kapag ikaw ay pagbabasa ng aklat na ito. Dahil sa kanyang mga pagtatangka upang ibahagi ang data sa mga komunidad pananaliksik, Chowdhury ay fired, at chief technology officer ni AOL nagbitiw (Hafner 2006) . Bilang halimbawa na ito ay nagpapakita, ang mga benepisyo para sa mga partikular na indibidwal sa loob ng mga kumpanya upang mapadali ang data access ay medyo maliit at ang pinakamasama-case na sitwasyon ay kahila-hilakbot.

Research ay maaaring, gayunpaman, makakuha ng access sa data na ito ay hindi naa-access sa publiko sa pangkalahatan. Pamahalaan magkaroon ng mga pamamaraan na ang mga mananaliksik ay maaaring sundin upang mag-aplay para sa access, at gaya ng mga halimbawa sa ibang pagkakataon sa kabanatang ito show, mga mananaliksik ay maaaring paminsan-minsan ay makakuha ng access sa corporate data. Halimbawa, Einav et al. (2015) nakipagsosyo sa isang researcher sa eBay mag-aral ng digital traces mula sa mga online Auctions. Kukunin ko makipag-usap ang nalalaman tungkol sa pananaliksik na nagmula sa pakikipagtulungan na ito mamaya sa kabanata (Seksyon 2.4.3.2), ngunit banggitin ko ito ngayon dahil ito ay nagkaroon ng lahat ng apat na mga sangkap na nakikita ko sa matagumpay na pakikipagtulungan: researcher interes, researcher kakayahan, kumpanya interes, at kumpanya kakayahan. Sa ibang salita, Einav at kasamahan ay interesado sa at may kakayahang pag-aaral online Auctions. At, eBay ay din. Gayunman, ko na nakita maraming mga posibleng pakikipagtulungan mabigo dahil alinman sa researcher o kumpanya lacked isa sa mga ingredients.

Kahit na ikaw ay magagawang upang bumuo ng isang pakikipagtulungan sa isang negosyo, gayunpaman, may mga ilang mga downsides para sa iyo. Una, ang mga katanungan na maaari mong tanungin sa mga data na may malamang ay limitado; mga kumpanya ay malamang na hindi upang payagan ang pananaliksik na maaaring gumawa ng mga ito hitsura masama. Pangalawa, ikaw ay malamang na hindi magagawang upang ibahagi ang iyong data sa iba pang mga mananaliksik, na nangangahulugan na ang iba pang ay hindi magagawang i-verify at palawakin ang iyong mga resulta. Dagdag dito, ang mga samahan ay maaaring lumikha ng hindi bababa sa ang hitsura ng isang salungatan ng interes, kung saan mga tao ay maaaring isipin na ang iyong mga resulta ay naiimpluwensyahan sa pamamagitan ng iyong pakikipagsosyo. Ang lahat ng mga downsides maaaring direksiyon, ngunit ito ay mahalaga upang maging malinaw na ang nagtatrabaho sa data na ito ay hindi naa-access sa lahat ng tao ay may parehong upsides at downsides.

Sa kabuuan, maraming mga malaking data ay hindi mararating sa mga mananaliksik. May mga seryosong legal, teknikal, negosyo, at etikal na mga hadlang na maiwasan ang data access, at mga hadlang ay hindi pumunta ang layo. Pambansang pamahalaan sa pangkalahatan ay may itinatag pamamaraan para sa pagpapagana ng access sa data, ngunit ang proseso ay maaaring maging mas ad hoc sa antas ng estado at lokal. Gayundin, sa ilang mga kaso, ang mga mananaliksik ay maaaring partner sa mga kumpanya upang makakuha ng data access, ngunit ito ay maaaring lumikha ng isang iba't ibang mga problema para sa mga mananaliksik.