Takwimu uliofanyika kwa biashara na serikali ni vigumu kwa watafiti na upatikanaji.
Mwezi Mei 2014, Marekani ya Usalama wa Taifa Agenda kufunguliwa kituo cha data katika maeneo ya vijijini Utah ambayo ina jina Awkward, Intelligence Jumuiya Comprehensive National Cybersecurity Initiative Data Center. Hata hivyo, hii kituo cha data, ambayo ina kuja kujulikana kama Utah Data Center, imeripotiwa kuwa na uwezo ajabu. Ripoti moja anadai kuwa Utah Data Center ni uwezo wa kuhifadhi na kuchakata aina zote za mawasiliano ikiwa ni pamoja na "yaliyomo kamili ya barua pepe binafsi, wito simu ya mkononi, na utafutaji wa Google, kama vile kila aina ya data binafsi trails-maegesho risiti, itineraries kusafiri , manunuzi duka la vitabu, na wengine digital `mfukoni takataka '" (Bamford 2012) . Mbali na wasiwasi kuinua kuhusu hali nyeti ya mengi ya habari alitekwa katika data kubwa, ambayo itakuwa ilivyoelezwa zaidi chini, Utah Data Center ni mfano uliokithiri wa data tajiri chanzo kwamba ni inaccessible kwa watafiti. Zaidi kwa ujumla, vyanzo vingi vya data kubwa kwamba itakuwa na manufaa kwa watafiti ni kudhibitiwa na vikwazo kwa serikali (kwa mfano, takwimu za kodi na data za kielimu) na makampuni (kwa mfano, maswali na injini za utafutaji na kupiga simu meta-data). Kwa hiyo, data hizi haitakuwa mara moja inapatikana kwa watafiti katika vyuo vikuu, na zaidi huwezi hata kuwa inapatikana kwa watafiti katika serikali au makampuni.
Katika uzoefu wangu, watafiti wengi msingi katika vyuo vikuu kutoelewa chanzo cha kukosekana hii. Hizi data ni si inaccessible kwa sababu watu katika makampuni na serikali ni wajinga, wavivu, au wasiojali. Badala yake, kuna makubwa ya kisheria, kiufundi, biashara, na vikwazo kimaadili kwamba kuzuia kupata data. Kwa mfano, baadhi ya masharti ya-huduma mikataba kwa ajili ya Nje tu kuruhusu data kutumiwa na wafanyakazi au kuboresha huduma. Hivyo aina fulani ya kugawana data inaweza nje makampuni ya kesi za kisheria halali kutoka kwa wateja. Pia kuna kikubwa hatari ya biashara ya makampuni ya kushiriki katika kugawana data. Jaribu kufikiria jinsi ya umma bila kujibu kama data binafsi search ajali kuvuja nje kutoka Google kama sehemu ya mradi wa utafiti wa chuo kikuu. Uvunjaji vile data, ikiwa uliokithiri, anaweza hata kuwa hatari existential kwa kampuni. Hivyo Google-na wengi makampuni makubwa-ni sana hatari wakipuuza kuhusu kugawana data na watafiti.
Kwa kweli, karibu kila mtu ambaye ni katika nafasi ya kutoa upatikanaji wa kiasi kikubwa cha data anajua hadithi ya Abdur Chowdhury. Mwaka 2006, wakati yeye alikuwa mkuu wa AOL utafiti, yeye makusudi iliyotolewa nini alidhani walikuwa anonymized maswali search kutoka 650,000 AOL watumiaji jamii ya utafiti. Mbali kama naweza kukuambia, Chowdhury na watafiti katika AOL walikuwa na nia nzuri na wao walidhani kwamba walikuwa anonymized data. Lakini, walikuwa na makosa. Ilikuwa haraka aligundua kwamba data walikuwa si kama bila majina kama watafiti mawazo, na waandishi wa habari kutoka New York Times walikuwa na uwezo wa kutambua watu katika CCD kwa urahisi (Barbaro and Zeller Jr 2006) . Mara baada ya matatizo haya walikuwa aligundua, Chowdhury kuondolewa data kutoka tovuti AOL, lakini ilikuwa ni kuchelewa mno. data amekuwa kuchapishwa tena kwenye tovuti nyingine, na pengine bado itakuwa inapatikana wakati wewe ni kusoma kitabu hiki. Kwa sababu ya jaribio lake la kushiriki data na jamii ya utafiti, Chowdhury alikuwa fired, na AOL afisa mkuu wa teknolojia alijiuzulu (Hafner 2006) . Kama mfano huu inaonyesha, faida kwa watu maalum ndani ya makampuni ili kuwezesha upatikanaji data ni pretty ndogo na mbaya zaidi kesi ni ya kutisha.
Utafiti unaweza, hata hivyo, kupata huduma kwa data kwamba ni inaccessible kwa umma kwa ujumla. Serikali zina taratibu ambazo watafiti wanaweza kufuata kuomba kwa ajili ya upatikanaji, na kama mifano baadaye katika show hii sura, watafiti wanaweza mara kwa mara kupata huduma kwa data ya ushirika. Kwa mfano, Einav et al. (2015) ilishirikiana na mtafiti katika eBay kujifunza athari digital kutoka minada online. Mimi itabidi kuzungumza zaidi kuhusu utafiti kwamba alikuja kutoka ushirikiano huu baadaye katika sura (Sehemu ya 2.4.3.2), lakini mimi kutaja hayo sasa kwa sababu alikuwa na zote nne za viungo kwamba mimi kuona katika ushirikiano mafanikio: mtafiti riba, uwezo mtafiti, kampuni riba, na uwezo wa kampuni. Kwa maneno mengine, Einav na wenzake walikuwa na shauku katika na uwezo wa kusoma minada online. Na, eBay pia alikuwa. Hata hivyo, nimeona kushirikiana wengi iwezekanavyo kushindwa kwa sababu ama mtafiti au kampuni walikosa moja ya viungo hivi.
Hata kama wewe ni uwezo wa kuendeleza ushirikiano na biashara, hata hivyo, kuna baadhi ya downsides kwa ajili yenu. Kwanza, maswali ambayo unaweza kuuliza kwa data na uwezekano mdogo; makampuni ni uwezekano wa kuruhusu utafiti ambayo inaweza kuwafanya kuangalia mbaya. Pili, wewe pengine kuwa na uwezo wa kushiriki data yako na watafiti wengine, ambayo ina maana kwamba wengine watafiti hawataweza kuthibitisha na kupanua matokeo yako. Zaidi ya hayo, ushirikiano huu unaweza kujenga angalau muonekano wa mgongano wa maslahi, ambapo watu wanaweza kufikiri kwamba matokeo yako walikuwa wamevutiwa na ushirikiano wako. Wote wa downsides haya yanaweza kuangaliwa, lakini ni muhimu kuwa wazi kwamba kufanya kazi na data ambayo si kupatikana kwa kila mtu alikuwa na upsides wote na downsides.
Kwa muhtasari, kura ya data kubwa ni inaccessible kwa watafiti. Kuna makubwa ya kisheria, kiufundi, biashara, na vikwazo kimaadili kwamba kuzuia kupata data, na vikwazo hivi si kwenda mbali. Serikali za kitaifa kwa ujumla kuwa imara taratibu za kuwezesha upatikanaji data, lakini mchakato inaweza kuwa zaidi ya dharula katika ngazi ya serikali za mitaa. Pia, katika baadhi ya kesi, watafiti wanaweza kushirikiana na makampuni kupata huduma data, lakini hii inaweza kujenga matatizo mbalimbali kwa watafiti.