Data a gedwir gan fusnesau a llywodraethau yn anodd i ymchwilwyr i gael mynediad.
Ym mis Mai 2014, agorodd y National Unol Daleithiau Agenda Diogelwch canolfan ddata yn Utah gwledig sy'n cael enw lletchwith, mae'r Gyfun Gymunedol Cudd-wybodaeth Cybersecurity Cenedlaethol Menter Data Center. Fodd bynnag, mae hyn yn ganolfan ddata, sydd wedi dod i gael ei adnabod fel y Utah Data Center, yn cael ei adrodd i gael galluoedd syfrdanol. Roedd un adroddiad yn honni bod y Data Utah Center yn gallu i storio a phrosesu pob math o gyfathrebu gan gynnwys "gynnwys cyflawn o negeseuon e-bost preifat, galwadau ffôn celloedd, a chwiliadau Google, yn ogystal â phob math o ddata personol derbynebau llwybrau-parcio, teithlenni teithio , prynu siop lyfrau, a `sbwriel arall digidol poced '" (Bamford 2012) . Yn ychwanegol at y pryderon godi ynghylch natur sensitif llawer o'r wybodaeth eu dal yn y data mawr, a fydd yn cael eu disgrifio yn fwy isod, mae'r Data Utah Center yn enghraifft eithafol o ffynhonnell ddata gyfoethog sy'n anhygyrch i ymchwilwyr. Yn fwy cyffredinol, mae llawer o ffynonellau data mawr a fyddai'n ddefnyddiol i ymchwilwyr yn cael eu rheoli ac yn cyfyngu gan lywodraethau (ee, data treth a data addysgol) a chwmnïau (ee, ymholiadau i beiriannau a galwad ffôn meta-ddata chwilio). Felly, ni fydd y data hyn ar gael ar unwaith i ymchwilwyr mewn prifysgolion, ac ni fydd y rhan fwyaf hyd yn oed fod ar gael i ymchwilwyr yn y llywodraethau neu gwmnïau.
Yn fy mhrofiad i, mae llawer o ymchwilwyr mewn prifysgolion camddeall ffynhonnell y anhygyrchedd hwn. Mae'r data hyn nid yn anhygyrch oherwydd bod pobl mewn cwmnïau a llywodraethau yn dwp, diog, neu ddidaro. Yn hytrach, mae yna ddifrifol cyfreithiol, technegol, busnes, a rhwystrau moesegol sy'n atal mynediad data. Er enghraifft, mae rhai cytundebau termau-of-wasanaeth ar gyfer gwefannau yn unig yn caniatáu i ddata gael ei defnyddio gan gyflogeion neu er mwyn gwella'r gwasanaeth. Felly gallai rhai mathau o rannu data agored cwmnïau i lawsuits cyfreithlon gan gwsmeriaid. Mae yna hefyd risgiau busnes sylweddol i gwmnïau sy'n ymwneud â rhannu data. Ceisiwch ddychmygu sut y byddai'r cyhoedd yn ymateb pe data chwilio personol gollwng allan yn ddamweiniol gan Google fel rhan o brosiect ymchwil prifysgol. torri data o'r fath, os eithafol, efallai hyd yn oed fod yn risg dirfodol ar gyfer y cwmni. Felly Google-a mwyaf mawr o gwmnïau-yn iawn gwrth-risg ynglŷn â rhannu data gydag ymchwilwyr.
Yn wir, mae bron pawb sydd mewn sefyllfa i ddarparu mynediad i symiau mawr o ddata yn gwybod y stori Abdur Chowdhury. Yn 2006, pan oedd y pennaeth ymchwil AOL, yn fwriadol a ryddhawyd yr hyn y mae'n credu eu anonymized ymholiadau chwilio o 650,000 o ddefnyddwyr AOL i'r gymuned ymchwil. Cyn belled ag y gallaf ddweud, roedd gan Chowdhury a'r ymchwilwyr yn AOL bwriadau da ac roedden nhw'n meddwl eu bod wedi anonymized y data. Ond, eu bod yn anghywir. Darganfuwyd yn gyflym nad oedd y data mor anhysbys ag ymchwilwyr yn meddwl, a gohebwyr o'r New York Times yn gallu nodi pobl yn y set ddata yn rhwydd (Barbaro and Zeller Jr 2006) . Unwaith y bydd y problemau hyn yn cael eu darganfod, tynnu Chowdhury y data o wefan AOL, ond roedd yn rhy hwyr. Mae'r data wedi eu reposted ar wefannau eraill, ac mae'n debyg y bydd yn dal i fod ar gael pan fyddwch yn darllen y llyfr hwn. Oherwydd ei ymgais i rannu data gyda'r gymuned ymchwil, Chowdhury ei danio, ac ymddiswyddodd brif swyddog technoleg AOL yn (Hafner 2006) . Gan fod yr enghraifft hon yn dangos, mae'r manteision i unigolion penodol y tu mewn o gwmnïau i hwyluso mynediad data yn eithaf bach ac mae'r sefyllfa waethaf yn ofnadwy.
Gall ymchwil, fodd bynnag, yn cael mynediad at ddata sy'n anhygyrch i'r cyhoedd yn gyffredinol. Llywodraethau ganddynt weithdrefnau y gall ymchwilwyr eu dilyn i wneud cais am fynediad, ac fel yr enghreifftiau yn nes ymlaen yn y sioe bennod hon, gall ymchwilwyr gael mynediad i ddata corfforaethol o bryd i'w gilydd. Er enghraifft, Einav et al. (2015) partneriaeth â ymchwilydd yn eBay i astudio'r olion digidol o arwerthiannau ar-lein. 'N annhymerus' siarad mwy am yr ymchwil a ddaeth o'r cydweithio hwn yn nes ymlaen yn y bennod (Adran 2.4.3.2), ond yr wyf yn sôn yn awr am fod ganddo bob pedwar o'r cynhwysion a welaf mewn partneriaethau llwyddiannus: llog ymchwilydd, gallu ymchwilydd, llog cwmni, a gallu cwmni. Mewn geiriau eraill, roedd Einav a chydweithwyr sydd â diddordeb mewn ac yn gallu astudio ar arwerthiannau ar-lein. Ac, roedd eBay hefyd. Fodd bynnag, rwyf wedi gweld llawer o gydweithio posib methu oherwydd naill ai yr ymchwilydd neu gwmni nid oedd un o'r cynhwysion hyn.
Hyd yn oed os ydych yn gallu i ddatblygu partneriaeth gyda busnes, fodd bynnag, mae rhai anfanteision i chi. Yn gyntaf, mae'r cwestiynau y gallwch ofyn gyda'r data gyda debygol fod yn gyfyngedig; cwmnïau yn annhebygol o ganiatáu ymchwil a allai eu gwneud yn edrych yn wael. Yn ail, mae'n debyg na fyddwch yn gallu rhannu eich data ag ymchwilwyr eraill, sy'n golygu na fydd ymchwilwyr eraill yn gallu i wirio ac ymestyn eich canlyniadau. Ymhellach, gall y partneriaethau hyn yn creu o leiaf yn edrych fel gwrthdaro buddiannau, lle y gallai pobl yn meddwl bod eich canlyniadau wedi eu dylanwadu gan eich bartneriaethau. Gall pob un o'r anfanteision hyn yn cael sylw, ond mae'n bwysig bod yn glir bod gweithio gyda data nad yw'n hygyrch i bawb roedd gan y ddau upsides ac anfanteision.
I grynhoi, mae llawer o ddata mawr yn anhygyrch i ymchwilwyr. Mae ddifrifol cyfreithiol, technegol, busnes, a rhwystrau moesegol sy'n atal mynediad data, ac ni fydd y rhwystrau hyn yn mynd i ffwrdd. llywodraethau cenedlaethol yn gyffredinol wedi sefydlu gweithdrefnau ar gyfer alluogi mynediad data, ond gall y broses fod yn fwy ad hoc ar y lefelau wladwriaeth a lleol. Hefyd, mewn rhai achosion, ymchwilwyr gall bartner gyda chwmnïau i gael mynediad data, ond gall hyn greu amrywiaeth o broblemau ar gyfer ymchwilwyr.