Mae data a gedwir gan gwmnïau a llywodraethau yn anodd i ymchwilwyr gael mynediad.
Ym mis Mai 2014, agorodd Asiantaeth Diogelwch Cenedlaethol yr UD ganolfan ddata yng nghefn gwlad Utah gydag enw lletchwith, Canolfan Ddata Cybersecurity Cenedlaethol Cynhwysfawr y Gymuned Intelligence. Fodd bynnag, adroddir bod gan y ganolfan ddata hon, a elwir yn Ganolfan Ddata Utah, alluoedd rhyfeddol. Mae un adroddiad yn honni ei bod yn gallu storio a phrosesu pob math o gyfathrebu, gan gynnwys "cynnwys llawn negeseuon e-bost preifat, galwadau ffôn gell, a chwiliadau Google, yn ogystal â phob math o lwybrau data personol - derbyniadau parcio, teithiau teithio, pryniannau siopau llyfrau , a 'sbwriel poced' digidol arall (Bamford 2012) . Yn ychwanegol at godi pryderon ynghylch natur sensitif llawer o'r wybodaeth a gesglir mewn data mawr, a ddisgrifir ymhellach isod, mae Canolfan Ddata Utah yn enghraifft eithafol o ffynhonnell ddata gyfoethog sy'n anhygyrch i ymchwilwyr. Yn fwy cyffredinol, bydd llawer o ffynonellau data mawr a fyddai'n ddefnyddiol yn cael eu rheoli a'u cyfyngu gan lywodraethau (ee data treth a data addysgol) neu gwmnïau (ee, ymholiadau i beiriannau chwilio a mete-ddata galwadau ffôn). Felly, er bod y ffynonellau data hyn yn bodoli, maent yn ddiwerth at ddibenion ymchwil gymdeithasol oherwydd eu bod yn anhygyrch.
Yn fy mhrofiad i, mae llawer o ymchwilwyr sydd wedi'u lleoli mewn prifysgolion yn camddeall ffynhonnell yr anhygyrch hwn. Nid yw'r data hyn yn anhygyrch oherwydd bod pobl mewn cwmnďau a llywodraethau yn dwp, yn ddiog, neu'n annarllen. Yn hytrach, mae rhwystrau cyfreithiol, busnes a moesegol difrifol sy'n atal mynediad i ddata. Er enghraifft, mae rhai cytundebau telerau gwasanaeth ar gyfer gwefannau yn caniatáu i weithwyr ddefnyddio data neu i wella'r gwasanaeth. Felly, gallai mathau penodol o rannu data ddatgelu cwmnïau i lawsuits cyfreithiol gan gwsmeriaid. Mae yna risgiau busnes sylweddol hefyd i gwmnïau sy'n ymwneud â rhannu data. Ceisiwch ddychmygu sut y byddai'r cyhoedd yn ymateb pe bai data chwiliad personol wedi gollwng yn ddamweiniol allan o Google fel rhan o brosiect ymchwil prifysgol. Gallai torri o'r math hwn, os yw'n eithafol, hyd yn oed fod yn risg existential i'r cwmni. Felly, mae Google-a'r mwyafrif o gwmnïau mawr yn anffafri iawn am rannu data gydag ymchwilwyr.
Mewn gwirionedd, mae bron pawb sydd mewn sefyllfa i ddarparu mynediad i lawer iawn o ddata yn gwybod stori Abdur Chowdhury. Yn 2006, pan oedd yn bennaeth ymchwil yn AOL, fe ryddhaodd yn fwriadol i'r gymuned ymchwil yr hyn y credai oedd ymholiadau chwilio heb enw o 650,000 o ddefnyddwyr AOL. Cyn belled ag y gallaf ddweud, roedd gan Chowdhury a'r ymchwilwyr yn AOL bwriadau da, a chredent eu bod wedi cael y wybodaeth ddienw. Ond roedden nhw'n anghywir. Darganfuwyd yn gyflym nad oedd y data mor ddienw ag y gwnaeth yr ymchwilwyr ei feddwl, ac roedd gohebwyr o'r New York Times yn gallu adnabod rhywun yn y set ddata yn rhwydd (Barbaro and Zeller 2006) . Unwaith y darganfuwyd y problemau hyn, tynnodd Chowdhury y data oddi ar wefan AOL, ond roedd yn rhy hwyr. Roedd y data wedi'i ail-leoli ar wefannau eraill, ac mae'n debyg y bydd ar gael o hyd pan fyddwch chi'n darllen y llyfr hwn. Arweiniodd Chowdhury, ac ymddiswyddodd prif swyddog technoleg AOL (Hafner 2006) . Fel y dengys yr enghraifft hon, mae'r manteision i unigolion penodol y tu mewn i gwmnïau i hwyluso mynediad i ddata yn eithaf bach ac mae'r sefyllfa waethaf yn ofnadwy.
Fodd bynnag, gall ymchwilwyr weithiau gael mynediad at ddata sy'n anhygyrch i'r cyhoedd yn gyffredinol. Mae gan rai llywodraethau weithdrefnau y gall ymchwilwyr eu dilyn i wneud cais am fynediad, ac fel yr enghreifftiau yn ddiweddarach yn y sioe bennod hon, gall ymchwilwyr weithiau gael mynediad at ddata corfforaethol. Er enghraifft, Einav et al. (2015) cyd-weithio ag ymchwilydd yn eBay i astudio arwerthiannau ar-lein. Byddaf yn siarad mwy am yr ymchwil a ddaeth o'r cydweithio hwn yn ddiweddarach yn y bennod, ond yr wyf yn sôn amdano nawr oherwydd bod ganddo'r pedwar o'r cynhwysion yr wyf yn eu gweld mewn partneriaethau llwyddiannus: diddordeb ymchwilwyr, gallu ymchwilwyr, diddordeb cwmni a gallu cwmni . Rwyf wedi gweld llawer o gydweithredu posib yn methu oherwydd naill ai'r ymchwilydd neu'r partner - boed yn gwmni neu gan y llywodraeth - heb un o'r cynhwysion hyn.
Hyd yn oed os ydych chi'n gallu datblygu partneriaeth gyda busnes neu gael mynediad at ddata cyfyngedig yn y llywodraeth, fodd bynnag, mae yna rai lleiafrifoedd i chi. Yn gyntaf, mae'n debyg na fyddwch yn gallu rhannu eich data gydag ymchwilwyr eraill, sy'n golygu na fydd ymchwilwyr eraill yn gallu gwirio ac ymestyn eich canlyniadau. Yn ail, gall y cwestiynau y gallwch ofyn eu cyfyngu; mae'n annhebygol y bydd cwmnïau yn caniatáu ymchwil a allai eu gwneud yn edrych yn wael. Yn olaf, gall y partneriaethau hyn greu o leiaf ymddangosiad gwrthdaro buddiannau, lle gallai pobl feddwl bod eich partneriaethau yn dylanwadu ar eich canlyniadau. Gellir mynd i'r afael â phob un o'r rhain i lawr, ond mae'n bwysig bod yn glir bod gweithio gyda data nad yw'n hygyrch i bawb yn cael y tu hwnt i'r llall.
I grynhoi, mae llawer o ddata mawr yn anhygyrch i ymchwilwyr. Mae rhwystrau cyfreithiol, busnes a moesegol difrifol sy'n atal mynediad i ddata, ac ni fydd y rhwystrau hyn yn mynd i ffwrdd wrth i dechnoleg wella oherwydd nad ydynt yn rhwystrau technegol. Mae rhai llywodraethau cenedlaethol wedi sefydlu gweithdrefnau ar gyfer galluogi mynediad i ddata ar gyfer rhai setiau data, ond mae'r broses yn arbennig o ad hoc ar lefel y wladwriaeth a lleol. Hefyd, mewn rhai achosion, gall ymchwilwyr bartneru â chwmnïau i gael mynediad i ddata, ond gall hyn greu amrywiaeth o broblemau i ymchwilwyr a chwmnïau.