Gegevens hâlden troch bedriuwen en oerheden binne dreech foar ûndersikers om tagong.
Yn maaie 2014, de Amerikaanske National Security Aginda iepene in data sintrum yn plattelân Utah, dat hat in ûnhandich namme, de Intelligence Mienskip Comprehensive National Cybersecurity Initiative Data Center. Mar, dizze data sintrum, dat hat komme te wurde bekend as de Utah Data Center, is rapportearre oan hawwe astounding mooglikheden. Ien rapport alleges dat de Utah Data Center is by steat om te slaan en ferwurkjen alle foarmen fan kommunikaasje wêrûnder "de folsleine ynhâld fan partikuliere mails, mobile tillefoan ropt, en Google sykopdrachten, likegoed as allerhanne persoanlike gegevens routes-parking Receipts, travel rûtes , boekhannel oankeapen, en oare digitale `pocket swerfôffal '" (Bamford 2012) . Neist it grutbringen soargen oer de gefoelige natuer fan in soad fan de ynformaasje fêstlein yn grutte gegevens, dy't sil wurde beskreaun mear hjirûnder, de Utah Data Center is in ekstreme foarbyld fan in rike gegevens boarne dat is net tagonklik foar ûndersikers. Mear algemien, in protte boarnen fan grutte gegevens dy't soe wêze nuttich foar ûndersikers wurde regele en beheind troch oerheden (bygelyks, belesting gegevens en edukatyf gegevens) en bedriuwen (bygelyks, fragen om te sykje motors en telefoantsje meta-gegevens). Dêrom, dizze gegevens sille net daliks beskikber foar ûndersikers op universiteiten, en de measte sil net sels wêze beskikber foar ûndersikers yn de oerheden of bedriuwen.
Yn myn ûnderfining, in protte ûndersikers basearre op universiteiten misbegripe de boarnetekst fan dizze inaccessibility. Dy gegevens binne net ûntagonklik omdat minsken by bedriuwen en oerheden binne dom, loai, of uncaring. Leaver, binne der serieus wetlike, technyske, it bedriuwslibben, en etyske barriêres dy't foarkomme gegevens tagong. Bygelyks, guon betingsten-fan-tsjinst ôfspraken foar websiden allinne tastean gegevens te brûkt wurde troch meiwurkers of te ferbetterjen de tsjinst. Sa bepaalde foarmen fan data dielen koe bleat bedriuwen oan legitime rjochtsaken út klanten. Der binne ek substansjele saaklike risiko foar bedriuwen belutsen by dielen gegevens. Besykje om te tinken hoe't it publyk soe reagearje as persoanlike sykje gegevens by ûngelok lekte út Google as ûnderdiel fan in universiteit ûndersyk projekt. Sa'n gegevens breach, as ekstreme, miskien sels wêze in eksistinsjele risiko foar it bedriuw. Sa Google-en meast grutte bedriuwen-binne tige risiko-ôfkearich oer dielen fan gegevens mei ûndersikers.
Yn feite, hast elkenien dy't yn in posysje te jaan tagong ta grutte bedraggen fan gegevens ken it ferhaal fan Abdur Chowdhury. Yn 2006, doe't er de holle fan AOL ûndersyk, hy mei opsetsin frijlitten wat er tocht waarden anonymized sykje fragen fan 650.000 AOL brûkers oan it ûndersyk mienskip. Foar safier as ik kin sizze, Chowdhury en de ûndersikers by AOL hie goede bedoelingen en se tochten dat se hiene anonymized de gegevens. Mar, se wiene ferkeard. It waard rillegau ûntdekt dat de gegevens wiene net sa anonym as de ûndersikers tochten, en ferslachjouwers út 'e New York Times wienen by steat om te identifisearjen minsken yn de dataset mei gemak (Barbaro and Zeller Jr 2006) . Sadree't dy problemen waarden ûntdutsen, Chowdhury fuorthelle de gegevens út AOL syn webside, mar it wie te let. De gegevens waarden Reposted op oare websteeën, en dat sil nei alle gedachten noch beskikber wêze as jo lêzen dit boek. Fanwegen syn besykjen om te dielen gegevens mei it ûndersyk mienskip, Chowdhury waard ûntslein, en AOL fan haad technology offisier ûntslach (Hafner 2006) . As dit foarbyld docht bliken, de foardielen foar spesifike partikulieren de binnenkant fan de bedriuwen te fasilitearjen gegevens tagong binne moai lyts en de slimste-case senario is ferskriklik.
Ûndersyk kin, lykwols, krije tagong ta gegevens dat is net tagonklik foar it grutte publyk. Oerheden hawwe prosedueres dy't ûndersikers kinne folgje ta te passen foar tagong, en as de foarbylden letter yn dit haadstik show, ûndersikers kinne sa no en dan krije tagong ta Corporate gegevens. Bygelyks, Einav et al. (2015) partnered mei in ûndersiker op eBay te bestudearjen de digitale spoaren fan online ferkeapingen. Ik praat mear oer it ûndersyk, dat kaam fan dizze gearwurking letter yn it haadstik (paragraaf 2.4.3.2), mar ik neame dat no omdat it hie al fjouwer fan de yngrediïnten dy't ik sjoch yn suksesfolle gearwurkingsferbannen: ûndersiker belangstelling, ûndersiker kapasiteit, bedriuw belangstelling, en bedriuw kapasiteit. Yn oare wurden, Einav en kollega wienen ynteressearre yn en by steat fan stúdzje online ferkeapingen. En, eBay wie ek. Mar, ik ha sjoen in soad mooglik gearwurking fail omdat itsij de ûndersiker of bedriuw miste ien fan dy yngrediïnten.
Ek as jo by steat binne te ûntwikkeljen in partnerskip mei in bedriuw, lykwols, binne der in tal downsides foar dy. Earste, de fragen dy't jo freegje mei de gegevens mei nei alle gedachten te beheind; bedriuwen binne net te tastean ûndersyk dat koe om se sjen bad. Twadde, jimme sille nei alle gedachten net by steat wêze om diele jo gegevens mei oare ûndersikers, wat betsjut dat oare ûndersikers sil net by steat wêze om te kontrolearjen en útwreidzje jo resultaten. Fierder, dy gearwurkingsferbannen kinne meitsje op syn minst de skyn fan in konflikt fan belang, dêr't minsken kinne tinke dat jo resultaten waarden beynfloede troch jo gearwurkingsferbannen. Alle fan dizze downsides kinne oanpakt wurde, mar it is wichtich om te wêzen dúdlik dat wurkjen mei gegevens dat is net tagonklik foar eltsenien hie sawol upsides en downsides.
Yn gearfetting, in soad grutte gegevens is net tagonklik foar ûndersikers. Der binne serieus juridyske, technyske, it bedriuwslibben, en etyske barriêres dy't foarkomme gegevens tagong, en dizze drompels sil net gean fuort. Nasjonale oerheden algemien hawwe fêststeld prosedueres foar it ynskeakeljen fan gegevens tagong, mar it proses kin wêze mear ad hoc by de steat en lokaal nivo. Ek, yn guon gefallen, ûndersikers kinne partner mei bedriuwen te krijen gegevens tagong, mar dit kin in ferskaat oan problemen foar ûndersikers.