Gegevens fan bedriuwen en oerheden binne dreech foar ûndersikers te tagonklik.
Yn maaie 2014 iepene it Amerikaanske nasjonaal feiligens-ynstânsje in datasintrum yn 'e plattelân Utah mei in ûngefaarlike namme, it Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Dit data-sintrum, dat bekend is as it Utah Data Center, wurdt rapporteare om heulende mooglikheden te hawwen. Ien rapport betsjut dat it yn 'e regel kin alle formulaten fan' e kommunikaasje opslaan en ferwurkjen, ynklusyf "de folsleine ynhâld fan privee e-post, mobyl tillefoan, en Google sykje, lykas allegear persoanlike gegevens fan trails-parkearts, reisriden, boekwinkelsinkes , en oare digitale 'pocket út' (Bamford 2012) . Njonken de opmerking fan 'e gefoelige aard fan in protte fan' e ynformaasje dy't yn grutte gegevens opnommen is, wurde hjirnei beskreaun, it Utah Data Center is in ekstreem foarbyld fan in rike gegevensboarne dat net te berikken is foar ûndersikers. Mear generaal wurde in protte boarnen fan grutte gegevens dy't nuttich wêze sille wurde regele en beheind troch regearings (bygelyks belestinggegevens en edukative data) of bedriuwen (bygelyks fragen op sykmasines en tillefoannûmer meta-data). Dêrom, ek al binne dizze gegevensboarnen bestean, se binne nutteloos foar de doelen fan sosjale ûndersiken om't se net te besykber binne.
Yn myn erfaringen binne in soad ûndersikers dy't op universiteiten basearre binne misferstân de boarne fan dizze net te berikken. Dizze gegevens binne net tagonklik, om't minsken by bedriuwen en oerheden dumm, faul, of ûnkrêftich binne. Ynstee dêrfan binne serieuze juridyske, bedriuwichheid en etikale barrières dy't de gegevens tagonklik foarkomme. Bygelyks, wat betingsten foar betingsten foar betingsten foar websiden allinich foar gegevens te brûken troch meiwurkers te brûken of om de tsjinst te ferbetterjen. Sa kinne guon foarmen fan dielde daten bedriuwen bedriuwe kinne foar legitimearjende pleatsingen fan klanten. Der binne ek grutte bedriuwsrisiko 's foar bedriuwen dy't belutsen binne by it te dielen fan gegevens. Besykje te stellen hoe't it publyk reageare soe as persoanlike sykdatas ûngedien makke út Google as in part fan in universitêre ûndersyksprojekt. Soks in gegevensbrêge, as ekstreem, soe sels in besteand risiko wêze foar it bedriuw. Dus Google-en grutste bedriuwen - binne tige risiko - tsjinkomme oer it dielen fan gegevens mei ûndersikers.
In feit, hast elkenien dy't yn in posysje is om tagong te krijen ta grutte munten fan gegevens, wit it ferhaal fan Abdur Chowdhury. Yn 2006, doe't hy de haad fan ûndersyk op AOL wie, waard er yntinsyf frijlitten nei de ûndersyksmienskip wat er as anonymisearre sykfraach befette fan 650.000 AOL-brûkers. Sawol kin ik fertelle, Chowdhury en de ûndersikers op AOL hienen goede yntinsjes, en se tochten dat se de gegevens anonymisearre hiene. Mar se binne ferkeard. It waard fluch ûntdutsen dat de gegevens net as anonym wiene as de ûndersikers tinke, en rapporteurs fan 'e New York Times kamen ienris yn' e dataset te identifisearjen (Barbaro and Zeller 2006) . Ienris wiene dizze problemen ûntdutsen, Chowdhury fuorthelle de gegevens fan AOL's webside, mar it wie te let. De gegevens binne op oare websiden repostearre, en it sil wierskynlik noch beskikber wêze as jo dit boek lêze. Chowdhury waard ferwurde, en de haadtech-technologyoffisier fan AOL ûntfong (Hafner 2006) . As dit foarbyld lit sjen dat de foardielen foar spesifike persoanen binnen fan bedriuwen om de tagong tagong te fasilitearjen binne lyts lyts en it worst-saek-senario is skriklik.
Undersikers kinne lykwols somtiden tagong krije ta gegevens dy't net tagonklik binne foar it algemien publyk. Guon oerheden hawwe prosedueres dy't ûndersikers folgje kinne oanfreegje foar tagong, en as de foarbylden dy't letter yn dizze haadstik binne, kinne ûndersikers inkele tagong krije ta tagonklik gegevens. Bygelyks, Einav et al. (2015) ferienige mei in ûndersiker by eBay om online auctions te studearjen. Ik sil mear prate oer it ûndersyk dat fan dizze gearwurking letter yn it haadstik kaam, mar ik neame it no, om't it alle fjouwer fan 'e yngrediïnten hie dat ik yn súksesfolle gearwurkingspartijen sjoch: ûndersikersûndersyk, ûndersikerfermogen, bedriuwsinteressie en bedriuwfeardigens . Ik haw in soad potinsjele gearwurkingsûntstekken sjoen omdat wierskynlik as de ûndersiker of de partner - in bedriuw of regear wêze soe - ien fan dizze yngrediïnten.
Sels as jo in gearwurkingsferbân mei in saak ûntwikkelje kinne of tagong krije ta tagonklike oerheidsgegevens, dan binne der in pear foarfallen foar jo. Earst wurde jo wierskynlik net jo gegevens mei oare ûndersikers te dielen, wat betsjuttet dat oare ûndersikers net kinne jo resultaten ferifiearje en útwreidzje. Twad, de fragen dy't jo kinne freegje kinne wurde beheind; Bedriuwen binne ûnwislik om ûndersyk te meitsjen dy't se maklik sjogge. Uteinlik kinne dizze partnerskipen op syn minst it ferskinen fan in konflikt fan belang meitsje, wêr't minsken tinke dat jo resultaten beynfloede binne troch jo gearwurkingsferbannen. Allinich dizze ûnderdielen kinne oanpakt wurde, mar it is wichtich om dúdlik te meitsjen dat wurkjen mei gegevens dy't net tagonklik is foar elkenien hat beide opsiden en ûnderdielen.
Gearfetsje, in protte grutte gegevens binne net te besykjen foar ûndersikers. Der binne serieuze juridyske, bedriuwichheid en etikale barrières dy't de tagonklikheid foarkomme, en dizze barriens sil net fuort gean as technology ferbettert, om't se gjin technyske barriens binne. Guon nasjonaal regearingen hawwe prosedure fêststeld foar tagong fan tagong tagong foar guon datasetten, mar it proses is benammen ad hoc op 'e steat en lokaal nivo. Ek yn guon gefallen kinne ûndersikers mei bedriuwen partnerje om data tagong te krijen, mar dit kin in ferskaat oan problemen meitsje foar ûndersikers en bedriuwen.