Datele deținute de companii și de guverne sunt dificil de accesat de către cercetători.
În mai 2014, Agenția Națională de Securitate a Statelor Unite a deschis un centru de date în mediul rural din Utah, cu un nume incomod, Centrul de date al Centrului de informații privind inițiativa Cybersecurity Community Intelligence Community Comprehensive. Cu toate acestea, acest centru de date, care a devenit cunoscut sub numele de Utah Data Center, este raportat că are capabilități uluitoare. Un raport afirmă că este capabil să stocheze și să proceseze toate formele de comunicare, inclusiv conținutul complet al e-mailurilor personale, ale apelurilor telefonice și ale căutărilor Google, precum și tot felul de trasee de date cu caracter personal - chitanțe de parcare, itinerarii de călătorie, , și alte "buzunare de buzunar" digitale " (Bamford 2012) . În plus față de ridicarea preocupărilor legate de natura delicată a multor informații capturate în date mari, care vor fi descrise mai jos, Centrul de date Utah este un exemplu extrem de sursă de date bogată, inaccesibilă cercetătorilor. În general, multe surse de date importante care ar fi utile sunt controlate și restricționate de către guverne (de exemplu, date fiscale și date educaționale) sau companii (de exemplu, interogări la motoarele de căutare și metadatele de apel telefonic). Prin urmare, chiar dacă aceste surse de date există, ele sunt inutile în scopurile cercetării sociale, deoarece sunt inaccesibile.
Din experiența mea, mulți cercetători din universități înțeleg greșit sursa acestei inaccesibilități. Aceste date sunt inaccesibile nu pentru că oamenii de la companii și guverne sunt proști, leneși sau necuviincioși. Mai degrabă, există bariere serioase juridice, de afaceri și etice care împiedică accesul la date. De exemplu, anumite acorduri privind termenii de serviciu pentru site-uri web permit numai utilizarea datelor de către angajați sau îmbunătățirea serviciului. Astfel, anumite forme de partajare a datelor ar putea expune companiile la procese legitime din partea clienților. Există, de asemenea, riscuri semnificative pentru întreprinderile implicate în schimbul de date. Încercați să vă imaginați cum ar răspunde publicul dacă datele personale de căutare s-au scurs accidental de la Google ca parte a unui proiect de cercetare universitară. O astfel de încălcare a datelor, dacă este extremă, ar putea fi chiar un risc existențial pentru companie. Astfel, Google și majoritatea companiilor mari sunt foarte atent la riscul de a face schimb de date cu cercetătorii.
De fapt, aproape toți cei care sunt în măsură să ofere acces la cantități mari de date cunosc povestea lui Abdur Chowdhury. În 2006, când a fost șeful departamentului de cercetare al AOL, a lansat în mod intenționat comunității de cercetare ceea ce credea că au fost anonime de căutare de la 650 000 de utilizatori AOL. Din câte vă pot spune, Chowdhury și cercetătorii de la AOL au avut intenții bune și au crezut că au anonimizat datele. Dar ei s-au înșelat. Sa descoperit repede că datele nu erau la fel de anonime cum credeau cercetătorii, iar reporterii de la New York Times au reușit să identifice cu ușurință pe cineva din setul de date (Barbaro and Zeller 2006) . Odată ce aceste probleme au fost descoperite, Chowdhury a eliminat datele de pe site-ul AOL, dar a fost prea târziu. Datele au fost reproduse pe alte site-uri web și probabil vor fi disponibile și atunci când citiți această carte. Chowdhury a fost concediat, iar responsabilul tehnic al AOL a demisionat (Hafner 2006) . După cum arată acest exemplu, beneficiile pentru anumite persoane din interiorul companiilor pentru a facilita accesul la date sunt destul de mici, iar scenariul cel mai rău caz este teribil.
Cu toate acestea, cercetătorii pot obține uneori acces la date inaccesibile publicului larg. Unele guverne au proceduri pe care cercetătorii le pot urma pentru a aplica pentru acces și, după cum arată exemplele de mai jos în acest capitol, cercetătorii pot, ocazional, să obțină acces la date corporative. De exemplu, Einav et al. (2015) colaborat cu un cercetător la eBay pentru a studia licitațiile online. Voi vorbi mai mult despre cercetarea care a venit din această colaborare mai târziu în acest capitol, dar o menționez acum pentru că a avut toate cele patru ingrediente pe care le văd în parteneriatele de succes: interesul cercetătorului, capacitatea cercetătorului, interesul companiei și capacitatea companiei . Am văzut că multe colaborări potențiale nu reușesc deoarece cercetătorul sau partenerul - fie o companie sau un guvern - nu aveau unul din aceste ingrediente.
Chiar dacă sunteți în măsură să dezvoltați un parteneriat cu o afacere sau să obțineți acces la date guvernamentale restrânse, totuși, există unele dezavantaje pentru dvs. În primul rând, probabil că nu veți putea să vă împărțiți datele cu alți cercetători, ceea ce înseamnă că alți cercetători nu vor putea să verifice și să vă extindă rezultatele. În al doilea rând, întrebările pe care le puteți adresa pot fi limitate; este puțin probabil ca firmele să permită cercetări care ar putea face ca acestea să pară rău. În cele din urmă, aceste parteneriate pot crea cel puțin apariția unui conflict de interese, în care oamenii ar putea crede că rezultatele dvs. au fost influențate de parteneriatele dvs. Toate aceste dezavantaje pot fi abordate, dar este important să fie clar că lucrul cu date care nu este accesibil tuturor are atât avantaje, cât și dezavantaje.
În concluzie, multe date importante sunt inaccesibile cercetătorilor. Există bariere serioase legale, de afaceri și etice care împiedică accesul la date și aceste bariere nu vor dispărea, pe măsură ce tehnologia se îmbunătățește, deoarece acestea nu sunt bariere tehnice. Unele guverne naționale au stabilit proceduri pentru a permite accesul la date pentru anumite seturi de date, însă procesul este în mod special ad-hoc la nivel de stat și local. De asemenea, în unele cazuri, cercetătorii pot colabora cu companii pentru a obține acces la date, dar acest lucru poate crea o varietate de probleme pentru cercetători și companii.