Date deținute de întreprinderi și guvernele sunt dificil de cercetători pentru a avea acces.
În luna mai 2014, Agenda Națională de Securitate din SUA a deschis un centru de date din Utah rurale, care are un nume ciudat, de Informații cuprinzătoare a Comunității Naționale Cybersecurity Inițiativa Data Center. Cu toate acestea, acest centru de date, care a ajuns să fie cunoscut sub numele de Data Center Utah, este raportat de a avea capacitati uluitoare. Într-un raport susține că Data Center Utah este capabil de a stoca și procesa toate formele de comunicare, inclusiv "conținutul complet de email-uri private, apeluri telefon mobil, și căutările Google, precum și tot felul de date cu caracter personal chitanțe trasee-parcare, itinerarii de călătorie , achizițiile librărie, și alte digitale `așternut de buzunar '" (Bamford 2012) . În plus față de preocupările de sensibilizare cu privire la natura sensibilă a multe din informațiile capturate în date mari, care vor fi descrise mai jos, Data Center Utah este un exemplu extrem al unei surse de date bogate , care este inaccesibil cercetătorilor. Mai mult, în general, mai multe surse de date mari care ar fi utile pentru cercetători sunt controlate și restricționate de guverne (de exemplu, date fiscale și date educaționale) și companiile (de exemplu, interogări la motoare și apel telefonic meta-date de căutare). Prin urmare, aceste date nu vor fi disponibile imediat pentru cercetatorii de la universitati, iar cele mai multe nu chiar vor fi puse la dispoziția cercetătorilor din guvernele sau companiile.
În experiența mea, mulți cercetători cu baza la universități înțeleg greșit sursa acestei inaccesibilitate. Aceste date nu sunt inaccesibile, deoarece oamenii de la companiile și guvernele sunt proști, leneși, sau nepăsător. Mai degrabă, există serioase legale, tehnice, de afaceri și barierele etice care împiedică accesul la date. De exemplu, unele acorduri termeni de serviciu pentru site-uri permit numai datele care urmează să fie utilizate de către angajați sau pentru a îmbunătăți serviciul. Așa că anumite forme de utilizare în comun a datelor ar putea expune companiile la procese legitime din partea clienților. Există, de asemenea, riscuri de afaceri substanțiale companiilor implicate în schimbul de date. Încercați să vă imaginați cum ar răspunde public în cazul în care datele de căutare cu caracter personal scurs accidental de la Google, ca parte a unui proiect de cercetare universitară. O astfel de încălcare a securității datelor, în cazul în care extreme, ar putea fi chiar un risc existențial pentru companie. Astfel încât Google și cele mai mari companii-sunt despre schimbul de date cu cercetatori foarte aversiune fata de risc.
De fapt, aproape toți cei care se află în poziția de a oferi acces la cantități mari de date stie povestea Abdur Chowdhury. În 2006, când a fost șeful de cercetare AOL, a lansat în mod intenționat ceea ce el a crezut că au fost anonimizate interogări de căutare de la 650.000 utilizatori AOL pentru comunitatea de cercetare. Din câte îmi pot spune, Chowdhury si cercetatorii de la AOL a avut intenții bune și au crezut că au anonimizat.START_BREAKSTART_BREAKNu datele. Dar s-au înșelat. A fost descoperit repede că datele nu au fost la fel de anonim ca sa crezut cercetatorii, iar reporterii de la New York Times au fost capabili să identifice oamenii în setul de date cu ușurință (Barbaro and Zeller Jr 2006) . Odată ce aceste probleme au fost descoperite, Chowdhury eliminarea datelor de pe site-ul web al AOL, dar a fost prea târziu. Datele au fost pe repostase alte site-uri, și va fi, probabil, încă disponibilă atunci când citiți această carte. Din cauza încercarea sa de a face schimb de date cu comunitatea de cercetare, Chowdhury a fost concediat, iar Chief Technology Officer AOL a demisionat (Hafner 2006) . După cum arată acest exemplu, beneficiile pentru persoane fizice specifice în interiorul companiilor pentru a facilita accesul la date sunt destul de mici, iar scenariul cel mai rău caz este teribil.
Cercetarea poate, cu toate acestea, obține acces la datele care sunt inaccesibile publicului larg. Guvernele au proceduri care cercetatorii pot urma pentru a solicita accesul, și ca exemplele mai târziu în acest capitol sunt, cercetatorii pot obtine ocazional acces la datele companiei. De exemplu, Einav et al. (2015) , un parteneriat cu un cercetator de la eBay pentru a studia urmele digitale de la licitații on - line. Voi vorbi mai multe despre cercetările care au venit din aceasta colaborare mai târziu, în capitolul (secțiunea 2.4.3.2), dar o menționez acum pentru că avea toate cele patru ingrediente pe care le văd în parteneriate de succes: interesul cercetător, capacitatea de cercetător, interesul companiei și capacitatea de companie. Cu alte cuvinte, Einav si colegii sai au fost interesați și capabile de a studia licitații on-line. Și eBay a fost, de asemenea. Cu toate acestea, am vazut multe posibila colaborare da gres deoarece fie cercetătorul sau societatea lipsea unul dintre aceste ingrediente.
Chiar dacă sunt în măsură să dezvolte un parteneriat cu o afacere, cu toate acestea, există unele dezavantaje pentru tine. În primul rând, întrebările pe care le puteți adresa cu datele cu probabil să fie limitate; companiile sunt puțin probabil să permită cercetare care ar putea să le arate rău. În al doilea rând, probabil că nu va fi în măsură să furnizeze datele dumneavoastră cu alți cercetători, ceea ce înseamnă că alți cercetători nu vor fi în măsură să verifice și să extindă rezultatele. Mai mult, aceste parteneriate se pot crea cel puțin aparența unui conflict de interese, în cazul în care oamenii s-ar putea crede că rezultatele au fost influențate de parteneriatele tale. Toate aceste dezavantaje pot fi abordate, dar este important să fie clar că lucrul cu date care nu este accesibilă pentru toată lumea a avut atât upsides și dezavantaje.
Pe scurt, o mulțime de date de mare este inaccesibil cercetătorilor. Există mai grave legale, tehnice, de afaceri și barierele etice care împiedică accesul la date, iar aceste bariere nu vor dispărea. Guvernele naționale, în general, s-au stabilit proceduri care să permită accesul la date, dar procesul poate fi mai ad-hoc, la nivel de stat și locale. De asemenea, în unele cazuri, cercetatorii pot colabora cu companii pentru a obține acces la date, dar acest lucru poate crea o varietate de probleme pentru cercetători.