Enpresek eta gobernuek egindako datuak oso zailak dira ikertzaileek sartzeko.
2014ko maiatzean, Estatu Batuetako Segurtasun Nazionaleko Agentziak Utahko landa eremuko datu zentro bat ireki zuen izen bizkorra, Intelligence Community Integrated National Cybersecurity Initiative Data Center. Hala eta guztiz ere, datu-zentro hau, Utahko Datuen Zentroa izendatu den bezala, harrigarria da gaitasunik izatea. Txosten batek alegatzen du komunikazio mota guztiak gordetzeko eta prozesatzeko gai dela, "mezu pribatuak, telefono bidezko deiak eta Google bilaketaren eduki osoa, eta baita datu pertsonalen ibilbideak, aparkalekuak, ibilbideak, liburudendako erosketak ... , eta beste 'poltsikoetako hondakin' digitalak " (Bamford 2012) . Datu handietan harrapatutako informazioaren sentikortasunari buruzko kezkak areagotzeaz gain, azpitik azalduko direnez, Utahko Datuen Zentroa ikertzaileentzat ezinbestekoa den datu-iturri aberats baten adibidea da. Oro har, datu handien iturri ugari baliagarriak izango dira gobernuek (adibidez, zerga datuak eta hezkuntza-datuak) edo enpresek (adibidez, bilaketa motorrak eta telefono bidezko meta-datuak kontsultatzeko) kontrolatuta eta mugatuta. Hori dela eta, nahiz eta datu-iturri hauek existitzen diren, ez dira alferrikakoak ikerketa sozialerako helburuetarako, aldaezinak baitira.
Nire esperientzian, unibertsitateetan oinarritutako ikertzaile askok gaizki ulertzen dute inaktibitate horren iturriak. Datu hauek ez daude eskuraezinak, enpresek eta gobernuek ergelak, alferrak edo uncaringak direlako. Bestalde, datuen sarbidea saihesten duten oztopo juridiko, negozio eta etiko larriak daude. Esate baterako, webguneetako termino-zerbitzuen akordioak datu pertsonalak langileek erabil ditzake edo zerbitzua hobetzeko baimena ematen du. Beraz, zenbait datu-motak enpresek bezeroen auziak legitimatzeko aukera izan dezakete. Datu partekatzeetan parte hartzen duten enpresen negozio arriskuak ere badira. Saiatu jendea bilaketa pertsonala datuetatik ustekabean Google-tik unibertsitateko ikerketa proiektuaren parte izatetik ateratzea iruditzen bazaizu. Datuak urratu, hala nola, muturrekoak, enpresaren arrisku existentziala izan liteke. Beraz, Google-ren eta enpresarik handienek oso arriskutsuak dira ikertzaileekin datuak partekatzeko.
Izan ere, datu kantitate handietarako sarbidea duten guztiek ia denek dakite Abdur Chowdhury-ren istorioa. 2006an, AOL-en ikerketa buruan zegoenean, ikerketa-komunitateari nahita atera zitzaion 650.000 AOL erabiltzaileen bilaketa-bilaketa anonimoak bilatzen zituela. Kontatu ahal dudan neurrian, Chowdhuryk eta AOLko ikertzaileek asmo onak izan zituzten eta datu anonimoak zituztela pentsatu zuten. Baina oker ziren. Azkar aurkitu zuten datuek ez zirela ikertzaileek uste zuten anonimotzat hartu, eta New York Times-eko erreportariak datu (Barbaro and Zeller 2006) norbait erraz identifikatzeko gai izan ziren (Barbaro and Zeller 2006) . Arazo horiek aurkitu ondoren, Chowdhuryk AOL-en webguneko datuak kendu zituen, baina beranduegi zen. Datu horiek beste webgune batzuetara itzuliko dira, eta ziurrenik oraindik ere erabilgarri egongo da liburu hau irakurtzen ari zarenean. Chowdhuryk tiro egin zuen, eta AOLen teknologia-teknikariek dimisioa aurkeztu zuten (Hafner 2006) . Adibide gisa, datuen sarbidea errazteko partikularrentzako abantailak nahiko txikiak dira eta kasu txarrena oso handia da.
Ikertzaileek, ordea, batzuetan publiko orokorrera iristeko datuetara sarbidea izan dezakete. Gobernu batzuek sarbide eskaera jarraitu dezaketen ikertzaileek prozedurak dituzte eta, kapitulu honetan agertzen diren adibide gisa, ikertzaileek noizean behin datu korporatiboetara sarbidea izan dezakete. Adibidez, Einav et al. (2015) eBayko ikertzaile batekin elkartu zen online enkanteak aztertzeko. Lankidetza hau geroago kapituluan egindako ikerketei buruz hitz egingo dut, baina orain aipatzen dut elkarrizketa arrakastatsuak ikusten ditudan lau osagai hauek: ikertzaileen interesak, ikertzaileen gaitasuna, enpresen interesak eta enpresa gaitasuna . Lankidetza potentzial asko ikusi ditut, ikertzaileak edo bikotekideak, enpresak edo gobernuak izan ezean, osagai horietako bat izan ez zedin.
Nahiz eta enpresa bateko lankidetza garatzeko edo gobernu mugatuen datuak eskuratzeko gai izan, ordea, ez dago zuretzako eragozpenik. Lehenik eta behin, agian ezingo dituzu zure datuak beste ikertzaile batzuekin partekatzeko gai, hau da, beste ikertzaileek ezin izango dituztela emaitzak egiaztatzeko eta zabaltzeko gai. Bigarrenik, galdetu ditzakezun galderak mugatuak izan daitezke; Zalantzarik gabe, enpresek ez dute ikerketak txarragoak izan zitezen. Azkenean, lankidetzarakoek gutxieneko interes gatazkaren sorrera sor dezakete, zure ustez zure lankidetzak eragina izan duten pertsonek uste lukete. Desegoki hauek guztiak zuzendu ahal izango dira, baina garbi dago garbi dagoela guztion eskura ez dauden datuekin lan egitea, bai irteerak eta bai inertzia.
Laburbilduz, datu handiak asko ikertzaileentzat ez dira eskura. Datuen sarbidea saihesten duten oztopo juridiko, negozio eta etiko larriak daude, eta oztopo horiek ez dira teknologiak hobetzen, oztopo teknikoak ez direlako. Zenbait gobernu nazionalek datu-sarbideen datuak sartzeko aukera ematen duten prozedurak ezarri dituzte, baina prozesua batez ere egoera eta tokiko mailan ad-hoc dago. Halaber, kasu batzuetan, ikertzaileek enpresekin bazkidetu dezakete datuen sarbidea lortzeko, baina ikertzaileek eta enpresek arazo ugari sortzen dituzte.