Datumoj tenita de entreprenoj kaj registaroj estas malfacile por esploristoj aliri.
En majo 2014, la usona Nacia Sekureca Tagordo malfermis datumoj centro en kampara Utaho kiu havas mallerta nomo, la Inteligenteco Community Comprehensive Nacia Cybersecurity Iniciato Datumoj Centro. Tamen, ĉi datumoj centro, kiu venis al esti konita kiel la Utaho Datumoj Centro, estas raportita havi miriga kapablojn. Unu raporto asertas ke la Utaho Datumoj Centro povas stoki kaj procesi ĉiuj formoj de komunikado inter "la kompleta enhavo de privataj retpoŝtoj, poŝtelefono alvokoj kaj serĉoj de Google, krom ĉiaj personaj datumoj terreno-parkejo kvitancoj, vojaĝoj itineroj , librejo aĉetoj kaj aliaj ciferecaj 'poŝo portilo' " (Bamford 2012) . Krom la bredado zorgojn pri la sentema naturo de multo da la informo kaptita en grandaj datumoj, kion oni priskribas pli sube, la Utaho Datumoj Centro estas ekstrema ekzemplo de riĉa datumfonto kiu estas nealirebla al esploristoj. Pli ĝenerale, multaj fontoj de grandaj datumoj kiuj estus utilaj al la investigadores kontrolitaj kaj restriktita de registaroj (ekz, imposto datumojn kaj eduka datumoj) kaj entreprenojn (ekz pridemandojn serĉiloj kaj telefonvoko metadatumoj). Sekve, ĉi tiuj datumoj ne estos tuj disponebla por esploristoj en universitatoj kaj plej ne eĉ disponebla por esploristoj en la registaroj aŭ kompanioj.
En mia sperto, multaj esploristoj bazitaj ĉe universitatoj miskomprenas la fonto de tiu neatingebleco. Tiuj datumoj ne nealirebla ĉar homoj en entreprenoj kaj registaroj estas stultaj, maldiligentaj, aŭ indiferenta. Prefere, ekzistas seriozaj leĝaj, teknikaj, komercaj, kaj etikajn barojn kiuj malhelpas datumoj aliro. Ekzemple, iuj terminoj de servo interkonsentoj por retejoj nur permesas datumojn esti uzita de oficistoj aŭ plibonigi la servon. Tiel certaj formoj de datumoj sharing povus eksponi firmaojn legitima procesoj de klientoj. Ekzistas ankaŭ substanca negoco riskoj al firmaoj implikitaj en interŝanĝo de datumoj. Provu imagi kiel la publika respondus se persona serĉo datumoj hazarde likis el Google kadre de universitato esplorprojekto. Tia datuma fendo, se ekstrema, povus eĉ esti ekzisteca risko por la kompanio. Tiel Google-kaj plej grandaj entreprenoj-estas tre risko-averse pri dividanta datumon kun esploristoj.
Fakte, preskaŭ ĉiuj kiuj estas en pozicio por havigi aliron al grandaj kvantoj de datumoj konas la historion de Abdur Chowdhury. En 2006, kiam li estis la kapo de AOL esplorado, li intencite liberigis kion li pensis estis anonymized serĉo pridemandojn de 650.000 AOL uzantoj la esploro komunumo. Kiom mi povas diri, Chowdhury kaj la investigadores de AOL havis bonajn intencojn kaj ili pensis ke ili anonymized la datumoj. Sed ili malpravas. Ĝi rapide malkovris ke la datumoj ne estis tiel anonimaj kiel la esploristoj opiniis, kaj raportistoj de la New York Times povis identigi personoj en la aro de datumoj kun facileco (Barbaro and Zeller Jr 2006) . Iam tiuj problemoj estis malkovritaj, Chowdhury forigis la datumojn de AOL de afiŝinto, sed estis tro malfrue. La datumoj estis reposted sur aliaj retejoj, kaj ĝi verŝajne ankoraŭ estos havebla kiam vi legas tiun libron. Pro sia provo dividi datumojn kun la esploro komunumo, Chowdhury estis maldungita, kaj AOL cxef teknologio oficiro demisiis (Hafner 2006) . Kiel tiu ekzemplo montras, la profitoj por specifaj individuoj ene de kompanioj faciligi datumoj aliro estas sufiĉe malgranda kaj la plej malbona-kazo scenaro estas terura.
Esploro povas tamen konsenti datumojn kiuj estas nealireblaj al la ĝenerala publiko. Registaroj havas proceduroj ke esploristoj povas sekvi peti aliron, kaj kiel la ekzemploj poste en tiu ĉapitro spektaklo, esploristoj povas foje konsenti korporacia datumoj. Ekzemple, Einav et al. (2015) partnerita kun esploristo ĉe eBay por studi la diĝita spuroj de enreta aŭkcioj. Mi parolos pli pri la esplorado, kiu aperis de ĉi tiu kunlaborado poste en la ĉapitro (Sekcio 2.4.3.2), sed mi mencios ĝin nun ĉar ĝi havis ĉiujn kvar el la ingrediencoj kiuj mi vidas en sukcesaj partnerecoj: esploristo intereso, esploristo kapablo, Kompanio intereso kaj kompanio kapablo. Alivorte, Einav kaj kolegoj estis interesitaj kaj kapablaj de studi enreta aŭkcioj. Kaj, eBay ankaŭ. Tamen, mi vidis multajn eblajn kunlaborado malsukcesos ĉar nek la esploristo aŭ entrepreno mankis unu el tiuj ingrediencoj.
Eĉ se vi povas evoluigi partnerecon kun negoco, tamen, estas iuj downsides por vi. Unue, la demandoj kiujn vi povas demandi la datumojn probable limigita; kompanioj malprobable permesi esploradon kiu povus fari ilin rigardi malbona. Dua, vi verŝajne ne povos dividi viajn datumojn kun aliaj esploristoj, kio signifas ke aliaj esploristoj ne povos kontroli kaj etendi vian rezultoj. Plui, tiuj partnerecoj povas krei almenaŭ la ŝajnon de konflikto de intereso, kie homoj povus pensi ke via rezultoj estis influitaj de via partnerecoj. Ĉiuj tiuj downsides povas esti traktita, sed estas grave esti klara ke labori kun datumoj kiuj ne estas atingebla al ĉiuj havis ambaŭ upsides kaj downsides.
En resumo, multaj grandaj datumoj estas nealireblaj al esploristoj. Ekzistas seriozaj leĝaj, teknikaj, komercaj, kaj etikajn barojn kiuj malhelpas datumoj aliro, kaj tiuj baroj ne foriros. Naciaj registaroj ĝenerale fortikigus proceduroj por enŝalti datumoj aliro, sed la procezo povas esti pli ad hoc en la ŝtato kaj lokaj niveloj. Ankaŭ, en iuj kazoj, esploristoj povas partneron kun firmaoj por akiri datumojn aliro, sed tio povas krei diversajn problemojn por esploristoj.