La datumoj de kompanioj kaj registaroj estas malfacilaj por esploristoj aliri.
En majo 2014, la Usona Nacia Sekureca Agentejo malfermis datumcentron en kampara Utaho kun mallerta nomo, la Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Tamen, ĉi tiu datuma centro, kiu estas konata kiel la Utah Datiĝascentro, estas informita por havi mirindajn kapablojn. Unu raporto asertas, ke ĝi povas stoki kaj prilabori ĉiujn komunikadojn, inkluzive de "la kompletaj enhavo de privataj retpoŝtoj, poŝtelefonoj kaj serĉoj de Google, kaj ankaŭ ĉiuj specoj de personaj spuroj-parkantaj ricevoj, vojaĝoj de itineroj, librovendejoj , kaj aliaj ciferecaj "poŝŝtonoj" (Bamford 2012) . Krom levi konzernojn pri la sentema naturo de multe da la informo kaptita en grandaj datumoj, kiuj estos priskribitaj pli sube sube, la Utah Datiĝascentro estas ekstrema ekzemplo de riĉa datuma fonto, kiu estas nealirebla por esploristoj. Pli ĝenerale, multaj fontoj de grandaj datumoj utilaj estas kontrolitaj kaj restriktitaj de registaroj (ekz. Impostaj datumoj kaj edukaj datumoj) aŭ kompanioj (ekz., Konsultoj al serĉiloj kaj telefonvokatoj). Sekve, kvankam ĉi tiuj datumaj fontoj ekzistas, ili estas netaŭgaj por la socia esplorado, ĉar ili estas nealireblaj.
En mia sperto multaj esploristoj bazitaj en universitatoj malkomprenas la fonto de ĉi tiu neaktivebleco. Ĉi tiuj datumoj estas nealireblaj, ĉar homoj en kompanioj kaj registaroj estas stulta, mallaborema aŭ senkulpa. Prefere, estas gravaj leĝaj, komercaj kaj etikaj baroj, kiuj malhelpas la aliron de datumoj. Ekzemple, iuj interkonsentoj pri terminoj-de-servo por retejoj nur permesas datumojn esti uzataj de dungitoj aŭ plibonigi la servon. Do iuj formoj de datum-sharing povus elmontri firmaojn al leĝaj plendoj de klientoj. Ankaŭ ekzistas gravaj komercaj riskoj al kompanioj implikitaj en dividado de datumoj. Provu imagi, kiel la publiko respondus, se personaj serĉaj datumoj hazarde ellasis el Google kiel parto de universitata esplora projekto. Tia datuma breĉo, se ekstrema, povus eĉ esti ekzistanta risko por la kompanio. Do Google-kaj plej grandaj kompanioj-estas tre riska-averse pri dividado de datumoj kun esploristoj.
Fakte, preskaŭ ĉiuj, kiuj estas en pozicio por havigi aliron al grandaj kvantoj da datumoj, konas la historion de Abdur Chowdhury. En 2006, kiam li estis la esplorado ĉe AOL, li intence liberigis al la esplorkomunumo, kion li pensis, estis anonimataj serĉaj demandoj de 650,000 AOL-uzantoj. Kiom mi povas diri, Chowdhury kaj la esploristoj ĉe AOL havis bonajn intencojn, kaj ili pensis, ke ili havas anonimigitajn datumojn. Sed ili estis malĝuste. Ĝi rapide malkovris, ke la datumoj ne estis tiel anonimaj kiel la esploristoj pensis, kaj raportistoj de la Nov-Jorko Prifriponas povis facile identigi iun en la datumaro (Barbaro and Zeller 2006) . Unufoje ĉi tiuj problemoj estis malkovritaj, Chowdhury forigis la datumojn de la retejo de AOL, sed ĝi estis tro malfrue. La datumoj estis repostitaj en aliaj retejoj, kaj ĝi verŝajne ankoraŭ estos disponebla kiam vi legas ĉi tiun libron. Chowdhury estis pafita, kaj la ĉefa teknologia oficiro de AOL rezignis (Hafner 2006) . Kiel ĉi tiu ekzemplo montras, la avantaĝoj por specifaj individuoj ene de kompanioj por faciligi datan aliron estas sufiĉe malgrandaj kaj la plej malbona kazo estas terura.
Esploristoj povas, tamen, kelkfoje akiri aliron al datumoj ne atingeblaj al la ĝenerala publiko. Iuj registaroj havas procedurojn, kiujn esploristoj povas sekvi por peti aliron, kaj kiel la ekzemploj poste en ĉi tiu ĉapitro montras, esploristoj povas foje akiri aliron al kompania datumoj. Ekzemple, Einav et al. (2015) kunlaboris kun esploristo ĉe eBay por studi interretajn aŭkciojn. Mi parolos pli pri la esplorado, kiu devenis ĉi tiun kunlaboradon poste en la ĉapitro, sed mi mencias ĝin nun ĉar ĝi havis ĉiujn kvar ingrediencojn, kiujn mi vidas en prosperaj partnerecoj: esploristo, kapableco de esploristo, interesaj kompanioj kaj firmao . Mi vidis multajn eblajn kunlaborojn malsukcesante ĉar aŭ la esploristo aŭ la partnero, ĉu ĝi estas kompanio aŭ registaro, mankis unu el ĉi tiuj ingrediencoj.
Eĉ se vi kapablas disvolvi kunlaboradon kun komerco aŭ akiri aliron al limigitaj registaraj datumoj, tamen ekzistas kelkaj malhelpoj por vi. Unue vi verŝajne ne povos dividi viajn datumojn kun aliaj esploristoj, kio signifas, ke aliaj esploristoj ne povos kontroli kaj etendi viajn rezultojn. Due, la demandoj, kiujn vi povas peti, povas esti limigitaj; kompanioj ne similas permesi esploradon, kiu povus fari ilin aspekti malbone. Fine, ĉi tiuj partnerecoj povas krei almenaŭ la aspekton de konflikto de intereso, kie homoj povus pensi, ke viaj rezultoj influis viajn partnerojn. Ĉiuj ĉi tiuj malaltiĝoj povas esti traktataj, sed gravas esti klare, ke laborante kun datumoj ne atingeblaj al ĉiuj havas ambaŭ malfruojn kaj malfruojn.
En resumo, multaj grandaj datumoj estas nealireblaj por esploristoj. Estas seriozaj leĝaj, komercaj kaj etikaj baroj, kiuj malhelpas la aliron de datumoj, kaj ĉi tiuj baroj ne foriros kiel teknologio plibonigas ĉar ili ne estas teknikaj baroj. Iuj naciaj registaroj havas procedojn establitaj por ebligi aliron al datumoj por iuj datumoj, sed la procezo estas precipe ad hoc ĉe la ŝtataj kaj lokaj niveloj. Ankaŭ, en iuj kazoj, esploristoj povas kunlabori kun kompanioj por akiri datum-aliron, sed tio povas krei diversajn problemojn por esploristoj kaj kompanioj.