Data hallussa yritysten ja viranomaisten on vaikea tutkijoilla on käytettävissään.
Toukokuussa 2014 US National Security Agenda avasi konesalin maaseudulla Utahin joka on hankala nimi, Intelligence yhteisön kattava kansallinen Tietoverkkojen Initiative Data Center. Tämä data center, joka on tullut tunnetuksi nimellä Utah Data Center, on raportoitu olevan hämmästyttäviä ominaisuuksia. Yksi raportti väittää, että Utah Data Center voi tallentaa ja käsitellä kaikki viestinnän muodot mukaan lukien "koko sisällön yksityisiä sähköposteja, matkapuhelin puhelut, ja Google-haut sekä kaikenlaisia henkilötiedot polkuja pysäköinti kuitit, matkasuunnitelmien , kirjakauppa ostoksia, ja muita digitaalisia `tasku pentueen" (Bamford 2012) . Lisäksi nostamista huoli arkaluonteisuuden paljon tietoja jää iso data, jota selitetään alla, Utah Data Center on äärimmäinen esimerkki rikkaasta tietolähteeseen, joka on saavuttamattomissa tutkijoille. Yleisemmin monia lähteitä suuret tietojen olisi hyödyllistä tutkijoita ohjataan ja rajoitetaan valtioiden (esim verotiedot ja koulutus data) ja yritykset (esim kyselyt hakukoneita ja puhelu meta-data). Siksi nämä tulokset eivät ole välittömästi saatavilla tutkijoille yliopistoissa, ja useimmat eivät edes käytettävissä tutkijoiden hallitusten tai yrityksiä.
Kokemukseni, monet tutkijat perustuu yliopistojen väärin lähde tämän hankala. Nämä tiedot eivät ole pääsyä, koska ihmiset yritykset ja hallitukset ovat typeriä, laiska tai piittaamaton. Pikemminkin on vakavia oikeudellisia, teknisiä, liike, ja eettiset esteitä, jotka estävät tietojen käytön. Esimerkiksi joitakin termejä-of-service sopimuksia sivustoille vain antaa tietoa, jota työntekijät tai palvelun parantamiseksi. Joten tietyt tietojen jakaminen saattaa altistaa yritykset lailliselle oikeusjuttuja asiakkailta. On myös merkittäviä liiketoiminnan riskejä osallistuvien yhtiöiden tietojen jakamista. Yrittää kuvitella, miten yleisö reagoi, jos henkilötietoja hakutietoja vahingossa vuotanut ulos Google osana yliopiston tutkimusprojektia. Tällainen tietomurto, jos äärimmäinen, saattaa jopa olla eksistentiaalista riski yhtiölle. Joten Google-ja useimmat suuret yritykset-ovat hyvin riskisuuntautuneemman jakamisesta tietoja tutkijoille.
Itse asiassa lähes jokainen, joka pystyy tarjoamaan pääsyn suuria tietomääriä tuntee tarinan Abdur Chowdhury. Vuonna 2006, kun hän oli pää AOL tutkimus, hän tarkoituksellisesti julkaissut mitä hän ajatteli olivat nimettömiksi Hakukyselyjä 650000 AOL tiedeyhteisölle. Sikäli kuin voin kertoa, Chowdhury ja tutkijoiden AOL oli hyvät aikomukset ja he ajattelivat, että he olivat anonymisoidaan tiedot. Mutta he olivat väärässä. Se oli pian havaittiin, että tiedot eivät olleet nimettöminä kuin tutkijat ajatellut, ja toimittajaa New York Times pystyivät tunnistamaan ihmisiä aineisto helposti (Barbaro and Zeller Jr 2006) . Kun nämä ongelmat havaittiin, Chowdhury poistanut tietoja AOL: n verkkosivuilla, mutta se oli liian myöhäistä. Tiedot oli reposted muut sivustot, ja se luultavasti vielä käytettävissä, kun luet tämän kirjan. Because of hän yrittää jakaa tietoja tutkimusyhteisön, Chowdhury erotettiin, ja AOL: n teknologiajohtaja erosi (Hafner 2006) . Kuten tämä esimerkki osoittaa, hyödyt tietyille henkilöille sisällä yrityksiä helpottamaan tietojen saatavuutta ovat melko pieniä ja pahimmassa tapauksessa on kauheaa.
Tutkimus voi kuitenkin saada tietoja, jotka on saavuttamattomissa suurelle yleisölle. Hallitukset ovat menettelyt, että tutkijat voivat seurata hakea pääsyä, ja kuten esimerkit myöhemmin tässä luvussa osoittavat, tutkijat voivat joskus päästä yrityksen tietoihin. Esimerkiksi, Einav et al. (2015) yhteistyötä tutkija eBay tutkia digitaalisia jälkiä nettihuutokaupoissa. Puhun lisää tutkimusta, joka tuli tästä yhteistyöstä myöhemmin kappaleessa (kohta 2.4.3.2), mutta mainitsen sen nyt, koska sillä oli kaikki neljä ainesosia, näen onnistunut kumppanuuksia: tutkija kiinnostusta, tutkija valmiudet, yhtiö kiinnostusta, ja yritys valmiudet. Toisin sanoen, Einav ja kollegat olivat kiinnostuneita ja pystyy opiskeluun nettihuutokaupoissa. Ja eBay oli myös. Olen kuitenkin nähnyt monia mahdollisia yhteistyö epäonnistua joko tutkija tai yrityksen puuttui yksi näistä ainesosista.
Vaikka pystyt kehittämään yhteistyössä liike on kuitenkin olemassa joitakin haittoja sinulle. Ensinnäkin kysymykset että voit kysyä kanssa datan todennäköisesti rajoittaa; yritykset eivät todennäköisesti anna tutkimusta, joka voisi tehdä niistä pahalta. Toiseksi, luultavasti ei voi jakaa tietoja muiden tutkijoiden, mikä tarkoittaa sitä, että muut tutkijat eivät voi todentaa ja laajentaa tuloksia. Lisäksi nämä kumppanuudet voivat luoda ainakin ulkonäkö eturistiriitoja, jossa ihmiset saattavat ajatella, että tulokset vaikuttivat oman kumppanuuksia. Kaikki nämä haittoja voidaan käsitellä, mutta on tärkeää tehdä selväksi, että käsittelet, joka ei ole kaikkien saatavilla oli sekä upsides ja haittoja.
Yhteenvetona paljon suuria data on saavuttamattomissa tutkijoille. On vakavia oikeudellisia, teknisiä, liike, ja eettiset esteitä, jotka estävät tietojen saatavuutta, ja nämä esteet eivät mene pois. Kansalliset hallitukset ovat yleensä käyttöön menettelyt mahdollistavat tietojen saatavuutta, mutta prosessi voi olla ad hoc klo valtion ja paikallisella tasolla. Lisäksi joissakin tapauksissa, tutkijat voivat kumppani yritykset saavat tiedon saatavuutta, mutta tämä voi luoda monenlaisia ongelmia tutkijoille.