Yritysten ja hallitusten hallussa olevat tiedot ovat vaikeita tutkijoiden ulottuville.
Toukokuussa 2014 Yhdysvaltain Kansallinen turvallisuusviranomainen avasi tietopalvelukeskuksen maaseudun Utahissa, jossa oli älykkäästi tunnettu tietoyhteiskunnan yleinen tietoverkkorikollisuuden tietohallinto. Kuitenkin tämä datakeskus, joka on tullut tunnetuksi Utah Data Centeriin, on raportoitu olevan hämmästyttäviä ominaisuuksia. Yksi raportti väittää pystyvän tallentamaan ja käsittelemään kaikkia viestintämuotoja, mukaan lukien "yksityisten sähköpostiviestien, matkapuhelujen ja Google-hakujen täydellinen sisältö sekä kaikenlaiset henkilötietoradat, pysäköintitulot, matkareitit, kirjakaupan ostot , ja muut digitaaliset "taskukakut" " (Bamford 2012) . Sen lisäksi, että huolenaihe suuren datan suuresta tiedosta, joka kuvataan jäljempänä, Utah Data Center on äärimmäinen esimerkki rikkaasta tietolähteestä, jota tutkijat eivät pääse käsiksi. Yleisemmin monet hallitukset hallitsevat ja rajoittavat suurten tietojen lähteitä, jotka ovat hyödyllisiä (esim. Verotietojen ja koulutustietojen) tai yritysten (esim. Kyselyt hakukoneille ja puhelinsoiton metatietoihin). Siksi, vaikka nämä tietolähteet ovat olemassa, ne ovat hyödyttömiä sosiaalisen tutkimuksen tarkoituksiin, koska ne eivät ole käytettävissä.
Kokemukseni mukaan monet yliopistoihin perustuvat tutkijat ymmärtävät väärin tämän lähdettä. Nämä tiedot eivät ole saatavissa, koska yritysten ja hallitusten henkilöt ovat tyhmät, laisat tai epäluuloiset. Pikemminkin on olemassa vakavia oikeudellisia, liiketaloudellisia ja eettisiä esteitä, jotka estävät tietojen käytön. Esimerkiksi tietyt verkkosivustojen käyttöehdot -sopimukset sallivat vain työntekijöiden käyttämät tiedot tai parantavat palvelua. Jotkut tiedon jakamisen muodot saattaisivat altistaa yrityksille oikeutettuja oikeusjuttuja asiakkailta. Tietojen jakamiseen osallistuville yrityksille on myös merkittäviä liiketoiminnan riskejä. Yritä kuvitella, miten yleisö vastattaisi, jos henkilökohtaiset hakutiedot vahingossa vuotaa Googlelta osana yliopiston tutkimushanketta. Tällainen tietojen rikkominen, jos se on äärimmäinen, saattaa olla jopa olemassaoleva riski yritykselle. Google ja useimmat suuret yritykset ovat hyvin riskialttiita tietojen jakamisessa tutkijoiden kanssa.
Itse asiassa lähes kaikki, jotka pystyvät tarjoamaan suuria määriä tietoja, tietävät Abdur Chowdhuryin tarinan. Vuonna 2006 hän oli AOL: n tutkimuspäällikkö, jonka hän tarkoituksellisesti julkaisi tutkimusyhteisöön, mitä hän ajatteli nimettöminä 650 000 AOL-käyttäjää. Sikäli kuin voin kertoa, Chowdhury ja AOL: n tutkijat olivat hyviä aikomuksia, ja he ajattelivat, että he anonymisoivat tiedot. Mutta he olivat väärässä. Havaittiin nopeasti, että tiedot eivät olleet yhtä nimettömiä kuin tutkijat ajattelivat, ja New York Timesin toimittajat pystyivät tunnistamaan jonkun tietojoukko helposti (Barbaro and Zeller 2006) . Kun nämä ongelmat löydettiin, Chowdhury poisti tiedot AOL: n verkkosivuilta, mutta se oli liian myöhäistä. Tiedot oli palautettu muille verkkosivustoille, ja se on todennäköisesti edelleen käytettävissä, kun luet tätä kirjaa. Chowdhury irtosi, ja AOL: n teknologiapäällikkö erosi (Hafner 2006) . Kuten tämä esimerkki osoittaa, yritysten tietyn yksilöiden edut tiedonsiirron helpottamiseksi ovat melko pieniä ja pahin tapaus on kauhea.
Tutkijat voivat kuitenkin joskus päästä sellaisiin tietoihin, jotka eivät ole yleisön saatavilla. Joillakin hallituksilla on menetelmiä, joita tutkijat voivat seurata hakeakseen pääsyä, ja kuten tässä luvussa myöhemmin esitetyt esimerkit osoittavat, tutkijat voivat joskus päästä käsiksi yritystietoihin. Esimerkiksi Einav et al. (2015) teki yhteistyötä eBayin tutkijan kanssa online-huutokauppojen tutkimiseen. Puhun lisää tästä yhteistyöstä tulevasta tutkimuksesta myöhemmin luvussa, mutta mainitsen sen nyt, koska siinä oli kaikki neljä ainesosasta, joita näen onnistuneissa kumppanuuksissa: tutkijan kiinnostus, tutkijan kyky, yrityksen etu ja yrityksen kyky . Olen nähnyt monia mahdollisia yhteistyöhankkeita epäonnistuvan, koska joko tutkija tai kumppani, oli se yritys tai hallitus, puuttui näistä aineista.
Vaikka voit kehittää kumppanuutta yrityksen kanssa tai päästä käsiksi rajoitettuihin julkisiin tietoihin, sinulla on kuitenkin joitain haittapuolia. Ensinnäkin et todennäköisesti pysty jakamaan tietoja muiden tutkijoiden kanssa, mikä tarkoittaa, että muut tutkijat eivät pysty tarkistamaan ja laajentamaan tuloksia. Toiseksi kysyttävät kysymykset voivat olla rajoitettuja; yritykset eivät todennäköisesti salli sellaista tutkimusta, joka voisi heikentää niitä. Lopuksi nämä kumppanuudet voivat luoda ainakin eturistiriidan, jossa ihmiset voisivat ajatella, että kumppanuutesi vaikuttavat tuloksiinne. Kaikki nämä haittapuolet voidaan ratkaista, mutta on tärkeää olla selvää, että tietojen käsittely, joka ei ole kaikkien ulottuvilla, on sekä ylä-ja alareunassa.
Yhteenvetona, paljon suuria tietoja ei ole saatavilla tutkijoille. On olemassa vakavia oikeudellisia, liike-elämän ja eettisiä esteitä, jotka estävät tietojen pääsyn ja nämä esteet eivät mene pois tekniikan parantuessa, koska ne eivät ole teknisiä esteitä. Joissakin kansallisissa hallituksissa on luotu menettelyt joidenkin datasetien tietojen saatavuuden mahdollistamiseksi, mutta prosessi on erityisen tilapäinen valtion ja paikallistasolla. Myös joissakin tapauksissa tutkijat voivat kumppanuusyritysten kanssa hankkia tiedonsaantia, mutta tämä voi aiheuttaa erilaisia ongelmia tutkijoille ja yrityksille.