Podatki, ki jih imajo podjetja in vlade, so težko dostopni raziskovalcem.
Maja 2014 je ameriška agencija za nacionalno varnost odprla podatkovni center v podeželskih Utahu z nerodnim imenom, Informacijskim centrom za celovito državno pobudo za pobudo za cyberSafe. Vendar pa se poroča, da ima ta podatkovni center, ki je bil znan kot podatkovni center Utah, neverjetne zmožnosti. Eno poročilo trdi, da je sposoben shranjevati in obdelovati vse oblike komunikacije, vključno z "popolno vsebino zasebnih e-poštnih sporočil, klicev v mobilnih telefonih in iskanja z Googlom, pa tudi vse vrste osebnih podatkov-poti, parkirnih potrdil, potovalnih poti, nakupov knjigarn , in druge digitalne "žepne odpadke" " (Bamford 2012) . Poleg zbiranja skrbi glede občutljive narave večine podatkov, zbranih v velikih podatkih, ki bodo podrobneje opisane spodaj, je podatkovni center v Utahu izjemen primer bogatega vira podatkov, ki je raziskovalcem nedostopen. Na splošno velja, da mnoge vire velikih podatkov, ki bi bile koristne, nadzirajo in omejujejo vlade (npr. Davčni podatki in podatki o izobraževanju) ali podjetja (npr. Poizvedbe iskalnikov in meta-podatkov telefonskih klicev). Zato, čeprav ti viri podatkov obstajajo, so za socialne raziskave neuporabni, ker so nedostopni.
Po mojem mnenju mnogi raziskovalci s sedežem na univerzi napačno razumejo vir te nedostopnosti. Ti podatki so nedostopni ne zato, ker so ljudje v podjetjih in vladah neumni, leni ali nerazumni. Namesto tega obstajajo resne pravne, poslovne in etične ovire, ki preprečujejo dostop do podatkov. Na primer, nekateri sporazumi o pogojih za storitve na spletnih mestih dovoljujejo le uporabo podatkov ali izboljšanje storitve. Torej nekatere oblike izmenjave podatkov lahko podjetja razkrijejo legitimnim tožbam strank. Obstajajo tudi precejšnja poslovna tveganja za podjetja, ki sodelujejo pri izmenjavi podatkov. Poskusite si predstavljati, kako bi se javnost odzvala, če bi podatki iz osebnih podatkov po naključju izhajali iz Googla kot del univerzitetnega raziskovalnega projekta. Takšna kršitev podatkov, če je ekstremna, bi lahko bila celo eksistencialna nevarnost za podjetje. Torej Google in večina velikih podjetij - zelo nesprejemljivi glede izmenjave podatkov z raziskovalci.
Pravzaprav skoraj vsakdo, ki je sposoben zagotoviti dostop do velikih količin podatkov, pozna zgodbo Abdur Chowdhuryja. Leta 2006, ko je bil vodja raziskav na AOL-u, je namerno v raziskovalno skupnost namenil, da je 650 milijonov uporabnikov AOL-a anonimiziral iskalne poizvedbe. Kolikor lahko povem, sta Chowdhury in raziskovalci v AOLu imela dobre namere in menili, da so anonimizirali podatke. Ampak oni so bili narobe. Hitro je bilo ugotovljeno, da podatki niso bili anonimni, kot so mislili raziskovalci, poročevalci iz New York Times pa so lahko z lahkoto identificirali nekoga v naboru podatkov (Barbaro and Zeller 2006) . Ko so te težave odkrili, je Chowdhury odstranil podatke s spletne strani podjetja AOL, vendar je bilo prepozno. Podatki so bili objavljeni na drugih spletnih mestih in verjetno bo še vedno na voljo, ko berete to knjigo. Chowdhury je bil odpuščen, glavni vodja tehnološkega urada AOL pa je odstopil (Hafner 2006) . Kot kaže ta primer, so koristi posameznim posameznikom v podjetjih za olajšanje dostopa do podatkov zelo majhne in najslabši scenarij je grozen.
Raziskovalci pa lahko včasih pridobijo dostop do podatkov, ki niso dostopni javnosti. Nekatere vlade imajo postopke, s katerimi raziskovalci lahko zaprosijo za dostop, in kot kažejo primeri iz tega poglavja, lahko raziskovalci občasno pridobijo dostop do podatkov podjetja. Na primer, Einav et al. (2015) sodeloval z raziskovalcem na eBayu, da bi preučil spletne dražbe. Več o raziskavah, ki so nastale iz tega sodelovanja, bom kasneje v poglavju, vendar jih zdaj omenjam, ker so imele vse štiri sestavine, ki jih vidim v uspešnih partnerstvih: zanimanje raziskovalcev, sposobnost raziskovalcev, zanimanje podjetij in sposobnost podjetja . Videl sem veliko potencialnih sodelovanj, ker raziskovalec ali partner, pa naj gre za podjetje ali vlado, ni imel ene od teh sestavin.
Tudi če ste sposobni razviti partnerstvo s podjetjem ali pridobiti dostop do omejenih vladnih podatkov, vendar obstaja nekaj slabosti za vas. Prvič, verjetno ne boste mogli deliti svojih podatkov z drugimi raziskovalci, kar pomeni, da drugi raziskovalci ne bodo mogli preverjati in razširiti svojih rezultatov. Drugič, vprašanja, ki jih lahko vprašate, so lahko omejena; podjetja verjetno ne bodo omogočala raziskav, zaradi katerih bi lahko izgledali slabo. Končno lahko ta partnerstva povzročijo vsaj navzkrižje interesov, kjer ljudje mislijo, da so vaši rezultati vplivali na vaša partnerstva. Vse te slabosti je mogoče obravnavati, vendar je pomembno, da je jasno, da delo s podatki, ki niso dostopni vsem, ima tako navzkrižja kot slabosti.
Če povzamemo, veliko veliko podatkov ni dostopno raziskovalcem. Obstajajo resne pravne, poslovne in etične ovire, ki preprečujejo dostop do podatkov, in te ovire ne bodo izginile, saj se tehnologija izboljša, ker niso tehnične ovire. Nekatere nacionalne vlade so vzpostavile postopke za omogočanje dostopa do podatkov za nekatere zbirke podatkov, vendar je proces posebej ad hoc na državni in lokalni ravni. V nekaterih primerih lahko raziskovalci sodelujejo s podjetji za pridobitev dostopa do podatkov, vendar to lahko povzroči različne probleme za raziskovalce in podjetja.