Podatki, ki jih podjetja in vlade težko raziskovalcem dostop.
V maju 2014 je US National Security Agenda odprl podatkovni center v podeželskem Utahu, ki je nerodno ime, obveščevalna skupnost celoviti National Cybersecurity pobuda Data Center. Vendar pa je ta podatkovni center, ki je postala znana kot Data Center Utah, poroča, da imajo osupljivo zmogljivosti. Eno poročilo navaja, da je Utah Data Center lahko hrani in obdeluje vse oblike komunikacije, vključno z "celotno vsebino zasebnih e-poštnih sporočil, mobilni telefonski klici, in iskanj v Googlu, kot tudi vse vrste osebnih podatkov poti, parkirnih prejemkov, potovalne poti nakupi knjigarna in drugih digitalnih `žep leglo« (Bamford 2012) . Poleg dvig zaskrbljenosti zaradi občutljivosti veliko informacij, zajetega v velikih podatkov, ki bo podrobneje opisan v nadaljevanju, Utah Data Center je skrajni primer bogat vir podatkov, ki je dostopen raziskovalcem. Na splošno je veliko virov velik podatkov, da bi bilo koristno, da so raziskovalci nadzorovan in omejen vlade (npr davčnih podatkov in izobraževalnih podatkov) in podjetja (na primer, poizvedbe za iskalnike in telefonski klic meta-podatkov). Zato se ti podatki ne bodo takoj na voljo raziskovalcem na univerzah, in večina ne bo še na voljo raziskovalcem v vlad ali podjetij.
Po mojih izkušnjah, mnogi raziskovalci, ki temeljijo na univerzah razumel vir te nedostopnosti. Ti podatki niso nedostopni, ker so ljudje v podjetjih in vlade neumni, leni, ali uncaring. Namesto tega obstajajo resni pravni, tehnični, poslovni in etične ovire, ki preprečujejo dostop do podatkov. Na primer, nekateri sporazumi terms-of-storitev za spletne strani omogočajo le podatke, ki jih zaposleni uporabljajo ali za izboljšanje storitev. Tako bi lahko nekatere oblike izmenjave podatkov izpostavi podjetja, da zakonite pravdnih strank. Obstajajo tudi precejšnje poslovno tveganje za podjetja, ki sodelujejo v izmenjavi podatkov. Poskusite si predstavljati, kako bi se javnost odzove, če osebni podatki o iskanju po naključju ušli ven iz Google kot del univerzitetnega raziskovalnega projekta. Taka kršitev varovanja osebnih podatkov, če je skrajno, morda celo eksistencialno tveganje za družbo. Tako Google in večina velikih podjetij-zelo tvegati o izmenjavi podatkov z raziskovalci.
Dejstvo je, skoraj vsak, ki je v položaju, da zagotovi dostop do velike količine podatkov pozna zgodbo o Abdur Chowdhury. Leta 2006, ko je bil vodja AOL raziskave, ki je namenoma sproščena, kar je mislil, da so anonimni iskalne poizvedbe od 650.000 uporabnikov AOL raziskovalne skupnosti. Kolikor vem, so imeli Chowdhury in raziskovalci na AOL dobre namene in so mislili, da so anonimni podatkov. Ampak, da je bilo narobe. Hitro se je izkazalo, da podatki niso bili tako anonimen, kot so raziskovalci mislili, in novinarji iz New York Times je uspelo identificirati osebe v bazo podatkov z lahkoto (Barbaro and Zeller Jr 2006) . Ko so odkrili te težave, Chowdhury odstrani podatke iz spletne strani AOL, vendar je bilo prepozno. Podatki so bili objavljati na drugih spletnih straneh, in bo verjetno še vedno na voljo, ko berete to knjigo. Zaradi njegove poskus za izmenjavo podatkov z raziskovalno skupnostjo, je Chowdhury odpustili, in vodja tehnologije AOL odstopil (Hafner 2006) . Ker ta primer kaže, koristi za določene posameznike znotraj podjetij, ki omogočajo dostop do podatkov so zelo majhne in najslabši scenarij je grozno.
Raziskave pa lahko dostop do podatkov, ki je dostopen širši javnosti. Vlade imajo postopke, da lahko raziskovalci sledijo uporabljajo za dostop, in kot primeri pozneje v tem poglavju prikazujejo, lahko raziskovalci občasno dostop do poslovnih podatkov. Na primer, Einav et al. (2015) solastnik s raziskovalec na eBay za proučevanje digitalnih sledi iz spletnih dražb. Bom govoril več o raziskavi, ki je prišel iz tega sodelovanja kasneje v poglavju (oddelek 2.4.3.2), vendar sem jo omenil zdaj, ker je imela vse štiri od sestavin, ki vidim v uspešnih partnerstev: raziskovalec interesov, sposobnosti raziskovalcev, družba interes in sposobnost družbe. Z drugimi besedami, zanima, in lahko študira spletne dražbe Einav in kolegi. In je tudi eBay. Vendar pa sem videl veliko možno sodelovanje neuspešni, ker bodisi raziskovalec ali družba ni imela eno od teh sestavin.
Tudi če ste sposobni razviti partnerstvo s podjetjem, vendar pa obstaja nekaj slabosti za vas. Prvič, vprašanja, ki jih lahko zastavite s podatki z verjetno omejena; podjetja, je malo verjetno, da bi raziskave, ki bi jim videti slabo. Drugič, boste verjetno ne bodo mogli deliti podatke z drugimi raziskovalci, kar pomeni, da so drugi raziskovalci ne bodo mogli preveriti in razširiti svoje rezultate. Poleg tega lahko ta partnerstva ustvariti vsaj videz nasprotja interesov, kjer bi ljudje mislijo, da so bili rezultati pod vplivom svojih partnerstev. Vse te slabosti je mogoče rešiti, vendar je pomembno, da je jasno, da je delo s podatki, ki niso dostopne vsakomur tako upsides in slabosti.
Skratka, veliko velikih podatkov je nedostopna za raziskovalce. Obstajajo resni pravni, tehnični, poslovni in etične ovire, ki preprečujejo dostop do podatkov, in te ovire ne bodo izginile. Nacionalne vlade so na splošno vzpostavljene ustrezne postopke za omogočanje dostopa do podatkov, vendar je proces lahko bolj ad hoc na državni in lokalni ravni. Tudi v nekaterih primerih, raziskovalci lahko partner s podjetji pridobiti dostop do podatkov, vendar je to lahko ustvari različne težave za raziskovalce.