Pētniekiem ir grūti piekļūt datiem, kas ir uzņēmumu un valdību rīcībā.
2014. gada maijā ASV Nacionālās drošības aģentūra ar neapmierinošu nosaukumu izveidoja datu centru Jūtas laukos, kas ir Izlūkošanas Kopienas visaptverošais valsts kiberdrošības iniciatīvas datu centrs. Tomēr šis datu centrs, kas ir kļuvis pazīstams kā Utah datu centrs, ir pārsteidzošs. Vienā ziņojumā tiek apgalvots, ka tas spēj uzglabāt un apstrādāt visus saziņas veidus, tostarp "pilnīgu privāto e-pasta ziņojumu, mobilo tālruņu zvanu un Google meklēšanas rezultātu saturu, kā arī visa veida personas datu izsekošanu, autostāvvietas kvītis, ceļojumu maršrutus, grāmatu veikalu pirkumus , un citu digitālo "kabatas atkritumu" (Bamford 2012) . Papildus tam, ka rodas bažas par to, ka liela daļa datu, kas iegūti lielos datos, ir sensitīva rakstura, kas tiks aprakstīta tālāk tekstā, Utah datu centrs ir ārkārtējs piemērs tam, ka bagāts datu avots ir nepieejams pētniekiem. Vispārīgākā ziņā valdības kontrolē un ierobežo daudzus lielu datu avotus (piemēram, nodokļu datus un izglītības datus) vai uzņēmumus (piemēram, meklētājprogrammu vaicājumus un tālruņa zvanu metadatus). Tāpēc, lai gan šie datu avoti pastāv, tie sociālajā pētniecībā ir bezjēdzīgi, jo tie ir nepieejami.
Pēc manas pieredzes daudzi pētnieki, kas strādā universitātēs, pārprasa šīs nepieejamības avotu. Šie dati ir nepieejami ne tāpēc, ka cilvēki uzņēmumos un valdībās ir stulbi, slinki vai neatlaidīgi. Drīzāk pastāv nopietni tiesiskie, uzņēmējdarbības un ētiskie šķēršļi, kas kavē piekļuvi datiem. Piemēram, daži tīmekļa vietņu pakalpojumu sniegšanas noteikumi atļauj datu izmantošanu tikai darbiniekiem vai pakalpojuma uzlabošanai. Tādējādi daži datu apmaiņas veidi var likt uzņēmumiem likt lietā tiesas prāvas no klientiem. Uzņēmumiem, kas iesaistīti datu apmaiņā, pastāv arī būtiski uzņēmējdarbības riski. Mēģiniet iedomāties, kā sabiedrība varētu reaģēt, ja personiskie meklēšanas dati nejauši noplūst no Google kā daļa no universitātes pētniecības projekta. Šāds datu pārkāpums, ja tas ir ārkārtējs, varētu būt pat eksistenciāls risks uzņēmumam. Tātad Google un vairums lielo uzņēmumu - ir ļoti nevērīgi pretdarboties ar datu apmaiņu ar pētniekiem.
Patiesībā gandrīz visi, kas spēj nodrošināt piekļuvi liela apjoma datiem, zina Abdur Chowdhury stāstu. 2006. gadā, kad viņš bija AOL pētījumu vadītājs, viņš apzināti izlaida pētniecības kopienu, kas, pēc viņa domām, bija anonīmi meklēšanas vaicājumi no 650 000 AOL lietotājiem. Cik es varu pateikt, Chowdhury un AOL pētniekiem bija labie nodomi, un viņi domāja, ka viņi ir anonimizējuši datus. Bet viņi bija nepareizi. Kā ātri pētīja pētnieki, tika ātri atklāts, ka dati nebija tik anonīmi, un New York Times reportieri varēja viegli identificēt kādu datu kopu (Barbaro and Zeller 2006) . Kad šīs problēmas tika atklātas, Chowdhury noņēma datus no AOL tīmekļa vietnes, taču tas bija par vēlu. Dati tika pārpublicēti citās tīmekļa vietnēs, un, iespējams, joprojām būs pieejami, lasot šo grāmatu. Chowdhury tika atlaists, un AOL galvenais tehnoloģiju virsnieks atkāpās no amata (Hafner 2006) . Kā parādīts šajā piemērā, priekšrocības konkrētām personām uzņēmumos, lai atvieglotu piekļuvi datiem, ir diezgan maza, un sliktākais scenārijs ir šausmīgs.
Tomēr pētnieki dažreiz var piekļūt datiem, kas nav pieejami plašai sabiedrībai. Dažām valdībām ir procedūras, kuras pētnieki var izmantot, lai pieteiktos piekļuvei, un, kā parādīts turpmākajā nodaļā, pētnieki dažkārt var piekļūt korporatīvajiem datiem. Piemēram, Einav et al. (2015) sadarbojas ar pētnieku eBay, lai izpētītu tiešsaistes izsoles. Es runāšu vairāk par pētījumu, kas no šīs sadarbības tapa vēlāk nodaļā, taču to tagad minēju, jo tam bija visas četras sastāvdaļas, kuras es redzu veiksmīgās partnerībās: pētnieku intereses, pētnieku spējas, uzņēmumu intereses un uzņēmuma spējas . Esmu redzējis, ka daudzi iespējamie sadarbības gadījumi neizdodas, jo vai nu pētnieks vai partneris, vai tas būtu uzņēmums vai valdība, nebija viena no šīm sastāvdaļām.
Pat ja jūs varat attīstīt partnerību ar uzņēmumu vai piekļūt ierobežotiem valdības datiem, tomēr jums ir dažas nepilnības. Pirmkārt, jūs, iespējams, nevarēsit kopīgot savus datus ar citiem pētniekiem, kas nozīmē, ka citi pētnieki nevarēs verificēt un paplašināt jūsu rezultātus. Otrkārt, jautājumi, kurus varat lūgt, var būt ierobežoti; Uzņēmumi, visticamāk, nepieļaus pētījumus, kas varētu padarīt tos par sliktiem. Visbeidzot, šīs partnerības var radīt vismaz interešu konflikta parādīšanos, kurā cilvēki varētu domāt, ka jūsu partnerattiecības ietekmēja jūsu rezultātus. Varat risināt visas šīs nepilnības, taču ir svarīgi skaidri saprast, ka sadarbība ar datiem, kas nav pieejami ikvienam, ir gan augšupejoša, gan neveiksmīga.
Kopumā daudzi lieli dati pētniekiem nav pieejami. Ir nopietni juridiski, uzņēmējdarbības un ētiskie šķēršļi, kas kavē piekļuvi datiem, un šie šķēršļi nebeigsies, jo tehnoloģija uzlabosies, jo tie nav tehniski šķēršļi. Dažas valstu valdības ir noteikušas procedūras, kas ļauj piekļūt datiem dažām datu kopām, taču šis process ir īpaši ad hoc valsts un vietējā līmenī. Arī dažos gadījumos pētnieki var partnerīt ar uzņēmumiem, lai piekļūtu datiem, taču tas var radīt dažādas problēmas pētniekiem un uzņēmumiem.