داده های برگزار شده توسط شرکت ها و دولت ها برای دسترسی به محققان دشوار است.
در ماه مه 2014، آژانس امنیت ملی ایالات متحده یک مرکز داده در روستای یوتا با یک نام ناخوشایند، مرکز اطلاعات جامع ملی امنیت سایبری جامعه اطلاعاتی را باز کرد. با این حال، این مرکز داده، که به عنوان مرکز داده یوتا شناخته می شود، گزارش شده است که توانایی های شگفت انگیزی دارد. یک گزارش ادعا می کند که می تواند تمام اشکال ارتباطی را ذخیره و پردازش کند، از جمله "محتوای کامل ایمیل های خصوصی، تماس های تلفنی و جستجوهای Google، و همچنین انواع مسیرهای اطلاعات شخصی - هزینه های پارکینگ، برنامه های سفر، خرید کتابفروشی ، و دیگر بستر جیب دیجیتال دیجیتال (Bamford 2012) . علاوه بر بالا بردن نگرانی در مورد ماهیت حساس بسیاری از اطلاعات گرفته شده در داده های بزرگ، که در زیر شرح داده شده است، مرکز داده یوتا نمونه ای شدید از یک منبع داده غنی است که دسترسی به محققان غیرممکن است. به طور کلی، بسیاری از منابع داده های بزرگ که مفید می باشند، توسط دولت ها کنترل و محدود می شوند (مانند داده های مالیاتی و داده های آموزشی) یا شرکت ها (به عنوان مثال، پرس و جو به موتورهای جستجو و متا داده های تماس تلفنی). بنابراین، هر چند این منابع داده وجود دارد، آنها برای اهداف تحقیق اجتماعی بی فایده هستند، زیرا آنها غیرقابل دسترس هستند.
در تجربه من، بسیاری از محققان در دانشگاه ها اشتباه می کنند که منبع این عدم دسترسی است. این داده ها غیر قابل دسترسی است نه به این دلیل که مردم در شرکت ها و دولت ها احمقانه، تنبل و یا ناخوشایند هستند. در عوض، موانع جدی قانونی، تجاری و اخلاقی وجود دارد که مانع از دسترسی به داده ها می شود. به عنوان مثال، برخی از توافقنامه های شرایط سرویس برای وب سایت تنها اجازه می دهد داده ها توسط کارکنان استفاده شود یا برای بهبود خدمات. بنابراین اشکال خاصی از اشتراک گذاری اطلاعات می تواند شرکت ها را به دعاوی قانونی دعوت کند. همچنین ریسک های تجاری قابل توجهی برای شرکت هایی که در به اشتراک گذاری اطلاعات شرکت دارند، وجود دارد. سعی کنید تصور کنید که چگونه عموم مردم پاسخ خواهند داد اگر داده های شخصی شخصی به طور تصادفی از گوگل به عنوان بخشی از یک پروژه تحقیق دانشگاه منتشر شوند. چنین نقض اطلاعاتی، اگر شدید باشد، حتی ممکن است خطر موجود برای این شرکت باشد. بنابراین گوگل و بسیاری از شرکت های بزرگ در مورد به اشتراک گذاری داده ها با محققان بسیار ریسک پذیر هستند.
در حقیقت، تقریبا هر کسی که در موقعیتی برای دسترسی به مقادیر زیادی از اطلاعات است، داستان داستان عبدالله چوودوری را می داند. در سال 2006، زمانی که او به عنوان سرپرست تحقیق در AOL بود، وی عمدا به جامعه تحقیقاتی که به نظر می رسید جستجوهای ناشناس ناشی از 650،000 کاربر AOL بود، منتشر شد. تا جایی که می توانم بگویم، چوودوری و محققان AOL نیات خوبی داشتند و فکر می کردند که آنها داده ها را ناشناس کرده اند. اما آنها اشتباه بودند به سرعت محققان فهمیدند که داده ها به عنوان ناشناس نیستند و خبرنگاران نیویورک تایمز قادر به شناسایی کسی در مجموعه داده ها بودند (Barbaro and Zeller 2006) . هنگامی که این مشکلات کشف شد، Chowdhury داده ها را از وب سایت AOL حذف کرد، اما خیلی دیر شد. داده ها در سایر وبسایت ها دوباره ارسال شده اند و احتمالا هنوز هم در هنگام خواندن این کتاب در دسترس خواهد بود. Chowdhury اخراج شد و افسر ارشد فناوری AOL استعفا داد (Hafner 2006) . همانطور که در این مثال نشان داده شده است، مزایای مربوط به افراد خاص در داخل شرکت ها برای تسهیل دسترسی به داده ها بسیار کوچک است و بدترین سناریو وحشتناک است.
با این حال، محققان می توانند گاهی دسترسی به داده هایی را که به عموم مردم دسترسی ندارند دسترسی پیدا کنند. بعضی از دولت ها روش هایی دارند که محققان می توانند برای درخواست دسترسی درخواست کنند، و به عنوان نمونه هایی که در این فصل نشان داده شده است، محققان گاهی می توانند به داده های شرکت دسترسی داشته باشند. به عنوان مثال، Einav et al. (2015) با یک محقق در eBay برای مطالعه مزایده های آنلاین همکاری داشته است. من بیشتر درباره تحقیقاتی که از این همکاری در این فصل در این فصل آمده بود صحبت خواهم کرد، اما من آن را در حال حاضر ذکر می کنم چون تمام چهار جزء را که در مشارکت موفقیت آمیز میبینم، علاقه مند به پژوهشگر، توانمندی پژوهشگر، علاقه شرکت و توانایی شرکت . من بسیاری از همکاری های بالقوه را دیده ام، زیرا تحقیق یا شریک بودن - یک شرکت یا دولت - یکی از این ترکیبات نبود.
با این وجود حتی اگر شما بتوانید مشارکت با یک کسب و کار را به دست آورید یا دسترسی به داده های محدود دولتی را ایجاد کنید، اما بعضی از معایب برای شما وجود دارد. اول، شما احتمالا قادر نخواهید بود که داده های خود را با سایر محققین به اشتراک بگذارید، که به این معنی است که محققان دیگر نمی توانند نتایج خود را تأیید و گسترش دهند. دوم، سوالاتی که می توانید بپرسید ممکن است محدود باشد بعید به نظر می رسد شرکت ها اجازه تحقیقاتی را بدهند که می تواند آنها را بد بداند. سرانجام این مشارکت می تواند حداقل ظهور منازعه ای را ایجاد کند که ممکن است مردم فکر کنند که نتایج شما تحت تأثیر مشارکت شما قرار گرفته است. همه این نادیده ها را می توان در نظر گرفت، اما مهم است که مشخص شود که کار با داده هایی که برای هر کسی قابل دسترسی نیستند، هر دو در معرض ورود و خروج است.
به طور خلاصه، تعداد زیادی داده بزرگ برای محققان در دسترس نیستند. موانع جدی قانونی، تجاری و اخلاقی وجود دارد که مانع از دسترسی به داده ها می شود و این موانع از بین نمی رود زیرا تکنولوژی پیشرفت می کند زیرا موانع فنی نیستند. بعضی از دولت های ملی روش هایی برای دسترسی داده ها برای برخی از مجموعه داده ها ایجاد کرده اند، اما این فرایند به ویژه در سطوح دولتی و محلی به طور خاص صورت می گیرد. همچنین، در برخی موارد، محققان می توانند با شرکت ها برای دستیابی به دسترسی به داده ها شریک باشند، اما این می تواند مشکلات زیادی را برای محققان و شرکت ها بوجود آورد.