Данните, съхранявани от компании и правителства, са трудни за изследователите.
През май 2014 г. Агенцията за национална сигурност на САЩ откри център за данни в провинция Юта с неловко име, Информационният център за информация за цялостната национална инициатива за киберсигурност. Въпреки това, този център за данни, известен като Центъра за данни в Юта, се оказва, че има удивителни способности. Един доклад твърди, че е в състояние да съхранява и обработва всички форми на комуникация, включително "пълното съдържание на частни имейли, мобилни телефонни обаждания и търсения от Google, както и всякакви лични данни - пътеки за паркиране, маршрути за пътуване, покупки на книжарница , и други цифрови "джобни носилки" " (Bamford 2012) . Освен че поражда притеснения относно чувствителния характер на голяма част от информацията, заснета в големи данни, която ще бъде описана по-долу, Utah Data Center е изключителен пример за богат източник на данни, който е недостъпен за изследователите. По-общо казано, много източници на големи данни, които биха били полезни, се контролират и ограничават от правителствата (напр. Данъчни данни и образователни данни) или фирми (напр. Заявки за търсачки и метаданни за телефонни обаждания). Следователно, въпреки че съществуват такива източници на данни, те са безполезни за целите на социалното изследване, тъй като те са недостъпни.
Според моя опит много изследователи, базирани в университети, не разбират източника на тази недостъпност. Тези данни са недостъпни, не защото хората в компаниите и правителствата са глупави, мързеливи или неудобни. По-скоро съществуват сериозни правни, бизнес и етични бариери, които пречат на достъпа до данни. Например, някои споразумения за услуги за уеб сайтове позволяват само да се използват данни от служители или да се подобри услугата. Така че някои форми на споделяне на данни могат да изложат дружествата на легитимни съдебни дела от клиенти. Съществуват и значителни бизнес рискове за компаниите, участващи в обмена на данни. Опитайте се да си представите как обществеността ще реагира, ако данните за личните ви търсения случайно изтекоха от Google като част от университетски изследователски проект. Такъв нарушение на данните, ако е крайно, би могло дори да е съществен риск за компанията. Така че Google и повечето големи компании са много предпазливи да споделят данни с изследователи.
Всъщност почти всеки, който е в състояние да осигури достъп до големи количества данни, знае историята на Абдур Чаудхури. През 2006 г., когато е бил ръководител на изследването в AOL, той умишлено пуснал в изследователската общност това, което според него са анонимни заявки за търсене от 650 000 потребители на AOL. Доколкото мога да кажа, Чоудхури и изследователите в АОЛ имаха добри намерения и смятаха, че са анонимирали данните. Но те грешиха. Бързо бе открито, че данните не са толкова анонимни, както смятат изследователите, а репортерите от " Ню Йорк Таймс" успяват лесно да идентифицират някого в масива от данни (Barbaro and Zeller 2006) . След като тези проблеми бяха открити, Chowdhury извади данните от уебсайта на AOL, но беше твърде късно. Данните бяха препратени на други уебсайтове и вероятно ще е налице, когато четете тази книга. Chowdhury беше уволнен и главният технологичен офицер на AOL подаде оставка (Hafner 2006) . Както показва този пример, ползите за конкретни лица във фирмите за улесняване на достъпа до данни са доста малки и най-лошият сценарий е ужасен.
Изследователите обаче могат понякога да получат достъп до данни, които са недостъпни за широката общественост. Някои правителства разполагат с процедури, които изследователите могат да следват, за да кандидатстват за достъп и както показват примерите по-долу в тази глава, изследователите понякога могат да получат достъп до корпоративни данни. Например, Einav et al. (2015) си партнира с изследовател в eBay, за да изучава онлайн търгове. Аз ще говоря повече за изследванията, които дойдоха от това сътрудничество по-късно в главата, но го споменах сега, защото имаше всичките четири съставки, които виждам в успешните партньорства: интерес към изследователя, способност на изследователя, фирмен интерес и способност на компанията , Виждал съм, че много потенциални сътрудничества се провалят, защото или изследователят, или партньорът - било то компания или правителство, не са имали една от тези съставки.
Дори ако сте в състояние да развиете партньорство с фирма или да получите достъп до ограничени правителствени данни, има някои недостатъци за вас. Първо, вероятно няма да можете да споделяте данните си с други изследователи, което означава, че други изследователи няма да могат да проверят и разширят резултатите ви. Второ, въпросите, които можете да зададете, могат да бъдат ограничени; компаниите едва ли ще позволят изследвания, които биха могли да ги направят зле. И накрая, тези партньорства могат да създадат поне появата на конфликт на интереси, където хората могат да мислят, че вашите резултати са повлияни от вашите партньорства. Всички тези недостатъци могат да бъдат преодолени, но е важно да е ясно, че работата с данни, които не са достъпни за всички, има както недостатъци, така и недостатъци.
В обобщение, много големи данни са недостъпни за изследователите. Съществуват сериозни правни, бизнес и етични бариери, които пречат на достъпа до данни и тези бариери няма да изчезнат, тъй като технологията се подобрява, тъй като те не представляват технически бариери. Някои национални правителства са създали процедури за предоставяне на достъп до данни за някои набори от данни, но процесът е особено ad hoc на държавно и местно ниво. Също така в някои случаи изследователите могат да си партнират с фирми, за да получат достъп до данни, но това може да създаде различни проблеми за изследователите и компаниите.