Големи данни се създават и събират от компании и правителства за цели, различни от изследванията. Използването на тези данни за изследвания, следователно, изисква повторна употреба.
Първият начин, по който много хора срещат социални изследвания в дигиталната епоха, е чрез това, което често се нарича големи данни . Независимо от широкото използване на този термин, няма консенсус за това кои големи данни са дори. Обаче, една от най-често срещаните дефиниции на големи данни се фокусира върху "3 Vs": Volume, Variety и Velocity. Приблизително има много данни в различни формати и се създава постоянно. Някои фенове на големи данни също добавят други "Vs" като Veracity и Value, докато някои критици добавят Vs като Vague и Vacuous. Вместо 3-те "Vs" (или 5 "Vs" или 7 "Vs"), за целите на социалните изследвания, мисля, че по-добро място за начало е 5 "Ws": Кой, какво, къде , и защо. Всъщност мисля, че много от предизвикателствата и възможностите, създадени от големите източници на данни, произтичат само от един "W": Защо?
В аналоговата епоха повечето данни, използвани за социални изследвания, са създадени с цел извършване на изследвания. В дигиталната епоха обаче компаниите и правителствата създават огромно количество данни за цели, различни от изследванията, като предоставяне на услуги, генериране на печалба и администриране на закони. Творческите хора обаче са разбрали, че можете да промените корпоративните и правителствените данни за изследвания. Като се замислих обратно на аналогията на изкуството в глава 1, точно както Дюшан възроди намереният обект за създаване на изкуство, учените вече могат да повторят намерените данни, за да създадат научни изследвания.
Макар че без съмнение има огромни възможности за повторно използване, използването на данни, които не са създадени за целите на изследванията, също така представлява нови предизвикателства. Сравнете, например, социални медийни услуги, като например Twitter, с традиционно проучване на общественото мнение, като Общото социално изследване. Основните цели на Twitter са да предоставя услуга на своите потребители и да реализира печалба. Общото социално изследване, от друга страна, е съсредоточено върху създаването на данни за обща цел за социални изследвания, особено за изследване на общественото мнение. Тази разлика в целите означава, че данните, създадени от Twitter и създаденото от Общото социално изследване, имат различни свойства, въпреки че и двете могат да бъдат използвани за изучаване на общественото мнение. Twitter работи в мащаб и бързина, че Общото социално изследване не може да се сравнява, но за разлика от Общото социално изследване Twitter не внимателно изпробва потребителите и не работи усилено, за да поддържа сравнимостта си с течение на времето. Тъй като тези два източника на данни са толкова различни, няма смисъл да се каже, че Общото социално изследване е по-добро от Twitter и обратно. Ако искате часови измервания на глобалното настроение (например Golder and Macy (2011) ), Twitter е най-добрият. От друга страна, ако искате да разберете дългосрочните промени в поляризацията на нагласите в САЩ (напр. DiMaggio, Evans, and Bryson (1996) ), тогава Общото социално изследване е най-добрият избор. По-общо казано, вместо да се опитваме да твърдим, че големите източници на данни са по-добри или по-лоши от другите видове данни, тази глава ще се опита да изясни за кои видове изследователски въпроси големите източници на данни притежават привлекателни свойства и за кои видове въпроси те не могат да бъдат идеален.
Когато се замисляме за големи източници на данни, много изследователи незабавно се фокусират върху онлайн създадените и събрани от фирмите данни, като дневници на търсачките и социални медии. Този тесен фокус обаче оставя два други важни източника на големи данни. Първо, все по-големи корпоративни големи източници на данни идват от цифрови устройства във физическия свят. Например в тази глава ще ви разкажа за проучване, че данните за супермаркетите са били повторени, за да се проучи как производителността на работника е повлияна от производителността на нейните връстници (Mas and Moretti 2009) . След това в по-късните глави ще ви разкажа за изследователи, които са използвали записи за обаждания от мобилни телефони (Blumenstock, Cadamuro, and On 2015) и данни за таксуване, създадени от електрическите комунални услуги (Allcott 2015) . Както илюстрират тези примери, големите корпоративни източници на данни са нещо повече от онлайн поведение.
Вторият важен източник на големи данни, пропуснат от тесния фокус върху онлайн поведението, са данните, създадени от правителствата. Тези данни от правителството, които изследователите наричат административни записи на правителството , включват неща като данъчни регистри, учебни записи и записи на жизненоважни статистически данни (напр. Регистри на раждания и смъртни случаи). Правителствата създават такива данни, в някои случаи стотици години, и социолозите ги експлоатират почти толкова дълго, колкото са имали социални учени. Това, което се е променило, обаче, е дигитализирането, което значително улесни правителствата да събират, предават, съхраняват и анализират данни. Например, в тази глава ще ви разкажа за едно проучване, възпроизведено от цифровите таксиметрови уреди на правителството на Ню Йорк, за да се отговори на фундаменталния дебат в икономиката на труда (Farber 2015) . След това в по-късните глави ще ви разкажа за това как са използвани записи от гласуване, събрани от правителството, в анкета (Ansolabehere and Hersh 2012) и експеримент (Bond et al. 2012) .
Мисля, че идеята за повторна употреба е от основно значение за изучаването от големи източници на данни и затова, преди да се говори по-конкретно за свойствата на големите източници на данни (раздел 2.3) и как те могат да се използват в изследванията (раздел 2.4) да предложат два броя общи съвети за повторното използване. Първо, може да се окаже съблазнително да мислите за контраста, който създадох като между "намерени" данни и "проектирани" данни. Това е близко, но не е съвсем вярно. Въпреки, че от гледна точка на изследователите се откриват големи източници на данни, те не просто падат от небето. Вместо това източниците на данни, които са "намерени" от изследователи, са проектирани от някого за някаква цел. Тъй като "намерените" данни са проектирани от някого, винаги препоръчвам да се опитате да разберете колкото е възможно повече за хората и процесите, които са създали вашите данни. На второ място, когато пренасочвате данни, често е изключително полезно да си представите идеалния набор от данни за проблема си и след това да сравнявате този идеален набор от данни с този, който използвате. Ако не сте събрали данните си сами, има вероятност да има важни разлики между това, което искате и това, което имате. Забелязвайки тези разлики, ще ви помогне да изясните какво можете и не можете да научите от данните, които имате, и може да предложи нови данни, които трябва да събирате.
Според моя опит, социалните учени и изследователите на данни имат склонност да възприемат много по-различно. Социалните учени, които са свикнали да работят с данни, предназначени за изследване, обикновено бързат да изтъкнат проблемите с възстановените данни, като същевременно пренебрегват силните си страни. От друга страна, учените по данни обикновено бързат да изтъкнат ползите от възстановените данни, като пренебрегват своите слабости. Естествено, най-добрият подход е хибрид. Това означава, че учените трябва да разберат характеристиките на големите източници на данни - както добри, така и лоши - и след това да разберат как да се поучат от тях. И това е планът за останалата част от тази глава. В следващия раздел ще опиша десет общи характеристики на големи източници на данни. След това в следващия раздел ще опиша три научни подхода, които могат да работят добре с тези данни.