Големите източници на данни са навсякъде, но използването им за социални изследвания може да бъде трудно. Според моето преживяване има нещо като правило за "без обяд" за данни: ако не влагате много работа, събирайки го, вероятно ще трябва да полагате много работа, помислете за това и анализирайки го.
Големите източници на данни днес и вероятно утре ще имат 10 характеристики. Три от тях обикновено (но не винаги) са полезни за изследванията: големи, постоянно и нереактивни. Седемте са по принцип (но не винаги) проблематични за изследванията: непълни, недостъпни, непредставителни, плаващи, алгоритмично объркани, мръсни и чувствителни. Много от тези характеристики в крайна сметка възникват, защото големи източници на данни не бяха създадени за целите на социалните изследвания.
Въз основа на идеите в тази глава, мисля, че има три основни начина, по които големите източници на данни ще бъдат най-ценни за социалните изследвания. Първо, те могат да дадат възможност на изследователите да решат между конкуриращи се теоретични прогнози. Примери за този вид работа са Farber (2015) (таксиметрови шофьори в Ню Йорк) и King, Pan, and Roberts (2013) (цензура в Китай). На второ място, големите източници на данни могат да дадат възможност за по-добро измерване на политиката чрез сегаcasting. Пример за подобна работа е Ginsberg et al. (2009) (Google Грипна тенденция). И накрая, големите източници на данни могат да помогнат на изследователите да направят причинно-следствени оценки, без да провеждат експерименти Примери за този вид работа са Mas and Moretti (2009) (ефектите на производителността на връстници) и Einav et al. (2015) (ефект на началната цена на търговете в eBay). Всеки от тези подходи обаче обикновено изисква изследователите да придадат много на данните, като например определянето на количество, което е важно да се оцени, или две теории, които правят конкуриращи се прогнози. По този начин смятам, че най-добрият начин да помислите кои големи източници на данни могат да направят е, че те могат да помогнат на изследователите, които могат да задават интересни и важни въпроси.
Преди да завърша, мисля, че си струва да се има предвид, че големите източници на данни могат да имат важен ефект върху връзката между данните и теорията. Досега тази глава е възприела подхода на теоритично емпирично изследване. Но големите източници на данни също дават възможност на изследователите да направят емпирично теоретизирано теоретизиране . Това означава, че чрез внимателното натрупване на емпирични факти, модели и пъзели изследователите могат да изграждат нови теории. Този алтернативен, първият подход към теорията не е нов и най-силно е формулиран от Барни Глазър и Анселм Строс (1967) с призива им за обоснована теория . Този подход, обаче, не означава "края на теорията", както се твърди в част от журналистиката около изследванията в дигиталната ера (Anderson 2008) . По-скоро, тъй като средата на данните се променя, трябва да очакваме ребалансиране на връзката между данните и теорията. В един свят, където събирането на данни е скъпо, има смисъл да се събират само данните, които теорията предполага, че те ще бъдат най-полезни. Но в един свят, в който огромните данни вече са на разположение безплатно, има смисъл и да се опитаме да използваме първия подход (Goldberg 2015) .
Както показах в тази глава, изследователите могат да научат много, като гледат хората. В следващите три глави ще опиша как можем да научим повече и различни неща, ако подготвим събирането на данни и взаимодействаме с хората по-пряко, като им зададем въпроси (глава 3), провеждайки експерименти (глава 4) и дори включването им в изследователския процес директно (глава 5).