Великі джерела даних є скрізь, але їх використання для соціальних досліджень може бути складним. На мій досвід, існує щось на кшталт правил "відсутності вільного обіду" для даних: якщо ви не займаєтеся великою кількістю роботи, збираєте його, то вам, мабуть, доведеться багато працювати, подумайте про це і аналізуючи його.
Великі джерела даних сьогодні та, ймовірно, завтра, матимуть, як правило, 10 характеристик. Три з них, як правило, (але не завжди) корисні для дослідження: великі, постійні та нееактивні. Сім загалом (але не завжди) проблемні для дослідження: неповні, недоступні, непредставні, дрейфуючі, алгоритмічно збиті, брудні та чутливі. Багато з цих характеристик в кінцевому підсумку виникають тому, що великі джерела даних не створювалися для цілей соціальних досліджень.
Виходячи з ідей у цьому розділі, я думаю, що існують три основні способи, завдяки яким великі джерела даних будуть найціннішими для соціальних досліджень. По-перше, вони можуть дозволити дослідникам вирішувати між конкуруючими теоретичними прогнозами. Прикладами такого роду робіт є Farber (2015) (водії таксі в Нью-Йорку) і King, Pan, and Roberts (2013) (цензура в Китаї). По-друге, великі джерела даних можуть давати змогу поліпшити вимірювання політики за допомогою програми nowcasting. Прикладом такого роду робіт є Ginsberg et al. (2009) (Тенденції Google Flu). Нарешті, великі джерела даних можуть допомогти дослідникам зробити причинні оцінки без експериментів. Прикладами такого роду робіт є Mas and Moretti (2009) (однорівневі ефекти на продуктивність) і Einav et al. (2015) (ефект початкової ціни на аукціоні на eBay). Проте кожен з цих підходів вимагає, щоб дослідники довели багато до даних, наприклад визначення величини, важливої для оцінки, або двох теорій, які роблять конкуруючі прогнози. Таким чином, я думаю, що найкращий спосіб думати про те, що можуть зробити великі джерела даних, це те, що вони можуть допомогти дослідникам, які можуть задавати цікаві та важливі питання.
Перш ніж робити висновок, я вважаю, що варто врахувати, що великі джерела даних можуть мати важливий вплив на зв'язок між даними та теорією. Поки що в цій главі використано підхід теоретично керованих емпіричних досліджень. Але великі джерела даних також дозволяють дослідникам здійснювати емпіричне теоретичне вивчення. Тобто, шляхом ретельного накопичення емпіричних фактів, моделей і загадок, дослідники можуть будувати нові теорії. Ця альтернатива, перший підхід до даних для теорії не є новим, і це було найбільш сильно сформульоване Барні Глассер та Ансельмом Штраусом (1967) з їх закликом до обґрунтованої теорії . Однак цей перший підхід до даних не означає "кінець теорії", як це стверджують деякі журналістики навколо досліджень у цифровій епосі (Anderson 2008) . Натомість, як змінюється середовище даних, слід очікувати відновлення балансу між даними та теорією. У світі, де збирання даних було дорогим, має сенс збирати лише ті дані, які запропоновані теоріями будуть найбільш корисними. Але в світі, де величезна кількість даних вже доступна безкоштовно, має сенс також спробувати перший підхід до даних (Goldberg 2015) .
Як я показав у цій главі, дослідники можуть багато чому навчитися, спостерігаючи за людьми. У наступних трьох розділах я розповім про те, як ми можемо дізнатися більше і різних речей, якщо ми адаптуємо наш збір даних і взаємодіємо з людьми більш безпосередньо, задаючи їм питання (глава 3), експерименти (розділ 4) та навіть їх залучення безпосередньо в дослідницькому процесі (глава 5).