Великі дані створюються та збираються компаніями та урядами для цілей, відмінних від досліджень. Отже, використання цих даних для досліджень потребує повторного використання.
Перший спосіб, за яким багато людей стикаються з соціальними дослідженнями в цифрову епоху, - це те, що часто називають великими даними . Незважаючи на широке використання цього терміну, немає єдиної думки про те, які великі дані навіть є. Проте, одне з найбільш поширених визначень великих даних зосереджується на "3 Vs": обсязі, різноманітності та швидкості. Приблизно, є багато даних, у різних форматах, і воно постійно створюється. Деякі фанати великих даних також додають інші "Vs", такі як Veracity і Value, тоді як деякі критики додають Vs, такі як Vague і Vacuous. Для цілей соціальних досліджень скоріше замість 3-х "Vs" (або 5 "Vs" або 7 "Vs"), я думаю, що найкраще почати роботу є 5 "W": хто, що, де, коли , і чому. Фактично, я думаю, що багато проблем та можливостей, які створюються великими джерелами даних, випливають з одного "W": чому.
У аналогічному віці більшість даних, які були використані для соціальних досліджень, створені з метою проведення досліджень. Проте в цифрову епоху компанії та уряди створюють величезну кількість даних для цілей, відмінних від досліджень, таких як надання послуг, отримання прибутку та управління законами. Тим не менш, творчі люди зрозуміли, що ви можете переосмислювати ці корпоративні та державні дані для досліджень. Мислячись до аналогії мистецтва в розділі 1, так само як Дюшан переклав знайдені об'єкти для створення мистецтва, вчені тепер можуть перекладати знайдені дані для створення досліджень.
Незважаючи на те, що, безперечно, є величезні можливості для відновлення, використання даних, які не були створені для цілей дослідження, також представляє нові виклики. Наприклад, порівняйте, наприклад, із соціальною мережею, такими як Twitter, із традиційним опитуванням громадської думки, такими як "Загальний соціальний огляд". Основні цілі Twitter - це надання послуг своїм користувачам і отримання прибутку. З іншого боку, загальне соціальне обстеження зосереджується на створенні загальних даних для соціальних досліджень, зокрема для досліджень громадської думки. Ця різниця у цілях означає, що дані, створені Twitter та створені Загальним соціальним опитуванням, мають різні властивості, хоча обидва можуть бути використані для вивчення громадської думки. Twitter працює за шкалою та швидкістю, що загальне соціальне опитування не може збігатися, але, на відміну від Загального соціального опитування, Twitter не ретельно підбирає користувачів і не працює над тим, щоб зберегти порівнянність з часом. Оскільки ці два джерела даних настільки різні, немає сенсу говорити про те, що загальне соціальне обстеження краще, ніж Twitter, або навпаки. Якщо ви хочете щогодини вимірювання глобального настрою (наприклад, Golder and Macy (2011) ), Twitter найкраще. З іншого боку, якщо ви хочете зрозуміти довготривалі зміни в поляризації відносин у Сполучених Штатах (наприклад, DiMaggio, Evans, and Bryson (1996) ), то загальний соціальний огляд є найкращим вибором. У більш загальному сенсі, а не намагаючись стверджувати, що великі джерела даних є кращими або гіршими, ніж інші типи даних, в цій главі буде намагатися уточнити, які типи досліджень задають питанням, що великі джерела даних мають привабливі властивості та які види запитань вони не можуть бути. ідеальний
Розмірковуючи про великі джерела даних, багато дослідників безпосередньо зосереджуються на онлайн-даних, створених та зібраних компаніями, таких як журнали пошукових систем та публікації в соціальних мережах. Однак ця вузька фокус залишає два інших важливих джерела великих даних. По-перше, все більше корпоративних великих джерел даних походять від цифрових пристроїв у фізичному світі. Наприклад, у цьому розділі я розповім вам про дослідження, яке репортує дані перевірки супермаркетів, щоб дізнатись, як продуктивність працівника впливає на продуктивність її однолітків (Mas and Moretti 2009) . Потім, у наступних розділах, я розповім вам про дослідників, які використовували записи викликів із мобільних телефонів (Blumenstock, Cadamuro, and On 2015) та білінгові дані, створені електричними утилітами (Allcott 2015) . Як показують ці приклади, корпоративні великі джерела даних - це більше, ніж просто поведінка в Інтернеті.
Друге важливе джерело великих даних, пропущених вузькою орієнтацією на поведінку в Інтернеті, - це дані, створені урядами. Дані урядових даних, які дослідники називають державними адміністративними записами , включають такі речі, як податкові записи, шкільні записи та записи про життєві статистичні дані (наприклад, реєстри народжень та смертей). Уряди створюють такі дані для, в деяких випадках, сотень років, а соціальні вчені експлуатують їх практично до тих пір, поки існують соціальні вчені. Проте, що змінилося, це оцифровка, що дозволило урядам збирати, передавати, зберігати та аналізувати дані. Наприклад, у цьому розділі я розповім вам про дослідження, яке перекривало дані цифрових лічильників таксі в уряді штату Нью-Йорк, щоб вирішувати фундаментальні дебати з економіки праці (Farber 2015) . Потім, у наступних розділах, я розповім вам про те, як у опитуванні (Ansolabehere and Hersh 2012) та експерименті (Bond et al. 2012) використовувались урядовці зібрані записи про голосування.
Я думаю, що ідея репортера є основою для вивчення з великих джерел даних, і тому, перш ніж більш точно розповісти про властивості великих джерел даних (розділ 2.3) і як вони можуть бути використані в дослідженні (розділ 2.4), я б хотів запропонувати дві загальні поради щодо репортажів. По-перше, це може спокусливо думати про контрастність, яку я встановив як між "знайдені" дані та "призначені" дані. Це близько, але це не зовсім правильно. Хоча, з точки зору дослідників, великі джерела даних "знайдені", вони не просто падають з неба. Замість цього джерела даних, які "знайшли" дослідники, розробляються кимось для певної мети. Оскільки "знайдені" дані розроблені когось, я завжди радимо вам намагатися якомога більше зрозуміти людей і процеси, які створили ваші дані. По-друге, коли ви використовуєте дані для відновлення, часто дуже важливо уявити ідеальний набір даних для вашої проблеми, а потім порівняти цей ідеальний набір даних з тими, які ви використовуєте. Якщо ви не збирали свої дані самостійно, існують, ймовірно, важливі відмінності між тим, що ви хочете і що ви маєте. Відмічаючи ці відмінності, ви зможете зрозуміти, що ви можете і не можете вчитися на основі даних, і може запропонувати нові дані, які слід збирати.
З мого досвіду, соціальні вчені та науковці даних, як правило, наближаються до репозитації дуже по-різному. Соціологи, які звикли працювати з даними, призначеними для дослідження, як правило, швидко вказують на проблеми з відновленими даними, ігноруючи його сильні сторони. З іншого боку, вчені даних, як правило, швидко вказують на переваги відновлених даних, ігноруючи його слабкі сторони. Природно, найкращий підхід - це гібрид. Тобто, дослідники повинні розуміти характеристики великих джерел даних - як добрих, так і поганих - і потім з'ясувати, як навчитися у них. І це план для решти цієї глави. У наступному розділі я опишу десять загальних характеристик великих джерел даних. Потім, у наступному розділі, я опишу три дослідницькі підходи, які можуть добре працювати з такими даними.