Великі дані створюються і зібрані урядами для цілей, відмінних дослідних цілей. Використовуючи ці дані для дослідження, таким чином, вимагає перепрофілювання.
Ідеалізований вид соціальних досліджень уявляє собі вчений, який має ідею, а потім збір даних, щоб перевірити цю ідею. Цей стиль досліджень призводить до щільного прилягання між питанням дослідження і даних, але вона обмежена, тому що індивідуальний дослідник часто не мають ресурсів, необхідних для збору даних, в яких вони потребують, такі як великі, багаті і національно-репрезентативних даних. Тому, багато соціальних досліджень в минулому використовували великомасштабні соціальні обстеження, такі як General Social Survey (GSS), американської Національної виборчої дослідження (ANES) і панелі вивчення динаміки доходів (PSID). Ці великомасштабні обстеження, як правило, керують групою дослідників, і вони призначені для створення даних, які можуть бути використані багатьма дослідниками. Через цілей цих великомасштабних досліджень, велика увага поміщається в розробці збору даних і підготовки підсумкових даних для використання дослідниками. Ці дані є дослідниками і для дослідників.
Більшість соціальних досліджень з використанням цифрових джерел з віком, однак, істотно відрізняється. Замість того щоб використовувати дані, зібрані дослідниками і для дослідників, він використовує джерела даних, які були створені і зібрані підприємствами і урядами для своїх власних цілей, таких як отримання прибутку, надання послуг, або введення закону. Ці ділові та урядові джерела даних стали називати великі дані. Проведення досліджень з великими даними відрізняється, ніж робити дослідження з даними, які спочатку був створений для проведення досліджень. Порівняйте, наприклад, сайт соціальної медіа, такі як Twitter, з традиційного опитування громадської думки, такі як General Social Survey (GSS). Основні цілі щебетати повинні надавати послуги своїм користувачам і отримувати прибуток. У процесі досягнення цих цілей, Twitter створює дані, які можуть бути корисні для вивчення деяких аспектів громадської думки. Але, на відміну від General Social Survey (GSS), Twitter не в першу чергу зосереджені на соціальних дослідженнях.
Термін великі дані гнітюче розпливчастим, і вона об'єднує багато різних речей. Для цілей соціальних досліджень, я думаю , що було б корисно провести відмінність між двома видами великих джерел даних :. Державних адміністративних документів і ділових адміністративних документів Державні адміністративні записи даних, які створюються урядами в рамках своєї повсякденної діяльності. Такого роду записи були використані дослідниками в минулому, такі як демографів, які вивчають народження, шлюб, і записи про смерть, але уряду все частіше збирати і випускати докладні записи в аналізованих формах. Наприклад, уряд Нью-Йорка встановлено цифрові вимірювальні прилади всередині кожного таксі в місті. Ці метри записи всіх видів даних про кожну поїздку на таксі, включаючи водія, час початку і місце, час зупинки і розташування, а також плати за проїзд. У дослідженні , яке я розповім пізніше в цій главі, Генрі Фарбер (2015) перепрофільовані ці дані для вирішення фундаментальної дискусії з економіки праці про відносини між погодинної заробітної плати і кількості відпрацьованих годин.
Другий основний тип великих даних для соціальних досліджень є бізнес - адміністративні записи. Це дані, які бізнес створюють і зібрати як частину своєї повсякденної діяльності. Ці бізнес - адміністративні записи часто називають цифрові сліди, і включають в себе такі речі , як журнали запитів в пошукових системах, повідомлень в соціальних мережах, і викликати записи з мобільних телефонів. Критично, ці бізнес-адміністративні записи не тільки онлайн-поведінки. Наприклад, магазини, які використовують реєстрація від'їзду сканери створюють заходи в реальному часі продуктивності праці. У дослідженні , яке я вам розповім пізніше в цій главі, Олександр Мас і Енріко Моретті (2009) перепрофільовані цей супермаркет даних Дата від'їзду для вивчення того, як продуктивність праці робоче впливають на продуктивність своїх однолітків.
Оскільки обидва з цих прикладів ілюструють, ідея перепрофілювання має основоположне значення для вивчення з великих обсягів даних. З мого досвіду, соціологи і вчені дані наближаються до цього перепрофілювання зовсім по-іншому. Соціологи, які звикли до роботи з даними, призначеними для дослідження, швидко вказати на проблеми з даними багаторазово використовувати, ігноруючи при цьому свої сильні сторони. З іншого боку, вчені даних швидко вказати на переваги даних багаторазово використовувати, ігноруючи при цьому свої слабкі сторони. Природно, що найкращим підходом було б гібрид. Тобто, дослідники повинні розуміти характеристики цих нових джерел даних-як хороші, так і погані, а потім з'ясувати, як витягти з них уроки. І, що план на решту цієї глави. Далі я буду описувати десять загальних характеристик бізнесу і державних адміністративних даних. Після цього я опишу три дослідних підходів, які можуть бути використані з цими даними, підходами, які добре підходять до характеристик цих даних.