2.3.2.1 Неповні

Незалежно від того , як "великі" ваші "великі дані", ймовірно , НЕ не має інформації , яку ви хочете.

Більшість великих джерел даних є неповними, в тому сенсі , що у них немає інформації , що ви хочете для вашого дослідження. Це загальна риса даних, які були створені для цілей, відмінних дослідницьких цілях. Багато соціологів вже мали досвід роботи з неповнотою, такі як існуючий опитування, яка не ставив питання, який ви хотіли. На жаль, проблеми неповноти мають тенденцію бути більш екстремальним в великих даних. З мого досвіду, великі дані, як правило, не вистачає трьох типів інформації, корисної для соціальних досліджень: демографію, поведінка на інших платформах, а також дані для практичної реалізації теоретичних побудов.

Всі ці три форми незавершеності проілюстровані в дослідженні Gueorgi Kossinets і Дункана Воттса (2006) про еволюцію соціальної мережі в університеті. Kossinets і Уоттс почав з журналами електронної пошти з університету, який мав точну інформацію про те, хто послав електронні листи кому в який час (дослідники не мали доступу до змісту електронних листів). Ці адреси електронної записи звучати як дивовижний набір даних, але вони-незважаючи на свої розміри і зернистість-принципово неповним. Наприклад, журнали по електронній пошті не включають в себе дані про демографічні характеристики студентів, таких, як стать і вік. Крім того, журнали по електронній пошті не включають в себе інформацію про зв'язок через інші засоби масової інформації, такі як телефонні дзвінки, текстові повідомлення, або лицем до лиця розмов. І, нарешті, журнали по електронній пошті безпосередньо не включають в себе інформацію про взаємини, теоретичних побудов в багатьох існуючих теорій. Пізніше в цьому розділі, коли я говорю про стратегію досліджень, ви побачите, як Kossinets і Уоттс вирішити ці проблеми.

З трьох видів неповноти, проблема неповних даних в практичній реалізації теоретичних побудов найважче вирішити, і в моєму досвіді, часто випадково забувають вчених даних. Грубо кажучи, теоретичні конструкції є абстрактні ідеї , які вивчають соціологи, але, на жаль, ці конструкції не завжди можуть бути однозначно визначені і виміряні. Наприклад, давайте уявимо, намагаючись емпірично перевірити, мабуть просте твердження, що люди, які розумніші заробити більше грошей. Для того щоб перевірити це твердження вам потрібно буде виміряти "інтелект". Але, що таке інтелект? Наприклад, Gardner (2011) стверджував , що на насправді існує вісім різних форм інтелекту. І, існують процедури, які могли б точно виміряти будь-який з цих форм інтелекту? Незважаючи на величезні обсяги роботи психологів, ці питання досі не мають однозначних відповідей. Таким чином, навіть відносно простий претензійно-люди , які розумніші заробити більше грошей , може бути важко оцінити емпірично , оскільки він може бути важко практичної реалізації теоретичних побудов в даних. Інші приклади теоретичних побудов , які є важливими , але важко операционализировать включати "норми", "соціальний капітал" і "демократії" . Соціальні вчені називають відповідність між теоретичними конструкціями і побудувати дані дії (Cronbach and Meehl 1955) . І, як цей список конструкцій передбачає, побудувати дійсність є проблемою, яку соціологи боролися з протягом дуже довгого часу, навіть коли вони працювали з даними, які були зібрані для цілей дослідження. При роботі з даними , зібраними для цілей, відмінних дослідних цілей, проблеми валідності ще більш складним завданням (Lazer 2015) .

Коли ви читаєте науково-дослідницьку роботу, один швидкий і корисний спосіб оцінити побоювання з приводу конструктивної дієвості взяти основну претензію в документі, який, як правило, виражається в термінах конструкцій, і знову висловити в термінах використовуваних даних. Наприклад, розглянемо два гіпотетичних дослідження, які стверджують, щоб показати, що більш розумні люди заробляють більше грошей:

  • Дослідження 1: люди , які добре забити на тест-а Raven Progressive матриць добре вивчені тест аналітичного інтелекту (Carpenter, Just, and Shell 1990) -У вище повідомили доходи від їх податкових декларацій
  • Дослідження 2: люди на Twitter, які використовували більш довгі слова, більш імовірно, згадати розкішні бренди

В обох випадках дослідники могли б стверджувати, що вони показали, що більш розумні люди заробляють більше грошей. Але, в першому дослідженні теоретичні конструкції добре операціоналізіровать даними, а в другому випадку вони не є. Крім того, як цей приклад показує, більше даних автоматично не вирішує проблем з валідності. Ви повинні сумніватися в результатах дослідження 2 бере участь він мільйон твітів, мільярд твітів або трильйон твітів. Для дослідників, які не знайомі з ідеєю побудувати дії, в таблиці 2.2 наведені деякі приклади досліджень, теоретичні побудови оперативне використання за допомогою цифрових даних трасування.

Таблиця 2.2: Приклади цифрових слідів, які використовуються в якості запобіжного більш абстрактних теоретичних концепцій. Соціальні вчені називають цей матч побудувати дії , і це є однією з основних проблем з використанням великих джерел даних для соціальних досліджень (Lazer 2015) .
цифровий слід теоретична конструкція цитування
журнали по електронній пошті з університету (тільки мета-дані) соціальні відносини Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) і De Choudhury et al. (2010)
повідомлень в соціальних медіа на Weibo участь громадянського суспільства Zhang (2016)
електронної пошти з журналів фірми (мета-даних і повний текст) Культури підходить в організації Goldberg et al. (2015)

Хоча проблема неповних даних для введення в дію теоретичних побудов досить важко вирішити, є три спільні рішення проблеми неповної демографічної інформації та неповної інформації про поведінку на інших платформах. По-перше, насправді зібрати необхідні вам дані; Я розповім вам про приклад того, що в розділі 3, коли я розповім вам про опитуваннях. На жаль, цей вид збору даних не завжди можливо. Другим основним рішенням є те , що вчені даних називати умовивід користувачем атрибутів і то , що соціологи називають зобов'язання. При такому підході дослідники використовують інформацію, яку вони мають на деяких людей, щоб вивести атрибути інших людей. Третє можливе рішення-один з яких використовується Kossinets і Уоттс-було об'єднати кілька джерел даних. Цей процес іноді називають злиття або записи зв'язку. Моя улюблена метафора для цього процесу був запропонований в першому ж абзаці першої роботі коли - небудь написаних на запис зв'язку (Dunn 1946) , (Dunn 1946) :

"Кожна людина в світі створює Книгу Життя. Ця книга починається з народження і закінчується смертю. Її сторінки складаються із записів головних подій в житті. Запис зв'язок є ім'я, дане в процесі складання сторінок цієї книги в обсязі ".

Цей уривок був написаний в 1946 році, і в той час, люди думали, що книга життя може включати в себе основні життєві події, як народження, шлюб, розлучення і смерть. Однак тепер, коли так багато інформації про людей, записується, книга життя може бути неймовірно детальний портрет, якщо ці різні сторінки (тобто, наші цифрові сліди), можуть бути пов'язані один з одним. Ця книга життя може бути великим ресурсом для дослідників. Але книга життя також можна було б назвати базу даних розорення (Ohm 2010) , який може бути використаний для всіх видів неетичних цілей, як описано більш нижче , коли я говорю про чутливому характері інформації , зібраної великими джерелами даних нижче і в розділі 6 (етики).