2.3.2.1 Неполные

Независимо от того , как "большие" ваши "большие данные", вероятно , не не имеет информации , которую вы хотите.

Большинство крупных источников данных являются неполными, в том смысле , что у них нет информации , что вы хотите для вашего исследования. Это общая особенность данных, которые были созданы для целей, отличных исследовательских целях. Многие социологи уже имели опыт работы с неполнотой, такие как существующий опрос, который не задавал вопрос, который вы хотели. К сожалению, проблемы неполноты имеют тенденцию быть более экстремальным в больших данных. По моему опыту, большие данные, как правило, не хватает трех типов информации, полезной для социальных исследований: демографию, поведение на других платформах, а также данные для практической реализации теоретических построений.

Все эти три формы незавершенности проиллюстрированы в исследовании Gueorgi Kossinets и Дункана Уоттса (2006) об эволюции социальной сети в университете. Kossinets и Уоттс начал с журналами электронной почты из университета, который имел точную информацию о том, кто послал электронные письма кому в какое время (исследователи не имели доступа к содержанию электронных писем). Эти адреса электронной записи звучать как удивительный набор данных, но они-несмотря на свои размеры и зернистость-принципиально неполным. Например, журналы по электронной почте не включают в себя данные о демографических характеристиках студентов, таких, как пол и возраст. Кроме того, журналы по электронной почте не включают в себя информацию о связи через другие средства массовой информации, такие как телефонные звонки, текстовые сообщения, или лицом к лицу разговоров. И, наконец, журналы по электронной почте напрямую не включают в себя информацию о взаимоотношениях, теоретических построений во многих существующих теорий. Позже в этой главе, когда я говорю о стратегии исследований, вы увидите, как Kossinets и Уоттс решить эти проблемы.

Из трех видов неполноты, проблема неполных данных в практической реализации теоретических построений труднее всего решить, и в моем опыте, часто случайно забывают ученых данных. Грубо говоря, теоретические конструкции являются абстрактные идеи , которые изучают социологи, но, к сожалению, эти конструкции не всегда могут быть однозначно определены и измерены. Например, давайте представим, пытаясь эмпирически проверить, по-видимому простое утверждение, что люди, которые умнее заработать больше денег. Для того чтобы проверить это утверждение вам нужно будет измерить "интеллект". Но, что такое интеллект? Например, Gardner (2011) утверждал , что на самом деле существует восемь различных форм интеллекта. И, существуют процедуры, которые могли бы точно измерить любой из этих форм интеллекта? Несмотря на огромные объемы работы психологов, эти вопросы до сих пор не имеют однозначных ответов. Таким образом, даже относительно простой претензионно-люди , которые умнее заработать больше денег , может быть трудно оценить эмпирически , поскольку он может быть трудно практической реализации теоретических построений в данных. Другие примеры теоретических построений , которые являются важными , но трудно операционализировать включать "нормы", "социальный капитал" и "демократии" . Социальные ученые называют соответствие между теоретическими конструкциями и построить данные действия (Cronbach and Meehl 1955) . И, как этот список конструкций предполагает, построить действительность является проблемой, которую социологи боролись с в течение очень долгого времени, даже когда они работали с данными, которые были собраны для целей исследования. При работе с данными , собранными для целей, отличных исследовательских целей, проблемы валидности еще более сложной задачей (Lazer 2015) .

Когда вы читаете научно-исследовательскую работу, один быстрый и полезный способ оценить опасения по поводу конструктивной действенности взять основную претензию в документе, который, как правило, выражается в терминах конструкций, и вновь выразить в терминах используемых данных. Например, рассмотрим два гипотетических исследования, которые утверждают, чтобы показать, что более умные люди зарабатывают больше денег:

  • Исследование 1: люди , которые хорошо забить на тест-а Raven Progressive матриц хорошо изучены тест аналитического интеллекта (Carpenter, Just, and Shell 1990) -У выше сообщили доходы от их налоговых деклараций
  • Исследование 2: люди на Twitter, которые использовали более длинные слова, более вероятно, упомянуть роскошные бренды

В обоих случаях исследователи могли бы утверждать, что они показали, что более умные люди зарабатывают больше денег. Но, в первом исследовании теоретические конструкции хорошо операционализированы данными, а во втором случае они не являются. Кроме того, как этот пример показывает, больше данных автоматически не решает проблем с валидности. Вы должны сомневаться в результатах исследования 2 участвует ли он миллион твитов, миллиард твитов или триллион твитов. Для исследователей, которые не знакомы с идеей построить действия, в таблице 2.2 приведены некоторые примеры исследований, теоретические построения оперативное использование с помощью цифровых данных трассировки.

Таблица 2.2: Примеры цифровых следов, которые используются в качестве меры более абстрактных теоретических концепций. Социальные ученые называют этот матч построить действия , и это является одной из основных проблем с использованием больших источников данных для социальных исследований (Lazer 2015) .
цифровой след Теоретическая конструкция цитирование
журналы по электронной почте из университета (только мета-данные) Социальные отношения Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) и De Choudhury et al. (2010)
сообщений в социальных медиа на Weibo Вовлечение гражданского общества Zhang (2016)
электронной почты из журналов фирмы (мета-данных и полный текст) Культуры подходит в организации Goldberg et al. (2015)

Хотя проблема неполных данных для введения в действие теоретических построений довольно трудно решить, есть три общие решения проблемы неполной демографической информации и неполной информации о поведении на других платформах. Во-первых, на самом деле собрать необходимые вам данные; Я расскажу вам о примере того, что в главе 3, когда я расскажу вам о опросах. К сожалению, этот вид сбора данных не всегда возможно. Вторым основным решением является то , что ученые данных называть умозаключение пользователем атрибутов и то , что социологи называют вменения. При таком подходе исследователи используют информацию, которую они имеют на некоторых людей, чтобы вывести атрибуты других людей. Третье возможное решение-один из которых используется Kossinets и Уоттс-было объединить несколько источников данных. Этот процесс иногда называют слияния или записи связи. Моя любимая метафора для этого процесса был предложен в первом же абзаце первой работе когда - либо написанных на запись связи (Dunn 1946) , (Dunn 1946) :

"Каждый человек в мире создает Книгу Жизни. Эта книга начинается с рождения и заканчивается смертью. Ее страницы состоят из записей главных событий в жизни. Запись связь является имя, данное в процессе сборки страниц этой книги в объеме ".

Этот отрывок был написан в 1946 году, и в то время, люди думали, что книга жизни может включать в себя основные жизненные события, как рождение, брак, развод и смерть. Однако теперь, когда так много информации о людях, записывается, книга жизни может быть невероятно детальный портрет, если эти разные страницы (то есть, наши цифровые следы), могут быть связаны друг с другом. Эта книга жизни может быть большим ресурсом для исследователей. Но книга жизни также можно было бы назвать базу данных разорения (Ohm 2010) , который может быть использован для всех видов неэтичных целей, как описано более ниже , когда я говорю о чувствительном характере информации , собранной большими источниками данных ниже и в главе 6 (этики).