Независимо от того, насколько велики ваши большие данные, у него, вероятно, нет необходимой информации.
Большинство крупных источников данных являются неполными , в том смысле, что у них нет информации, которую вы хотите получить для своих исследований. Это общая черта данных, которые были созданы для других целей, кроме исследований. Многие социологи уже имели опыт борьбы с неполнотой, например, существующий опрос, который не задавал вопрос, который был необходим. К сожалению, проблемы неполноты, как правило, более экстремальны в больших данных. По моему опыту, большие данные имеют тенденцию пропускать три типа информации, полезной для социальных исследований: демографическую информацию о участниках, поведение на других платформах и данные для практического использования теоретических конструкций.
Из трех видов неполноты проблема неполных данных для практической реализации теоретических конструкций является наиболее сложной задачей. И по моему опыту, это часто случайно упускается из виду. Грубо говоря, теоретические конструкции являются абстрактными идеями, которые социологи изучают и вводят в действие теоретическую конструкцию, предлагая некоторый способ захвата этой конструкции с наблюдаемыми данными. К сожалению, этот простой процесс часто оказывается довольно сложным. Например, давайте представим себе попытку эмпирически проверить очевидное простое утверждение о том, что люди, которые более умны, зарабатывают больше денег. Чтобы проверить это утверждение, вам нужно будет измерить «интеллект». Но что такое интеллект? Gardner (2011) утверждал, что на самом деле существует восемь различных форм интеллекта. Существуют ли процедуры, которые могли бы точно измерить любую из этих форм интеллекта? Несмотря на огромное количество работы психологов, эти вопросы по-прежнему не имеют однозначных ответов.
Таким образом, даже относительно простая претензия - люди, которые более умны, зарабатывают больше денег, - трудно оценить эмпирически, потому что трудно вводить теоретические конструкции в данные. Другие примеры теоретических построений, которые важны, но трудно реализуются, включают «нормы», «социальный капитал» и «демократию». Социологи называют совпадение теоретических конструкций и достоверности данных (Cronbach and Meehl 1955) . Как показывает этот короткий список конструкций, построение обоснованности является проблемой, с которой социологи боролись в течение очень долгого времени. Но, по моему опыту, проблемы построения достоверности еще больше при работе с данными, которые не были созданы для целей исследований (Lazer 2015) .
Когда вы оцениваете результаты исследования, один быстрый и полезный способ оценки достоверности конструкции - это результат, который обычно выражается в терминах конструкций и повторно выражает его с точки зрения используемых данных. Например, рассмотрите два гипотетических исследования, которые утверждают, что люди, которые более умны, зарабатывают больше денег. В первом исследовании исследователь обнаружил, что люди, которые хорошо забивают тест на прогрессивные матрицы ворона, - хорошо изученный тест аналитического интеллекта (Carpenter, Just, and Shell 1990) - имеют более высокие доходы в налоговых декларациях. Во втором исследовании исследователь обнаружил, что люди в Twitter, которые использовали более длинные слова, с большей вероятностью упоминают люксовые бренды. В обоих случаях эти исследователи могли утверждать, что они показали, что люди, которые более умны, зарабатывают больше денег. Однако в первом исследовании теоретические конструкции хорошо введены в действие данными, а во втором - нет. Кроме того, как иллюстрирует этот пример, больше данных не автоматически решает проблемы с конструктивной достоверностью. Вы должны усомниться в результатах второго исследования, связано ли это с миллионами твитов, миллиардом твитов или трлн твитами. Для исследователей, не знакомых с идеей обоснованности конструкции, в таблице 2.2 приведены некоторые примеры исследований, в которых были введены теоретические конструкции с использованием цифровых данных трассировки.
Источник данных | Теоретическая конструкция | Рекомендации |
---|---|---|
Журналы электронной почты из университета (только метаданные) | Социальные отношения | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Сообщения в социальных сетях на Weibo | Вовлечение гражданского общества | Zhang (2016) |
Журналы электронной почты от фирмы (метаданные и полный текст) | Культурная подгонка в организации | Srivastava et al. (2017) |
Хотя проблему неполных данных для захвата теоретических конструкций довольно сложно решить, существуют общие решения для других распространенных типов незавершенности: неполная демографическая информация и неполная информация о поведении на других платформах. Первое решение - фактически собрать нужные данные; Я расскажу вам об этом в главе 3, когда расскажу вам об опросах. Второе главное решение - сделать то, что ученые-ученые называют выводом пользовательского атрибута, а социологи называют вменение . В этом подходе исследователи используют информацию, которую они имеют для некоторых людей, чтобы вывести атрибуты других людей. Третьим возможным решением является объединение нескольких источников данных. Этот процесс иногда называют связыванием записей . Моя любимая метафора этого процесса была написана Dunn (1946) в самом первом абзаце самой первой статьи, когда-либо написанной на записи:
«Каждый человек в мире создает Книгу Жизни. Эта Книга начинается с рождения и заканчивается смертью. Его страницы составлены из записей о главных событиях в жизни. Запись привязки - это имя, данное процессу сборки страниц этой книги в том ».
Когда Данн написал этот отрывок, он думал, что Книга Жизни может включать в себя важные жизненные события, такие как рождение, брак, развод и смерть. Однако теперь, когда записано столько информации о людях, Книга Жизни может быть невероятно подробным портретом, если эти разные страницы (т. Е. Наши цифровые следы) могут быть связаны вместе. Эта Книга Жизни может стать отличным ресурсом для исследователей. Но его можно было бы также назвать базой разрушения (Ohm 2010) , которая может использоваться для всех видов неэтичных целей, как я опишу в главе 6 (Ethics).