2.3.2.1 Непълно

Без значение колко е "голям" вашите "големите данни", че вероятно не разполагат с информацията, която искате.

Повечето големи източници на данни са непълни, в смисъл, че те не разполагат с информацията, че вие ще искате за вашите изследвания. Това е обща характеристика на данни, които са създадени за други цели освен за научни изследвания. Много социални учени, вече са имали опит за справяне с непълнотите, като съществуваща проучване, че не зададе въпроса си искал. За съжаление, проблемите на непълноти са склонни да бъдат по-крайни в големи данни. В моя опит, голям данни има тенденция да се лишите три вида информация, полезни за социални изследвания: демография, поведението на други платформи, както и данни за операционализиране теоретични конструкции.

Всички тези три форми на непълноти са илюстрирани в проучване от Gueorgi Kossinets и Дънкан Уотс (2006) за развитието на социалната мрежа в университет. Kossinets и Watts започна с имейл трупи от университета, които имат точна информация за това кой изпраща имейли, на които по кое време (изследователите не са имали достъп до съдържанието на имейлите). Тези имейл записи звучат като невероятен набор от данни, но те са-въпреки техния размер и детайлност-фундаментално непълна. Например, имейл логове не включват данни за демографските характеристики на учениците, като пол и възраст. Освен това, имейл логове не включват информация за комуникация чрез други медии, като например телефонни обаждания, текстови съобщения или лице в лице разговори. Накрая, имейл логове не директно включват информация за взаимоотношения, теоретичните конструкти в много от съществуващите теории. По-късно в главата, когато се говори за стратегии за научни изследвания, ще видите как Kossinets и Watts решен тези проблеми.

От три вида непълноти, проблемът с непълни данни, за да приведат в действие теоретични конструкции е най-трудното да се реши, и в моя опит, това е често случайно се пренебрегва от учените данни. Грубо казано, теоретични конструкции са абстрактни идеи, че социалните учени изучават, но, за съжаление, тези конструкции не винаги може да бъде еднозначно определени и измерени. Например, нека си представим, се опитва да тества емпирично привидно проста твърдението, че хората, които са по-интелигентни печелят повече пари. За да се провери това твърдение, че ще трябва да се измери "интелигентност". Но, какво е интелигентност? Например, Gardner (2011) твърди, че всъщност има осем различни форми на интелигентност. А, има ли процедури, които биха могли да мерят точно някоя от тези форми на интелигентност? Въпреки огромните количества работа от психолози, тези въпроси все още не са еднозначни отговори. По този начин, дори сравнително прост с иска хора, които са по-интелигентни печелят повече пари, може да бъде трудно да се прецени емпирично, защото тя може да бъде трудно да се приведат в действие теоретични конструкции в данните. Други примери за теоретични конструкции, които са важни, но трудно да се приведат в действие включва "норми", "социален капитал" и "демокрация". Социолозите наричат ​​мача между теоретични конструкции и конструкт данни валидност (Cronbach and Meehl 1955) . И, като този списък конструкции предполага, изграждане на валидност е проблем, че социалните учени са се борили с за много дълго време, дори когато те са работили с данни, които се събират за целите на научни изследвания. Когато се работи с данни, събрани за цели, различни от изследвания, проблемите на конструкт валидност са още по-голямо предизвикателство (Lazer 2015) .

Когато четете хартия изследвания, един бърз и полезен начин да се оцени опасения за конструкт валидност е да вземе главната претенция в хартията, която обикновено се изразява по отношение на конструкции, и то отново изрази по отношение на данните, използвани. Например да разгледаме две хипотетични проучвания, които твърдят, за да покаже, че по-интелигентни хора печелят повече пари:

  • Проучване 1: хора, които показват добри резултати и на тест-а на Raven Прогресивни Матрици добре проучен тест на аналитичната интелигентност (Carpenter, Just, and Shell 1990) -са по-висока докладвани на доходите на техните данъчни декларации
  • Проучване 2: хора на Twitter, които използват по-дълги думи са по-склонни да се спомене, луксозни марки

И в двата случая, изследователите биха могли да твърдят, че те са показали, че по-интелигентни хора печелят повече пари. Но, в първото проучване на теоретичните конструкти са добре операционализирани от данните, а във втория те не са. Освен това, тъй като този пример илюстрира, повече данни не води автоматично решаване на проблеми с конструкт валидност. Трябва да се съмняват в резултатите от изследване 2 дали то е свързано с един милион туитове, милиард туитове, или един трилион туитове. За изследователите не са запознати с идеята за конструкт валидност, Таблица 2.2 дава някои примери за изследвания, които са приведени в действие теоретични конструкции, използващи цифрови данни следи.

Таблица 2.2: Примери за цифрови следи, които се използват като мерки за по-абстрактни теоретични концепции. Социолозите наричат ​​този мач конструкт валидност и това е голямо предизвикателство, с помощта на големи източници на данни за социални изследвания (Lazer 2015) .
Digital следа Теоретична конструкт цитат
имейл трупи от един университет (само мета-данни) социални взаимоотношения Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
социални медийни публикации в Weibo гражданско участие Zhang (2016)
имейл трупи от една фирма (мета-данни и пълен текст) Културен поберат в една организация Goldberg et al. (2015)

Въпреки, че проблемът с непълни данни за операционализиране теоретични конструкции е доста трудно да се реши, има три общи решения на проблема с непълна демографска информация и непълна информация за поведението на други платформи. Първата е да се действително да събира данните, които се нуждаят; Аз ще ви кажа за пример, че в глава 3, когато аз ви кажа за изследвания. За съжаление, този вид събиране на данни не винаги е възможно. Втората основна решение е да се направи това, което учените повикване за данни от потребителя атрибут извод и това, което социолозите наричат ​​условно изчисление. При този подход, изследователите използват информацията, която те имат за някои хора, за да се направи извод атрибути на други хора. Третият възможно решение-този, използван от Kossinets и Watts-е да се комбинират различни източници на данни. Този процес понякога се нарича сливане или запис връзка. Моят любим метафора за този процес е бил предложен в първия параграф на първата книга, писана някога за запис връзка (Dunn 1946) :

"Всеки човек в света създава книгата на живота. Тази книга започва с раждането и завършва със смърт. Страниците са съставени от записи на принципа събития в живота. Запис връзка е името, дадено на процеса на сглобяване на страниците на тази книга в обем. "

Този пасаж е написан през 1946 г., и по това време, хората мислят, че книгата на живота, може да включва основни житейски събития като раждане, брак, развод, и смърт. Въпреки това, сега, че толкова много информация за хората, е записано, книгата на живота може да бъде невероятно подробен портрет, ако тези различни страници (т.е., нашите цифрови следи), могат да бъдат свързани помежду си. Това книгата на живота може да бъде един голям ресурс за изследователите. Но, книгата на живота също може да се нарече база данни на гибел (Ohm 2010) , който може да се използва за всички видове неетични цели, както е описано по-долу, когато говоря за чувствителния характер на информацията, събрана от големите източници на данни по-долу и в глава 6 (етика).