Без значение колко големи са вашите големи данни, вероятно нямате желаната от вас информация.
Повечето големи източници на данни са непълни , в смисъл, че нямат необходимата информация за вашето изследване. Това е обща характеристика на данните, създадени за цели, различни от изследванията. Много социални учени вече са имали опит да се справят с непълнотите, като съществуващо проучване, което не е поставило въпроса, който е необходим. За съжаление, проблемите на непълнотата са склонни да бъдат по-крайни в големите данни. Според моя опит в големите данни липсват три вида информация, полезна за социални изследвания: демографска информация за участниците, поведение на други платформи и данни за оперативно теоретични конструкции.
От трите вида непълноти, проблемът с непълните данни за операциониране на теоретичните конструкции е най-трудният за решаване. И в моя опит, често е случайно пренебрегван. Грубо теоретичните конструкции са абстрактни идеи, които социалните учени изучават и оперират с теоретична конструкция и предлагат някакъв начин да уловят тази конструкция с наблюдателни данни. За съжаление, този прост звучещ процес често се оказва доста труден. Например, нека си представим, че се опитваме да проверим емпирично очевидно простото твърдение, че хората, които са по-интелигентни, печелят повече пари. За да тествате това твърдение, ще трябва да измерите "интелигентността". Но каква е интелигентността? Gardner (2011) твърди, че всъщност има осем различни форми на разузнаване. И има ли процедури, които биха могли точно да измерят някоя от тези форми на разузнаване? Въпреки огромната работа на психолозите, тези въпроси все още нямат недвусмислени отговори.
По този начин дори относително проста претенция - хората, които са по-интелигентни, печелят повече пари - може да бъде трудно да се оцени емпирично, защото може да е трудно да се реализират теоретичните конструкции в данните. Други примери за теоретични конструкции, които са важни, но трудни за операционализиране, включват "норми", "социален капитал" и "демокрация". Социалните учени наричат съвпадението между теоретичните конструкции и валидността на данните (Cronbach and Meehl 1955) . Както показва този кратък списък от конструкти, изграждането на валидността е проблем, с който социалните учени се борят за много дълго време. Но по моя опит проблемите на конструктивната валидност са още по-големи при работа с данни, които не са създадени за целите на изследването (Lazer 2015) .
Когато оценявате резултатите от изследването, един бърз и полезен начин за оценяване на валидността на конструкта е да вземете резултата, който обикновено се изразява в конструкции, и да го преизразите по отношение на използваните данни. Например, разгледайте две хипотетични изследвания, които твърдят, че показват, че хората, които са по-интелигентни, печелят повече пари. В първото изследване изследователят установи, че хората, които са постигнали добри резултати по теста за прогресивните матрици на Равен - добре проучен тест за аналитичната интелигентност (Carpenter, Just, and Shell 1990) по-високи приходи от данъчните си декларации. Във второто проучване изследователят установи, че хората в Twitter, които използват по-дълги думи, са по-склонни да споменават луксозните марки. И в двата случая тези изследователи могат да твърдят, че са показали, че хората, които са по-интелигентни, печелят повече пари. Въпреки това, в първото изследване теоретичните конструкции са добре оперирани от данните, докато във втория те не са. Освен това, както показва този пример, повече данни не решават автоматично проблемите с конструктивната валидност. Трябва да се съмнявате в резултатите от второто проучване, независимо дали става въпрос за милион туитове, милиард туита, или трилион туита. За изследователи, които не са запознати с идеята за конструктивна валидност, в таблица 2.2 са дадени някои примери за изследвания, които са оперирали теоретични конструкции, използвайки цифрови данни за следене.
Източник на данни | Теоретична конструкция | Препратки |
---|---|---|
Ел. Имейли от университет (само за метаданни) | Социални взаимоотношения | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Социални медии публикации на Weibo | Гражданска ангажираност | Zhang (2016) |
Ел. Имейли от фирмата (метаданни и пълен текст) | Културна форма в организация | Srivastava et al. (2017) |
Въпреки че проблемът с непълните данни за улавяне на теоретични конструкции е доста трудно да се реши, има общи решения на другите често срещани непълноти: непълна демографска информация и непълна информация за поведението на други платформи. Първото решение е да съберете действително данните, от които се нуждаете; Ще ви разкажа за това в глава 3, когато ви разказвам за проучвания. Второто основно решение е да направят това, което учените от учените наричат извод за потребителски атрибути, а социалните учени наричат импритацията . В този подход изследователите използват информацията, която имат за някои хора, за да привличат атрибути на други хора. Трето възможно решение е да се съчетаят множество източници на данни. Този процес понякога се нарича връзка за записване . Любимата ми метафора за този процес е написана от Dunn (1946) в първия абзац на първата книга, която някога е написана на рекордната връзка:
"Всеки човек в света създава Книга на Живота. Тази книга започва с раждането и завършва със смърт. Страниците му са съставени от записи на основните събития в живота. Записът за връзка е името, дадено на процеса на сглобяване на страниците на тази книга в обем. "
Когато Дън пише този пасаж, той си представяше, че Книгата на Живота може да включва важни събития като раждане, брак, развод и смърт. Но сега, когато се записва толкова много информация за хората, Книгата на живота може да бъде невероятно детайлен портрет, ако тези различни страници (т.е. нашите цифрови следи) могат да бъдат обединени. Тази Книга на Живота може да бъде велик ресурс за изследователите. Но това би могло да се нарече базисна база данни (Ohm 2010) , която може да се използва за всякакви неетични цели, както ще опиша в глава 6 (Етика).