Незалежно від того, наскільки великі ваші великі дані, воно, ймовірно, не має потрібної інформації.
Більшість великих джерел даних є неповними , у тому сенсі, що вони не мають інформації, яку ви хочете для свого дослідження. Це загальна риса даних, створених для інших цілей, крім досліджень. Багато соціологів вже мали досвід розгляду неповноти, наприклад існуюче опитування, яке не задало питання, яке було необхідно. На жаль, проблеми неповноти, як правило, є більш екстремальними у великих даних. З мого досвіду великі дані, як правило, відсутні у трьох типах інформації, корисної для соціальних досліджень: демографічна інформація про учасників, поведінка на інших платформах та дані для операціоналізації теоретичних конструкцій.
З трьох видів незавершеності проблема неповних даних для операціоналізації теоретичних конструкцій найважче вирішити. І на мій досвід, це часто випадково забувають про себе. Приблизно, теоретичні конструкції - це абстрактні ідеї, що соціальні вчені вивчають і втілюють в життя теоретичну конструкцію, означає пропонувати якийсь спосіб захоплення цієї конструкції з спостережуваними даними. На жаль, це просте звучання процес часто виявляється досить складним. Наприклад, уявімо собі, намагаючись емпірично випробувати очевидно просте твердження, що люди, які більш розумні, заробляють більше грошей. Щоб перевірити цю претензію, потрібно буде виміряти "інтелект". Але що таке розвідка? Gardner (2011) стверджував, що насправді існує вісім різних форм інтелекту. І чи існують процедури, які б могли точно виміряти будь-яку з цих форм інтелекту? Незважаючи на величезну кількість робіт психологів, ці питання все ще не мають однозначних відповідей.
Таким чином, навіть порівняно просте твердження: люди, які більш інтелектуальні, заробляють більше грошей, можуть бути важко оцінити емпірично, оскільки теоретичні конструкти в даних можуть бути складними. Інші приклади теоретичних конструкцій, важливих, але важко практикуючих, включають "норми", "соціальний капітал" і "демократія". Соціологи називають співвідношення між теоретичними конструкціями та дійсністю конструкції даних (Cronbach and Meehl 1955) . Згідно з цим коротким переліком конструкцій, конструктивна дійсність є проблемою, з якою соціальні вчені боролись дуже довго. Але, на мій досвід, проблеми конструювання дійсності ще більші, коли працюють з даними, які не були створені для цілей дослідження (Lazer 2015) .
Коли ви оцінюєте результати дослідження, одним з найкоротших і корисних способів оцінки конструктивної валідності є прийняття результату, який зазвичай виражається в термінах конструкцій, і повторно виразити його з точки зору використовуваних даних. Наприклад, розглянемо два гіпотетичних дослідження, які стверджують, що люди, які більш розумні, заробляють більше грошей. У першому дослідженні дослідник виявив, що люди, які добре оцінюють випробування на прогресивних матрицях Ворона, - це добре вивчене тестування аналітичного інтелекту (Carpenter, Just, and Shell 1990) - вони мають вищі відомі прибутки на податкові декларації. У другому дослідженні дослідник виявив, що люди в Twitter, які використовували довші слова, більш імовірно, згадують розкішні бренди. В обох випадках ці дослідники можуть стверджувати, що вони показали, що люди, які більш розумні, заробляють більше грошей. Проте в першому дослідженні теоретичні конструкції добре функціонують за даними, а в другому - не. Крім того, як показує цей приклад, більше даних автоматично не вирішує проблеми з конфігурацією дійсності. Ви повинні сумніватися в результатах другого дослідження, чи включає він мільйон твітів, мільярд твітів або трильйон твітів. Для дослідників, не знайомих з ідеєю конструктивної обґрунтованості, таблиця 2.2 наводить деякі приклади досліджень, в яких були застосовані теоретичні конструкції з використанням даних цифрового трасування.
Джерело даних | Теоретична конструкція | Список літератури |
---|---|---|
Електронні журнали з університету (лише мета-дані) | Соціальні відносини | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Публікації соціальних медіа на Weibo | Громадянська участь | Zhang (2016) |
Електронні журнали з фірми (мета-дані та повний текст) | Культурна придатність в організації | Srivastava et al. (2017) |
Хоча проблему неповних даних для захоплення теоретичних конструкцій досить складно вирішити, існують спільні рішення для інших поширених типів незавершеності: неповна демографічна інформація та неповна інформація про поведінку на інших платформах. Перше рішення - фактично збирати потрібні дані; Я розповім вам про це в розділі 3, коли я розповім вам про опитування. Друге основне рішення - зробити те, що дані вчені називають висновком користувальницького атрибута, і соціальні вчені називають помилкою . У такому підході дослідники використовують інформацію, яку вони мають для деяких людей, щоб визначити атрибути інших людей. Третім можливим рішенням є об'єднання декількох джерел даних. Цей процес іноді називають зв'язком запису . Моя улюблена метафора для цього процесу була написана Dunn (1946) у самому першому абзаці самого першого документа, який коли-небудь був написаний на рекордній зв'язці:
"Кожна людина в світі створює Книгу Життя. Ця книга починається з народження і закінчується смертю. Його сторінки складаються з записів основних подій у житті. Запис "зв'язок" - це ім'я, яке називається процесом збірки сторінок цієї книги в томі. "
Коли Данн написав цей уривок, він уявляв, що Книга Життя може включати в себе основні життєві події, такі як народження, шлюб, розлучення та смерть. Однак тепер, коли зафіксовано стільки інформації про людей, Книга Життя може бути надзвичайно докладним портретом, якщо ці різні сторінки (тобто наші цифрові сліди) можуть бути пов'язані разом. Ця книга життя може бути чудовим ресурсом для дослідників. Але це також можна назвати базою руйнування (Ohm 2010) , яка могла б бути використана для всіх неетичних цілей, як описати в розділі 6 (Етика).