Без обзира на то колико су велики ваши подаци, вероватно нема информације које желите.
Већина великих извора података је непотпуна , у смислу да немају информације које желите за ваше истраживање. Ово је заједничка карактеристика података који су креирани за друге сврхе осим истраживања. Многи социолошки научници већ имају искуства да раде на некомплетности, као што је постојећа анкета која није постављала питање које је било потребно. Нажалост, проблеми непотпуности су у великим подацима екстремнији. По мом искуству, великим подацима недостаје три врсте информација корисних за социјално истраживање: демографске информације о учесницима, понашање на другим платформама и подаци за операционализацију теоријских конструкција.
Од три врсте непотпуности, најтежи је ријешити проблем непотпуних података за операционализацију теоријских конструкција. И по мом искуству, често се случајно занемарује. Приближно, теоријски конструкти су апстрактне идеје које истраживачи социјализма проучавају и операционализују теоријски конструктни начини који предлажу неки начин за заузимање тог конструкта са посматраним подацима. Нажалост, овај једноставан процес често се испоставља прилично тешким. На пример, претпоставимо да покушавамо емпиријски тестирати очигледно једноставну тврдњу да људи који су интелигентнији зарађују више новца. Да бисте тестирали ову тврдњу, морали бисте да измерите "интелигенцију". Али шта је интелигенција? Gardner (2011) тврди да постоје заправо осам различитих облика обавјештајних података. И да ли постоје процедуре које могу прецизно да измере било који од ових облика обавјештајних података? Упркос огромним количинама рада психолога, ова питања и даље немају недвосмислене одговоре.
Стога, чак и релативно једноставна тврдња - људи који су интелигентнији зарађују више новца - тешко је процијенити емпиријски, јер може бити тешко операционализовати теоријске конструкције у податке. Други примери теоријских конструкција који су важни али тежи за операционализацију укључују "норме", "друштвени капитал" и "демократију". Социјалисти називају меч између теоријских конструкција и валидности конструктора података (Cronbach and Meehl 1955) . Како ова кратка листа конструкта сугерише, изградња ваљаности је проблем са којим су се социологи већ дуго борили. Али, по мом искуству, проблеми конструисања ваљаности су још већи када радите са подацима који нису створени у сврху истраживања (Lazer 2015) .
Када процењујете резултат истраживања, један брз и користан начин процене конструктивне валидности јесте да узмете резултат, који се обично изражава у смислу конструкција и поново изражава у смислу кориштених података. На пример, размотрите две хипотетичке студије које тврде да показују да људи који су интелигентнији зарађују више новца. У првој студији, истраживач је открио да људи који добро успијевају на тесту Равен Прогрессиве Матрицес - добро проучаван тест аналитичке интелигенције (Carpenter, Just, and Shell 1990) - имају веће пријављене приходе на пореске пријаве. У другој студији, истраживач је открио да ће људи на Твиттер-у који користе дуже речи више вероватно помињу луксузне брендове. У оба случаја, ови истраживачи могу тврдити да су показали да људи који су интелигентнији зарађују више новца. Међутим, у првој студији теоретски конструкти добро операционализују подаци, док у другом то нису. Надаље, како овај пример илуструје, више података не решава аутоматски проблеме са конструкцијом валидности. Треба сумњати у резултате друге студије да ли је укључивао милион твеетова, милијарду твеетова или трилион твеетова. За истраживаче који нису упознати са идејом конструисања валидности, табела 2.2 даје неколико примера студија које су операционализовале теоријске конструкције користећи податке о дигиталном трагову.
Извор података | Теоријски конструкт | Референце |
---|---|---|
Е-маил логови са универзитета (само мета-подаци) | Друштвени односи | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Поруке друштвених медија на Веибо | Грађански ангажман | Zhang (2016) |
Евиденција евиденције од фирме (мета-података и комплетан текст) | Културно уклапање у организацију | Srivastava et al. (2017) |
Иако је проблем непотпуних података за хватање теоријских конструкција прилично тешко решити, постоје заједничка рјешења за друге уобичајене врсте непотпуности: непотпуне демографске информације и непотпуне информације о понашању на другим платформама. Прво решење је стварно прикупљање података који су вам потребни; Рећи ћу вам о томе у 3. поглављу када вам кажем о истраживањима. Друго главно решење је да уради оно што научници података називају закључивањем атрибута корисника, а друштвени научници називају импутацију . У овом приступу истраживачи користе информације које имају на неким људима да закључе атрибуте других људи. Треће могуће решење је комбиновање више извора података. Овај процес се понекад назива рекордним повезивањем . Моју омиљену метафору за овај процес написао је Dunn (1946) у првом параграфу првог новина икад написаног о рекордној повезаности:
"Свака особа на свету ствара књигу живота. Ова књига почиње рођеним и завршава се смрћу. Њене странице чине записи о главним догађајима у животу. Снимак веза је назив дат процесу састављања страница ове књиге у запремину. "
Када је Дунн написао тај пасус, замишљао је да Књига живота може укључити велике животне догађаје као што су рођење, брак, развод и смрт. Међутим, сада када је забележено толико информација о људима, Књига живота може бити невероватно детаљан портрет, ако се те различите странице (тј. Наше дигиталне трагове) могу повезати заједно. Ова књига живота може бити одличан извор за истраживаче. Али, то се такође може назвати база уништења (Ohm 2010) , која би се могла користити за све врсте неетичких циљева, као што ћу описати у поглављу 6 (Етика).