Ükskõik kui suured on teie suured andmed, tõenäoliselt pole seda teavet, mida soovite.
Enamik suuremaid andmeallikaid on puudulikud , see tähendab, et neil ei ole teavet, mida te oma teadustöö jaoks tahate. See on andmete ühine tunnus, mis loodi muudel eesmärkidel kui uuringud. Paljud sotsiaalteadlased on juba kogenud ebatäiuslikkusega tegelemist, näiteks olemasolevat uuringut, mis ei küsinud vajalikku küsimust. Kahjuks on ebatäpsuse probleemid suurtes andmetes äärmuslikumad. Minu kogemuse kohaselt on suured andmed kadunud kolme liiki teadustööks, mis on kasulikud: demograafiline teave osalejate kohta, käitumine teistel platvormidel ja andmed teoreetiliste konstruktsioonide rakendamiseks.
Kolmanda ebatäiuslikkuse poolest on kõige raskemini lahendada mittetäielike andmete probleem teoreetiliste konstruktsioonide rakendamiseks. Ja minu kogemuses on seda sageli juhuslikult tähelepanuta jäetud. Peaaegu on teoreetilised konstruktsioonid abstraktsed ideed, mida sotsiaalteadlased uurivad ja rakendavad teoreetilist konstruktsiooni, tähendab seda, et pakutakse mõnda võimalust selle konstrueerimise jälgimiseks nähtavate andmetega. Kahjuks osutub see lihtne kõlab protsess üsna raskeks. Näiteks näeme ette, et püüame empiiriliselt testida ilmselt lihtsat väidet, et intelligentsemad inimesed teenivad rohkem raha. Selle nõude kontrollimiseks peate mõõtma "intelligentsust". Kuid mis on intelligentsus? Gardner (2011) väitis, et tegelikult on kaheksa erinevat luureandmeid. Ja kas on olemas protseduurid, mis võiksid täpselt mõõta mõnda neist luureandmetest? Vaatamata psühholoogide tohutule hulga tööle, pole neil ikkagi ühemõttelisi vastuseid.
Seega on isegi suhteliselt lihtne nõue - inimesed, kes on arukamad, teenivad rohkem raha, on raske empiiriliselt hinnata, kuna andmete teoreetilisi konstrukte võib raske rakendada. Teised näited teoreetilistest konstruktidest, mis on olulised, kuid raskesti rakendatavad, on "normid", "sotsiaalne kapital" ja "demokraatia". Sotsiaalteadlased nimetavad teoreetiliste konstruktsioonide ja andmekonstruktide kehtivuse vahelist seost (Cronbach and Meehl 1955) . Nagu see lühike konstruktsioonide nimekiri viitab, on konstruktsiooni kehtivus probleem, mida sotsiaalteadlased on juba pikka aega võidelnud. Kuid minu kogemuse kohaselt on konstruktsiooni kehtivusprobleemid veelgi suuremad, kui töötatakse koos andmetega, mis ei olnud teadusuuringute eesmärgil loodud (Lazer 2015) .
Kui hindate uurimistulemust, on üks kiire ja kasulik viis konstruktsiooni kehtivuse hindamiseks võtta tulemus, mida tavaliselt väljendatakse konstruktide osas, ja neid uuesti kasutama kasutatud andmete osas. Näiteks kaaluge kahte hüpoteetilisi uuringuid, mis näitavad, et intelligentsemad inimesed teenivad rohkem raha. Esimeses uuringus leidis uurija, et inimestel, kes võistlesid hästi Raven Progressive Matrices Test - hästi uuritud analüütilise luure katse (Carpenter, Just, and Shell 1990) - maksudeklaratsioonide kohta on suuremad teatatud tulud. Teises uuringus leidis uurija, et pikemate sõnu kasutavate Twitteris kasutavad inimesed suurema tõenäosusega luksuslikke kaubamärke. Mõlemal juhul võivad need teadlased väita, et nad on näidanud, et intelligentsemad inimesed teenivad rohkem raha. Kuid esimeses uuringus on teoreetilised konstruktsioonid andmetega hästi töökorras, teises aga mitte. Veelgi enam, nagu see näide illustreerib, rohkem andmeid ei lahenda automaatselt konstruktsiooni kehtivuse probleeme. Te peaksite kahtluse alla seada teise uuringu tulemused, kas see hõlmab miljoneid tweetsi, miljardit tweetsi või triljonit tweetsit. Teadlaste jaoks, kes ei tunne konstruktsiooni kehtivuse ideed, on tabelis 2.2 toodud mõned näited uuringutest, mis on digitaalsete jälitusteabe abil kasutanud teoreetilisi konstruktsioone.
Andmeallikas | Teoreetiline konstruktsioon | Viited |
---|---|---|
Ülikooli e-posti logid (ainult metaandmed) | Sotsiaalsed suhted | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sotsiaalmeedia postitused Weibo's | Kodanikuühendus | Zhang (2016) |
Ettevõtte e-posti logid (metaandmed ja täielik tekst) | Kultuuriline sobivus organisatsioonis | Srivastava et al. (2017) |
Kuigi teoreetiliste konstruktsioonide hankimiseks mittekomplektsete andmete probleemi on üsna raske lahendada, on teiste levinumate ebatäiuslike tüüpide puhul tavalised lahendused: mittetäielik demograafiline teave ja mittetäielik teave muude platvormide käitumise kohta. Esimene lahendus on tegelikult koguda vajalikke andmeid; Ma ütlen sulle selle kohta 3. peatükis, kui ütlen teile ülevaatuste kohta. Teine peamine lahendus on teha seda, mida teadlased nimetavad kasutaja atribuutide järelduseks ja sotsiaalteadlased nimetavad imputeerimist . Selles lähenemisviisis kasutavad teadlased teavet, mida neil on mõned inimesed, et järeldada teiste inimeste atribuute. Kolmas võimalik lahendus on mitme andmeallika ühendamine. Seda protsessi nimetatakse mõnikord rekordiksideks . Minu lemmik metafoori selle protsessi jaoks on kirjutanud Dunn (1946) esimeses esimeses kirjas, mis oli kunagi kirja pandud:
"Iga inimene maailmas loob eluraamatu. See raamat algab sünniga ja lõpeb surmaga. Selle leheküljed koosnevad peamiste elulistest sündmustest. Salvestamise seos on selle raamatu lehtede kokkupanemise protsessi maht. "
Kui Dunn kirjutas selle lõigu, oli ta ette kujutanud, et Eluraamat võib hõlmata selliseid suuri elusündmusi nagu sündimine, abielu, lahutus ja surm. Kuid nüüd, kui on salvestatud nii palju inimesi, on Life Book väga detailne portree, kui neid erinevaid lehti (st meie digitaalseid jälgi) saab seostada. See Eluarst võiks olla teadlastele suurepärane ressurss. Kuid seda võib nimetada ka hävitavaks andmebaasiks (Ohm 2010) , mida võiks kasutada igasuguste ebaeetilistes otstarbeks, nagu ma kirjeldan peatükis 6 (eetika).