Nesvarbu, koks didelis yra jūsų dideli duomenys, tikriausiai jis neturi norimos informacijos.
Dauguma didžiųjų duomenų šaltinių yra neišsamūs , ta prasme, kad jie neturi informacijos, kurią norėsite atlikti savo tyrimus. Tai yra įprastas duomenų, sukurtų kitais tikslais nei tyrimai, bruožas. Daugelis socialinių mokslų jau turėjo patirties sprendžiant nekompetentingumą, pavyzdžiui, egzistuojančią apklausą, kurioje nepateikta reikalingo klausimo. Deja, nekompetentingumo problemos yra didelės apimties duomenų. Mano patirtis rodo, kad dideliems duomenims trūksta trijų rūšių informacijos, naudingos socialiniams tyrimams: demografinei informacijai apie dalyvius, elgsenai kitose platformose ir duomenims, reikalingiems teoriniams konstruktams įgyvendinti.
Iš trijų rūšių neužbaigtumo sunkiausia išspręsti problema, susijusi su neužbaigtais duomenimis, siekiant praktiškai pritaikyti teorinius konstruktus. Mano patirtis dažnai netyčia ignoruojama. Grubiai, teoriniai konstruktai yra abstrakčios idėjos, kad sociologai studijuoja ir veikiančiu teorinis konstruktas reiškia siūlyti tam tikrą būdą, kaip fiksuoti, kad statyti su stebimais duomenimis. Deja, šis paprastas skambėjimo procesas dažnai tampa gana sunkus. Pavyzdžiui, įsivaizduosime bandydami empiriškai išbandyti akivaizdžiai paprastą teiginį, kad žmonės, kurie yra protingesni, uždirba daugiau pinigų. Norint išbandyti šį teiginį, reikės išmatuoti "intelektą". Bet kas yra intelektas? Gardner (2011) teigė, kad iš tiesų yra aštuonios skirtingos intelekto formos. Ar yra procedūrų, kurios galėtų tiksliai išmatuoti bet kurią iš šių žvalgybos formų? Nepaisant didžiulių psichologų darbo vietų, šie klausimai vis dar neturi vienareikšmiškų atsakymų.
Taigi netgi palyginti paprastas reikalavimas - žmonės, kurie yra protingesni, uždirba daugiau pinigų, gali būti sunku empiriškai įvertinti, nes gali būti sunku pritaikyti teorinius duomenų struktūras. Kiti svarbių, bet sunkiai įgyvendinamų teorinių konstrukcijų pavyzdžiai yra "normos", "socialinis kapitalas" ir "demokratija". Socialiniai mokslininkai vadina teorinių konstrukcijų ir duomenų konstravimo pagrįstumą (Cronbach and Meehl 1955) . Kaip rodo šis trumpas konstrukcijų sąrašas, konstravimo pagrįstumas yra problema, su kuria socialiniai mokslininkai kovojo labai ilgą laiką. Tačiau, mano patirtimi, konstrukcijos pagrįstumo problemos dar didesnės, kai dirbate su duomenimis, kurie nebuvo sukurti mokslinių tyrimų tikslais (Lazer 2015) .
Kai vertinate tyrimo rezultatus, vienas greitas ir naudingas būdas įvertinti konstrukcijos pagrįstumą yra rezultatas, kuris paprastai išreiškiamas konstrukcijų požiūriu, ir išreikšti jį panaudotų duomenų požiūriu. Pvz., Apsvarstykite du hipotetinius tyrimus, kurie teigia, kad žmonės, kurie yra protingesni, uždirba daugiau pinigų. Pirmajame tyrime mokslininkas nustatė, kad žmonės, kurie gerai vertino "Raven" pažangių matricų testą, yra gerai ištirtas analitinės intelekto testas (Carpenter, Just, and Shell 1990) , jų mokesčių deklaracijose yra didesnės pajamos. Antrame tyrime mokslininkas nustatė, kad "Twitter" vartotojai, kurie naudojo ilgesnius žodžius, labiau linkę paminėti prabangių prekių ženklų. Abiem atvejais šie tyrėjai galėjo teigti, kad jie parodė, kad žmonės, kurie yra protingesni, uždirba daugiau pinigų. Tačiau pirmame tyrime teoriniai konstruktai yra tinkamai pritaikomi pagal duomenis, o antruoju - ne. Be to, kaip parodyta šiame pavyzdyje, daugiau duomenų automatiškai nesprendžia konstrukcijos galiojimo problemų. Jūs turėtumėte abejoti antrojo tyrimo rezultatais, ar jame dalyvavo milijonas tweets, milijonas tweets ar trilijonų tweets. Tyrėjams, kurie nėra susipažinę su konstrukcijos pagrįstumo idėjomis, 2.2 lentelėje pateikti keli tyrimai, kuriuose teoriniai konstruktai buvo pritaikyti naudojant skaitmeninius pėdsakų duomenis.
Duomenų šaltinis | Teorinis konstruktas | Nuorodos |
---|---|---|
El. Pašto žurnalai iš universiteto (tik metaduomenys) | Socialiniai santykiai | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Socialinės žiniasklaidos pranešimai Weibo | Pilietinis dalyvavimas | Zhang (2016) |
El. Pašto žurnalai iš įmonės (meta duomenys ir pilnas tekstas) | Kultūrinis pritaikymas organizacijoje | Srivastava et al. (2017) |
Nors problema, susijusi su nebaigtais duomenimis teorinių konstrukcijų gaudymui, yra gana sunkiai išspręsta, yra bendrų kitų tipiškų neišsamumo tipų sprendimų: neišsami demografinės informacijos ir neišsami informacijos apie elgseną kitose platformose. Pirmasis sprendimas yra faktiškai surinkti reikiamus duomenis; Aš pasakysiu apie tai 3 skyriuje, kai pasakysiu apie apklausas. Antrasis pagrindinis sprendimas yra tai, ką daryti, mokslininkai vadina vartotojo išraiškos išvadą, o socialiniai mokslininkai vadina priskyrimą . Pagal šį metodą mokslininkai naudoja informaciją, kurią jie turi tam tikriems žmonėms, kad būtų galima nustatyti kitų žmonių požymius. Trečias galimas sprendimas - sujungti kelis duomenų šaltinius. Šis procesas kartais vadinamas rekordiniu ryšiu . Mano mėgstamiausia šio proceso metafora buvo parašyta Dunn (1946) Pačioje pirmojo dokumento pirmoje dalyje, kuriam kada nors parašyta apie įrašų sąsają:
"Kiekvienas žmogus pasaulyje sukuria Gyvenimo knygą. Ši knyga prasideda nuo gimimo ir baigiasi mirtimi. Jos puslapiai susideda iš pagrindinių gyvenimo įvykių įrašų. Įrašų susiejimas yra pavadinimas, suteiktas šios knygos puslapių surinkimo procesui į tomą. "
Kai Dunn rašė tą ištrauką, jis įsivaizdavo, kad Gyvenimo knyga gali apimti svarbiausius gyvenimo įvykius, tokius kaip gimimas, santuoka, santuokos nutraukimas ir mirtis. Tačiau dabar, kai įrašoma tiek daug informacijos apie žmones, Gyvenimo knyga gali būti neįtikėtinai detalus portretas, jei šiuos skirtingus puslapius (ty mūsų skaitmenines pėdsakus) galima susieti. Ši Gyvenimo knyga galėtų būti puikus tyrėjų išteklius. Tačiau ją taip pat galima pavadinti griovių duomenų baze (Ohm 2010) , kuri galėtų būti naudojama įvairiais neetiškais tikslais, kaip aprašysiu 6 skyriuje "Etika".