Maak nie saak hoe groot jou groot data, dit het waarskynlik nie die inligting wat jy wil hê nie.
Die meeste groot databronne is onvolledig , in die sin dat hulle nie die inligting het wat u vir u navorsing wil hê nie. Dit is 'n algemene kenmerk van data wat vir ander doeleindes as navorsing geskep is. Baie sosiale wetenskaplikes het reeds die ervaring gehad om onvolledigheid te hanteer, soos 'n bestaande opname wat nie die vraag gevra het wat nodig was nie. Ongelukkig is die probleme van onvolledigheid geneig om groter te wees in groot data. In my ervaring is groot data geneig om drie tipes inligting te mis wat nuttig is vir sosiale navorsing: demografiese inligting oor deelnemers, gedrag op ander platforms en data om teoretiese konstrukte te operasionaliseer.
Van die drie soorte onvoltooidheid is die probleem van onvolledige data om teoretiese konstrukte te operasionaliseer, die moeilikste om op te los. En in my ervaring word dit dikwels per ongeluk oor die hoof gesien. Roughly, teoretiese konstrukte is abstrakte idees wat sosiale wetenskaplikes bestudeer en operasionalisering van ' n teoretiese konstruksie beteken dat dit 'n manier bied om daardie konstruksie met waarneembare data vas te lê. Ongelukkig blyk dit simpel klinkende proses baie moeilik te wees. Stel ons byvoorbeeld voor om te probeer om empiries die skynbaar eenvoudige eis te toets dat mense wat meer intelligent is, meer geld verdien. Om hierdie eis te toets, moet jy "intelligensie" meet. Maar wat is intelligensie? Gardner (2011) aangevoer dat daar eintlik agt verskillende vorme van intelligensie is. En is daar prosedures wat enige van hierdie vorms van intelligensie akkuraat kan meet? Ten spyte van groot hoeveelhede werk deur sielkundiges, het hierdie vrae nog steeds ondubbelsinnige antwoorde.
So, selfs 'n relatief eenvoudige eispersoon wat meer intelligent is, verdien meer geld. Dit kan moeilik wees om empiries te assesseer omdat dit moeilik is om teoretiese konstrukte in data te operasionaliseer. Ander voorbeelde van teoretiese konstrukte wat belangrik is, maar moeilik om te operasionaliseer, sluit in "norme," "sosiale hoofstad" en "demokrasie." Sosiale wetenskaplikes noem die wedstryd tussen teoretiese konstrukte en data- konstruksiegeldigheid (Cronbach and Meehl 1955) . Soos hierdie kort lys konstrukte aandui, is konstruksiegeldigheid 'n probleem waarmee sosiale wetenskaplikes al baie lank gesukkel het. Maar in my ervaring is die probleme van konstruksiegeldigheid selfs groter as dit werk met data wat nie vir die doeleindes van navorsing geskep is nie (Lazer 2015) .
Wanneer u 'n navorsingsresultaat assesseer, is 'n vinnige en bruikbare manier om konstruksiegeldigheid te evalueer, die resultaat wat gewoonlik uitgedruk word in terme van konstrukte, te gebruik en dit weer uit te druk in terme van die data wat gebruik word. Byvoorbeeld, oorweeg twee hipotetiese studies wat daarop dui dat mense wat meer intelligent is, meer geld verdien. In die eerste studie het die navorser bevind dat mense wat goed presteer op die Raven Progressive Matrices Test - 'n goed-bestudeerde toets van analitiese intelligensie (Carpenter, Just, and Shell 1990) - hoër inkomste het op hul belastingopgawes. In die tweede studie het die navorser bevind dat mense op Twitter wat langer woorde gebruik, meer geneig is om luukse handelsmerke te noem. In beide gevalle kan hierdie navorsers beweer dat hulle getoon het dat mense wat meer intelligent is, meer geld verdien. In die eerste studie word die teoretiese konstrukte egter goed geoperasionaliseer deur die data, terwyl dit in die tweede nie die geval is nie. Verder, soos hierdie voorbeeld illustreer, oplos meer data nie outomaties probleme met konstruksiegeldigheid nie. Jy moet die resultate van die tweede studie twyfel of dit 'n miljoen tweets, 'n biljoen tweets of 'n biljoen tweets betrek het. Vir navorsers wat nie bekend is met die idee van konstruksiegeldigheid nie, bied tabel 2.2 enkele voorbeelde van studies wat geoperasionaliseerde teoretiese konstrukte met behulp van digitale spoordata gebruik.
Data bron | Teoretiese konstruksie | verwysings |
---|---|---|
E-pos logs van 'n universiteit (slegs meta-data) | Sosiale verhoudings | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sosiale media poste op Weibo | Burgerlike betrokkenheid | Zhang (2016) |
E-pos logs van 'n firma (meta-data en volledige teks) | Kulturele fiksheid in 'n organisasie | Srivastava et al. (2017) |
Alhoewel die probleem van onvolledige data vir die vaslegging van teoretiese konstrukte redelik moeilik is om op te los, is daar algemene oplossings vir die ander algemene tipes onvolledigheid: onvolledige demografiese inligting en onvolledige inligting oor gedrag op ander platforms. Die eerste oplossing is om eintlik die data wat jy benodig te versamel; Ek sal dit in hoofstuk 3 vertel as ek jou van opnames vertel. Die tweede hoofoplossing is om te doen wat data-wetenskaplikes inferensie van gebruikers-eienskappe noem en sosiale wetenskaplikes noem toerekening . In hierdie benadering gebruik navorsers die inligting wat hulle op sommige mense het om eienskappe van ander mense af te lei. 'N Derde moontlike oplossing is om meerdere databronne te kombineer. Hierdie proses word soms rekordkoppeling genoem. My gunsteling metafoor vir hierdie proses is geskryf deur Dunn (1946) in die heel eerste paragraaf van die heel eerste referaat wat ooit op rekordverband geskryf is:
"Elke persoon in die wêreld skep 'n boek van die lewe. Hierdie boek begin met geboorte en eindig met die dood. Sy bladsye bestaan uit rekords van die hoofgebeure in die lewe. Rekord skakel is die naam wat gegee word aan die proses om die bladsye van hierdie boek in 'n volume te versamel. "
Toe Dunn daardie gedeelte geskryf het, het hy gedink dat die boek van die lewe belangrike lewensgebeure soos geboorte, huwelik, egskeiding en die dood kon insluit. Maar nou dat soveel inligting oor mense aangeteken word, kan die boek van die lewe 'n ongelooflike gedetailleerde portret wees, as die verskillende bladsye (dws ons digitale spore) saamgebind kan word. Hierdie boek van die lewe kan 'n goeie hulpmiddel vir navorsers wees. Maar dit kan ook 'n databasis van ruïne genoem word (Ohm 2010) , wat vir alle soorte onetiese doeleindes gebruik kan word, soos ek in hoofstuk 6 (Etiek) sal beskryf.