Maak nie saak hoe "groot" jou "groot data" is dit waarskynlik nie die inligting wat jy wil hê.
Die meeste groot databronne onvolledig, in die sin dat hulle nie die inligting wat jy sal wil hê om jou navorsing te hê. Dit is 'n algemene kenmerk van data wat geskep is vir ander doeleindes as navorsing doeleindes. Baie sosiale wetenskaplikes het reeds die ervaring van die hantering van die onvolledigheid, soos 'n bestaande opname wat nie die vraag wat jy wou nie vra nie. Ongelukkig is die probleme van onvolledigheid is geneig om meer ekstreme in groot data te wees. In my ervaring, groot data is geneig om vermis drie tipes inligting nuttig vir sosiale navorsing: demografie, gedrag op ander platforms, en data te teoretiese konstrukte te operasionaliseer.
Al drie van hierdie vorms van onvolledigheid geïllustreer in 'n studie deur Gueorgi Kossinets en Duncan Watts (2006) oor die evolusie van die sosiale netwerk aan 'n universiteit. Kossinets en Watts begin met die e-pos logs van die Universiteit, wat akkurate inligting oor wie e-pos aan wie op watter tyd gestuur (die navorsers het toegang tot die inhoud van die e-pos nie) het. Hierdie e-pos rekords klink soos 'n ongelooflike dataset, maar, hulle is ten spyte van hul grootte en korrelig-fundamenteel onvolledig. Byvoorbeeld, die e-pos logs nie sluit inligting oor die demografiese kenmerke van die studente, soos geslag en ouderdom. Verder doen die e-pos logs nie sluit inligting oor kommunikasie deur ander media, soos telefoonoproepe, SMS-boodskap, of van aangesig tot aangesig gesprekke. Ten slotte, moenie die e-pos logs nie direk sluit inligting oor verhoudings, die teoretiese konstrukte in baie bestaande teorieë. Later in die hoofstuk, wanneer ek praat oor navorsingstrategieë, sal jy sien hoe Kossinets en Watts opgelos hierdie probleme.
Van drie soorte onvolledigheid, die probleem van onvolledige data na teoretiese konstrukte te operasionaliseer is die moeilikste om op te los, en in my ervaring, is dit dikwels per ongeluk oor die hoof gesien deur data wetenskaplikes. Sowat, teoretiese konstrukte is abstrakte idees wat sosiale wetenskaplikes bestudeer, maar, helaas, hierdie konstrukte kan nie altyd ondubbelsinnig gedefinieer en gemeet. Byvoorbeeld, kom ons dink probeer om die skynbaar eenvoudige eis dat mense wat meer intelligent meer geld te verdien empiries te toets. Ten einde hierdie eis te toets jy nodig sou wees om te meet "intelligensie." Maar, wat is intelligensie? Byvoorbeeld, Gardner (2011) het aangevoer dat daar eintlik agt verskillende vorme van intelligensie. En, is daar prosedures wat akkuraat enige van hierdie vorme van intelligensie kan meet? Ten spyte van enorme hoeveelhede werk deur sielkundiges, hierdie vrae nog nie ondubbelsinnig beantwoord. Dus, selfs 'n relatief eenvoudige eis-mense wat meer intelligent te verdien meer geld-kan moeilik om empiries te evalueer, omdat dit moeilik kan wees om teoretiese konstrukte te operasionaliseer in data. Ander voorbeelde van teoretiese konstrukte wat belangrik is, maar moeilik om te operasionaliseer sluit "norme", "sosiale kapitaal," en "demokrasie is." Sosiale wetenskaplikes noem die wedstryd tussen teoretiese konstrukte en data konstrukgeldigheid (Cronbach and Meehl 1955) . En as hierdie lys van konstrukte dui, konstrukgeldigheid is 'n probleem wat sosiale wetenskaplikes het gesukkel met 'n baie lang tyd, selfs wanneer hulle werk met data wat ingesamel is met die doel om navorsing. By die werk met data wat ingesamel is vir ander doeleindes as navorsing doeleindes, die probleme van konstrukgeldigheid is selfs meer uitdagend (Lazer 2015) .
Wanneer jy lees 'n navorsingsverslag, een vinnige en nuttige manier om te bepaal kommer oor konstrukgeldigheid is om die belangrikste eis in die koerant, wat gewoonlik uitgedruk in terme van konstrukte te neem, en weer druk dit in terme van die gebruik van data. Byvoorbeeld, kyk na twee hipotetiese studies wat daarop aanspraak maak om te wys dat meer intelligente mense meer geld te verdien:
In beide gevalle, kan navorsers beweer dat hulle het getoon dat meer intelligente mense meer geld te verdien. Maar, in die eerste studiejaar die teoretiese konstrukte is goed geoperasionaliseer deur die data, en in die tweede hulle is nie. Verdere, aangesien dit voorbeeld illustreer, meer data nie outomaties probleme met konstrukgeldigheid te los. Jy moet die resultate van Studie 2 twyfel of dit wat betrokke is 'n miljoen tweets, 'n miljard tweets, of 'n triljoen tweets. Vir navorsers nie vertroud is met die idee van konstrukgeldigheid, Table 2.2 bied 'n paar voorbeelde van studies wat teoretiese konstrukte met behulp van digitale spoor data het geoperasionaliseer.
digitale spoor | teoretiese konstruk | Citation |
---|---|---|
e-pos logs van 'n universiteit (net meta-data) | sosiale verhoudings | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
sosiale media poste op Weibo | burgerlike betrokkenheid | Zhang (2016) |
e-pos logs van 'n firma (meta-data en volledige teks) | Kulturele pas in 'n organisasie | Goldberg et al. (2015) |
Hoewel die probleem van onvolledige data vir operasionalisering teoretiese konstrukte is baie moeilik om op te los, is daar drie algemene oplossings vir die probleem van onvoltooide demografiese inligting en onvolledige inligting oor gedrag op ander platforms. Die eerste is om die inligting wat jy nodig het eintlik in te samel; Ek sal jou vertel oor 'n voorbeeld van wat in Hoofstuk 3 toe ek jou vertel oor opnames. Ongelukkig, hierdie soort van data-insameling is nie altyd moontlik nie. Die tweede belangrikste oplossing is om te doen wat data wetenskaplikes noem gebruiker-kenmerk afleiding en wat sosiale wetenskaplikes noem toerekening. In hierdie benadering, navorsers gebruik die inligting wat hulle op 'n paar mense om eienskappe van ander mense af te lei. Die derde moontlike oplossing-die een wat gebruik word deur Kossinets en Watts-was om verskeie databronne te kombineer. Hierdie proses word soms genoem samesmelting of rekord koppeling. My gunsteling metafoor vir hierdie proses is voorgestel in die heel eerste paragraaf van die heel eerste papier ooit op rekord koppeling geskryf (Dunn 1946) :
"Elke persoon in die wêreld skep 'n Boek van die Lewe. Hierdie boek begin met die geboorte en eindig met die dood. Die bladsye is saamgestel uit rekords van die beginsel gebeure in die lewe. Rekord koppeling is die naam wat gegee word aan die proses van die samestelling van die bladsye van hierdie boek in 'n volume. "
Hierdie gedeelte is in 1946 geskryf, en op daardie tydstip, was mense dink dat die boek van die lewe kan insluit groot gebeurtenisse in die lewe soos geboorte, huwelik, egskeiding, en die dood. Maar nou dat soveel inligting oor mense aangeteken, die boek van die lewe kan 'n ongelooflik gedetailleerde portret wees, indien die verskillende bladsye (dit wil sê, ons digitale spore), saam kan bind. Hierdie boek van die lewe kan 'n groot bron vir navorsers wees. Maar, die boek van die lewe kan ook 'n databasis van ondergang genoem (Ohm 2010) , wat gebruik kan word vir alle vorme van onetiese doeleindes, soos meer beskryf onder toe ek praat oor die sensitiewe aard van die inligting wat deur 'n groot data bronne hieronder ingesamel en in Hoofstuk 6 (Etiek).