Ez dio axola zein den zure datu handiak, ziurrenik ez duzu nahi duzun informazioa.
Datu iturri gehienak osatu gabe daude, zure ikerketarako nahi duzun informazioa ez dutelakoan. Hau ikerketa-helburuetarako sortutako datuen ezaugarri komun bat da. Gizarte zientzialari askok ez dute bete-betean aurre egin behar izan duten esperientzia, galdekizun hori ez zitzaion galdetu. Zoritxarrez, osagaien arazoak muturrekoak izan ohi dira datu handietan. Nire esperientzian, datu handiak hiru informazio mota falta dira: ikerketa soziala: parte hartzaileei buruzko informazio demografikoa, beste plataforma batzuen portaera eta eraikuntza teorikoak egiteko datuak.
Hiru osotasun ezberdinetatik, eraikuntza teorikoak egiteko datu osatugabeen arazoa konpontzeko zailena da. Eta nire esperientzian, sarritan ahaztu egiten da. Gutxi gorabehera, eraikuntza teorikoak ideia abstraktuak dira, zientzialariek eraikuntza teoriko bat ikertu eta operatiboak direnean, datu hori behatzeko datuekin eraiki ahal izateko bide bat proposatzen dut. Zoritxarrez, soinu-soinu prozesu hau askotan nahiko zaila bihurtzen da. Esate baterako, imajinatu enkriptikoki egiaztatzen saiatzen ari den erreklamazio sinplea egiaztatzen duten adimendunek dirua irabazten dutenean. Erreklamazio hau probatzeko, "adimena" neurtu beharko zenuke. Baina zer da adimena? Gardner (2011) argudiatu zortzi adimen mota daude benetan. Eta badira prozedurak adimen mota horietako edozein zehaztasunez neurtzeko? Psikologoek egindako lanaren kopuru izugarria izan arren, galdera horiek oraindik ere ez dute erantzunik.
Horrela, erreklamazio nahiko sinple bat ere bada: adimendunagoak diren pertsonak diru gehiago irabazten dute, inpirikoki ebaluatzeko zaila izan daitekeelako datuak eraikitze teorikoak egiteko. Garrantzitsuak diren eraikuntzako beste adibide batzuk, baina "operazio zaila" deritzon artean, "arauak", "kapital soziala" eta "demokrazia". Gizarte zientzialariek eraikuntza teorikoen eta datuen konstruktibitatea (Cronbach and Meehl 1955) arteko konbinazioa deitzen diote. Eraikuntza-zerrenda labur hau iradokitzen duen bezala, baliozkotasuna eraikitzea zientzialariek zertxobait luzatu duten arazo bat da. Baina nire esperientzian, eraikuntzaren baliozkotasunaren arazoak ere areagotu egiten dira ikerketaren helburuetarako sortu ziren datuak (Lazer 2015) .
Ikerketaren emaitza ebaluatzen ari zarenean, eraikuntza baliozkotasuna ebaluatzeko modu azkar eta erabilgarri bat da emaitza, eraikuntzei dagokienez normalean adierazitakoa, eta erabilitako datuen arabera berriro adieraztea. Esate baterako, kontuan hartu bi ikasketa hipotetikoek diotenez, adimendunagoak dirua irabazten duten pertsonak erakusteko. Lehenengo ikerketan, ikertzaileek frogatu zuten Raven Matrize progresiboen testuak ondo aztertuko dituztela azterketa analitikoaren (Carpenter, Just, and Shell 1990) azterketa ondo aztertutakoak. Bigarren ikerketan, ikertzaileak aurkitu du hitza luzeagoak erabiltzen dituzten Twittereko jendea luxuzko marka aipatzearren. Bi kasuetan, ikertzaileek diote dirudienez diru gehiago irabazten duten jendeak frogatu duela. Hala ere, lehen azterketan, eraikuntza teorikoak datuak ondo operatiboak dira eta bigarrenak ez dira. Gainera, adibide hau azaltzen den bezala, datu gehiago automatikoki ez dira ebatzi eraikuntzaren baliozkotasunarekin. Bigarren azterketaren emaitzek zalantzan jarri beharko lukete milioi tweets, milioi tweets edo trilioi tweets. Ikertzaileek eraikuntzaren baliozkotasunaren ideiarekin zerikusirik ez dutenentzat, 2.2 taulak ikertutako adibideak eskaintzen ditu, trazatu digitalak erabiliz datu teorikoak erabiliz.
Datu iturria | Eraikuntza teorikoa | erreferentziak |
---|---|---|
Unibertsitate baten posta elektronikoko erregistroak (meta-datuak soilik) | Gizarte harremanak | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Social media Weibo-ren mezuetan | Gizartearen konpromisoa | Zhang (2016) |
Enpresako posta elektronikoen erregistroak (meta-datuak eta testu osoa) | Antolakuntza batean sartzeko kulturala | Srivastava et al. (2017) |
Eraikuntza teorikoak kapturatzeko datu osatugabea konpontzeko nahiko zaila den arren, konponbide komunak daude beste osagaien artean: informazio demografikoa osatu gabe eta beste plataformetan portaera buruzko informazio osatua. Lehen irtenbidea da behar dituzun datuak benetan biltzea; Honi buruz esan dut 3. kapituluan inkestak esaten dizudanean. Bigarren irtenbide nagusia datuak zientzialariek erabiltzaile-atributuen inferentzia deitzen diena eta gizarte-zientzialariek deitzea eskatzen dute. Ikuspegi horretatik, ikertzaile batzuek pertsona batzuek duten informazioa erabiltzen dute beste pertsonen atributuak inferitzeko. Hirugarren irtenbide posible bat datu iturri anitz konbinatzea da. Prozesu hau, batzuetan, lotura erregistroa deritzo. Prozesu hau nire metafora gogokoena Dunn (1946) ek Dunn (1946) idatzitako lehenbiziko lehen paragrafoan idatzitako diskoaren gainean idatzi zen lehen idatzitako lehen paragrafoan idatzi zen:
"Munduko pertsona bakoitzak Life liburua sortzen du. Liburu hau jaiotzarekin hasten da eta heriotzarekin amaitzen da. Bere orrialdeak bizitzaren gertakari nagusien erregistroak dira. Grabatu esteka liburu honen orrialdeak bolumen batean muntatzeko prozesuari emandako izena da ".
Dunn pasarte hori idatzi zuenean, Bizitza Liburua bizitzaren jaiotzako, ezkontzako, dibortzioen eta heriotzaren bezalako gertakari garrantzitsuenak izan zitzakeen. Hala eta guztiz ere, orain jende kopuruari buruzko informazio asko grabatuta dago, Life Book erretratu izugarri zehatza izan daiteke, orri desberdin horiek (hau da, gure aztarnak digitala) lotzen badira. Life liburu hau ikertzaileentzako baliabide ezin hobea izan liteke. Hala ere , hondamendien datu-base bat ere deitu daiteke (Ohm 2010) , helburu ez-etiko guztiekin erabil daitekeena, 6. kapituluan (Etika) deskribatuko dudan bezala.