2.3.2.1 osatugabea

Ez dio axola nola "big" zure "big datuak" da seguruenik ez du nahi duzun informazioa dute.

Big gehienak datu-iturri osatu gabe daude, zentzu ez dutela hori zure ikerketa egiteko aukera izango duzu nahi informazioa behar ere. Hau dela ikerketa baino beste helburuetarako sortu ziren datuen ezaugarri komun bat da. gizarte-zientzialari askok dagoeneko osatugabea aurre, hala nola existitzen den inkesta batek ez zuen galderari nahi duzun galdetuko gisa esperientzia izan. Zoritxarrez, osatugabea arazoen aurrean joera datuak big muturreko izateko. Nire esperientzia, big datuak ohi den hiru informazio mota ikerketa sozialak baliagarriak falta den: demografia, beste plataformetan portaera, eta datuak konstruktu teoriko operatibo egiteko.

Osatugabea forma horiek guztiak hiru Gueorgi Kossinets eta Duncan Watts ikerketa baten ilustratua dira (2006) eta sare sozialen bilakaera unibertsitate batean buruz. Kossinets eta Watts unibertsitatetik email egunkariak, bertan nor nori emailak bidaliko zer ordutan (ikertzaileek ez emailak edukia baliatzea) buruzko informazio zehatza izan zituela hasi zen. email Erregistro horiek multzoaren harrigarri bat bezala soinua, baina, are-arren beren tamaina eta zatikapen-funtsean osatu gabe dute. Adibidez, email egunkariak ez dira ikasleen ezaugarri demografiko hauek, besteak beste, genero eta adina buruzko datuak. Aurrerago, email erregistroak ez komunikazioaren beste multimedia, adibidez, telefono deiak, testu-mezu bat edo face-to-face elkarrizketa gisa bidez argibideekin. Azkenik, email erregistroak ez zuzenean, besteak harremanak, dagoen teoria askotan konstruktu teoriko buruzko informazioa. Geroago kapituluan ere, betiere ikerketa-estrategiak buruz hitz egin dut, ikusiko duzu Kossinets eta Watts nola konpondu arazo horiek.

Hiru osatugabea mota Of, osatu gabeko datuak arazoa konstruktu teoriko operatibo egiteko zailena konpondu da, eta nire esperientzia, askotan nahi gabe datuak zientzialari ahaztea. Gutxi gorabehera, konstruktu teoriko ideia abstraktuak gizarte zientzialari aztertzeko erabiltzen dira, baina, zoritxarrez, eraikuntza horietan ezin beti argian definitzen eta neurtuko da. Adibidez, demagun enpirikoki probatzeko itxuraz sinple erreklamazioa nor gehiago adimentsua jendeak diru gehiago irabazteko nahian. Ordena erreklamazio hau probatzeko neurtzeko behar duzu litzateke "inteligentzia." Baina, zer da adimena? Adibidez, Gardner (2011) argudiatu du ez direla benetan zortzi adimen-forma desberdinak. Eta, hor daude prozedurak zezakeen zehaztasunez adimen-forma horien edozein neurtzeko? lan-kantitate izugarria psikologoek arren, galdera hauek oraindik ez anbiguotasunik erantzun dute. Horrela, nahiz eta nahiko erraza galdegiteko pertsona nor gehiago burutsua gehiago irabazten dirua-ahal gogor enpirikoki ebaluatzeko izango da zaila izan daitekeelako konstruktu teoriko operatibo egiteko datuak ere. Beste konstruktu teoriko hori garrantzitsua da, baina gogorra ere badu, "arau", "gizarte-kapitala", eta "demokrazia abian jartzen dira adibide." Gizarte zientzialariek konstruktu teoriko eta datu eraikuntza baliozkotasuna arteko partida deitu (Cronbach and Meehl 1955) . Eta, eraikuntzen zerrenda hau dioen bezala, eraikitzeko baliozkotasuna arazo bat da gizarte-zientzialariek batera borrokatu dute denbora luzez, nahiz eta hori izan zen ikerketaren helburua bildutako datuekin ziren lanean. Ikerketa baino beste helburuetarako bildutako datuekin lan egitean, eraikuntza baliozkotasun arazoak are gehiago Challenging dira (Lazer 2015) .

Noiz ikerketa paper bat irakurtzen ari zaren, azkar eta erabilgarria modu bat ebaluatzeko buruz eraikuntza baliozkotasuna kezka da paperean, hau da, normalean eraikuntzen arabera adieraz erreklamazioa nagusia hartu, eta berriro adierazi erabilitako datuen dagokionez. Demagun, adibidez, bi azterketa hipotetiko jende gehiago adimentsua dela diru gehiago irabazteko azaldu diotenez:

  • Study 1: ondo heldu nor Raven aurrerakoia Matrizeak Test-a on adimen analitikoa proba ondo ikasi pertsona (Carpenter, Just, and Shell 1990) -have altuagoa du errentak beren aitorpena
  • Study 2: Twitterren pertsonek erabiltzen duten hitz luzeagoak dira gehiago litekeena luxuzko marka aipatzearren

Bi kasuetan, ikertzaileek erakutsi dute jende gehiago adimentsua dela diru gehiago irabazteko baiezta daiteke. Baina, lehenengo azterketa in the konstruktu teorikoak ondo datuen arabera gauzatu egin, eta bigarrenean ez dira. Aurrerago, adibide hau argigarri gisa, datu gehiago ez du automatikoki eraikuntza balio duten arazoak konpontzeko. Study 2 emaitzak zalantzan zenuke milioi bat tweets, milioi tweets bat, edo bilioi tweets bat hartzen duten ala ez. Ikertzaileek ez eraikuntza baliozkotasuna ideia ezagutzen, 2.2 taula duten eraikuntzen teoriko arrastorik digital datuak erabiliz gauzatu egin dute ikasketak adibide batzuk eskaintzen ditu.

2.2 taula: arrasto digitala duten kontzeptu teorikoak abstraktuago baten neurri gisa erabiltzen dira adibideak. Gizarte zientzialari dei partidaren eraikuntza baliozkotasuna hau eta big datuak iturri erabiliz ikerketa sozialerako erronka nagusietako bat da (Lazer 2015) .
arrastorik Digital eraikuntza teoriko Citation
unibertsitate batetik email erregistroak (meta-datuak bakarrik) Gizarte-harremanak Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
social media Weibo mezu cívic Zhang (2016)
enpresa bati email erregistroak (meta-datuak eta testu osoa) erakunde batean Cultural sasoian Goldberg et al. (2015)

operacionalizado konstruktu teoriko datuak osatu gabe arazoa da nahiko gogorra konpondu arren, hiru osatugabea, informazio demografikoa eta portaera beste plataformetan buruzko informazio osatugabea arazoari konponbide komunak daude. Lehenengoa da behar diren datuak benetan biltzeko; Esango dut, horren adibide bat, 3. kapituluan buruz denean esango dut inkestetan buruz. Zoritxarrez, datu bilketa mota hau ez da beti posible. Bigarren irtenbide nagusia da zer datuak zientzialari dei erabiltzaile-attribute inferentzia eta zer gizarte zientzialari dei egozpena egin. Ikuspegi horretan, ikertzaileek duten pertsona batzuk duten informazioa erabili beste pertsona atributuak inferitzea. Hirugarren posible irtenbide-the Kossinets eta erabilitako Watts-zen hainbat iturritako datuak konbinatzeko. Prozesu hau deitzen da batzuetan batuz edo erregistroak batzeko. My favourite prozesu honen metafora inoiz erregistroak batzeko idatzirik oso lehen paper oso lehen paragrafoan proposatu zen (Dunn 1946) :

"Munduko pertsona bakoitzak biziaren liburutik sortzen du. Liburu honek jaiotza batekin hasten da eta heriotzarekin amaitzen da. Bere orrialdeetan bizitzan printzipio gertaeren erregistro osatuta daude. Erregistroen batzea liburu honen orrialdeak muntatzeko bolumen bat sartu prozesuan emandako izena da. "

Pasarte hau 1946an idatzi zen, eta garai hartan, jendea ziren biziaren liburutik duten bizitza handien jaiotza, ezkontza, dibortzioa, eta heriotza bezalako gertakari artean, ezin pentsatzen. Hala ere, gaur egun, jendeak informazio hainbeste grabatu da, biziaren liburua oso zehatza baten erretratua izan daiteke, beste orri horiek (hau da, gure aztarnak digital), loturik egon ahal bada elkarrekin. Bizitzaren Liburuan Hau ikertzaile baliabide handi bat izan daiteke. Baina, biziaren liburua izan ere deitzen ruina datu-basea (Ohm 2010) , bertan unethical helburuetarako mota guztiak erabil daitezke, deskribatu gehiago denean informazioaren izaera sentikorra datuak iturri handi azpitik ek jasotzen buruz hitz egingo dut behean eta 6. kapitulua (Etika) ere.