Simple zenbaketa interesgarria izan daiteke galdera ona datu onak konbinatzen baduzu.
Hizkuntza sofistikatuaren esparruan landu arren, ikerketa sozial asko kontatzen ditu gauzak. Datu handien urteetan, ikertzaileek inoiz baino gehiago kontatzen dute, baina horrek ez du esan nahi behar bezain laster konturatzen hasita. Horren ordez, ikertzaileek galdetu beharko lukete: zer da kontua? Gauza erabat subjektiboa dirudi, baina eredu orokor batzuk daude.
Sarritan, ikasleek motibatzen dute zenbaketa ikertzen, esaten dutenez: inork baino lehen ez zuen zerbait kontatuko dut. Esate baterako, ikasle batek esan dezake jende askok migratzaileak ikasi dituztela eta jende askok bi bikiak ikertu dituztela, baina inork ez ditu bikien bikiak ikasi. Nire esperientzian, estrategia hori, motibazioa ausazkoa denez , ez da normalean ikerketarako ona. Eraginkortasun motibazioa zera da, zulo bat dagoela esatea bezain atsegina, eta oso gogorra da lanak betetzeko. Baina ez da zulorik bete behar.
Etengabe motibatu beharrean, uste dut estrategia hobea dela garrantzitsuenak edo interesgarriak diren ikerketen galderari (edo hobe biak) bilatzeko. Baldintza hauetakoren bat pixka bat definitzeko zaila da, baina ikerketa garrantzitsu bat pentsatzeko modu bat da, inpaktu batzuk neurtzen dituena edo jarioak politika-arduradunek erabaki garrantzitsu bihurtzen dutela. Adibidez, langabezi tasa neurtzea garrantzitsua da politika erabakiak gidatzen dituen ekonomia adierazlearentzat. Oro har, uste dut ikertzaileek garrantzi handia dutela. Beraz, atal honetako gainerakoan, bi adibide emango ditut, kontatzea interesgarria dela uste dut. Kasu bakoitzean, ikertzaileek ez ziren kontu handiz kontatzen; baizik eta, konfiantzazko kontuetan kontatzen ziren, gizarte sistemek nola funtzionatzen duten jakiteko ideia orokorren inguruko ideia garrantzitsuak biltzen zituztela. Beste era batera esanda, konturatzen diren ariketa espezifiko interesgarriak asko ez dira datu berak, ideia orokor hauei dagokienez.
Kontu potentziaren adibide bakarra Henry Farberren (2015) New York City taxisten portaeraren azterketa da. Talde honek interes bereziki soinuak sor ditzakeen arren, ikerketa-gune estrategikoa da laborearen ekonomian bi lehiakideen teoriak probatzeko. Farber-en ikerketarako xedeetarako, taxi-gidarien lan-inguruneari buruzko bi ezaugarri garrantzitsu daude: (1) ordutegi bakoitzeko egunero egunean fluctuatzen da, eguraldiaren arabera, eta (2) ordu kopuruaren arabera Lanak egun bakoitzaren arabera aldatzen dira beren erabakietan oinarrituta. Ezaugarri horiei esker, ordutegi hourly eta ordu lanen arteko harremana buruzko galdera interesgarri bat. Ekonomia eredu neoklasikoak aurreikusten du taxi gidarien ordu gehiago handiagoak izango dituztela soldaten egunean. Bestela, portaeraren ekonomikako ereduak kontrakoa aurreikusten dute. Gidarien diru-sarreren xede zehatz bat ezartzen bada (esate baterako, $ 100 eguneko) eta lanean helburu hori betetzen den arte, gidariek ordu gutxiago lan egiten jarraituko dute irabazten ari diren egunetan. Esate baterako, helburu bat irabaztea bazara, lau orduz lan egin ahal izango duzu egun on batean ($ 25 orduko) eta bost ordu egunean txarra ($ 20 orduko). Horrela, gidariak lan egiten du ordu gehiago eguneko soldata altuagoetan (eredu neoklasikoen arabera aurreikusten den bezala) edo lan orduko soldatarik txikiena duten orduak (jokabide-eredu ekonomikoak aurreikusten duen moduan)?
Galdera honi erantzuteko, Farberrek 2009 eta 2013 urteen artean New Yorkeko kabinak hartutako taxi bakoitzeko datuak lortzen ditu, gaur egun publikoki eskuragarri dauden datuak. Hiri horietako taxiek erabili behar dituzten metro elektronikoek jasotzen dituzten datu horiek, besteak beste: irteerako ordua, kokapena hasiera, amaierako ordua, azken kokapena, tarifa eta punta (puntua kreditu txartelarekin ordaindu bada) . Taxi-metrorako datu hau erabiliz, Farber-ek gidari gehienak lan gehiago egiten ditu egun altuenean, teoria neoklasikoarekin bat etorriz.
Azterketa honi esker, Farberrek datuen tamaina erabili ahal izan zuen heterogeneotasuna eta dinamika hobeto ulertzeko. Denborak aurrera egin ahala, kontrolatzaile berriagoak pixkanaka-pixkanaka eguneko lanaldi altuetan lan egiten ikasten dute (adibidez, eredu neoklasikoak aurreikusten dituen moduan jokatzen dute). Gidarien helburu gehiago duten gidari berriak litekeena da gidarien gidaritza izatea. Aurkikuntza sotilago horietako bi, gaur egungo gidarien behatutako portaera azaltzen laguntzeko, posiblea izan zen datu multzoaren tamaina. Ezinezkoa zitzaien azterketak lehenago erabiltzen zirelako bidaia-orri batzuk taxi-gidarien kopuru txikian denbora gutxian (Camerer et al. 1997) .
Farber-en ikerketa kasu onenaren inguruko irizpidea izan zen, datu-iturri handi bat erabiliz ikerketa batek hiriak bildutako datuak Farber-ek bildutako datuetatik gertu egon baitziren (alde batetik Farberrek datu guztiak nahi zituen alokairuen tarifak gehi aholkuak, baina hiriko datuak soilik kreditu txartelarekin egindako aholkuak barne hartzen ditu). Hala ere, datuek ez zuten nahikoa. Farber-en ikerketarako gakoa datuen inguruko galdera interesgarria izan zen, eta ezarpen zehatz hori baino gehiago inplikazio handiagoa du.
Gary King, Jennifer Pan eta Molly Roberts (2013) ikerketa Txinako gobernuak egindako zentsuraren gainean egindako ikerketatik dator. Kasu honetan, ordea, ikertzaileek datu handiak biltzea lortu zuten eta datuek ez zutela bete behar izan zuten.
Erregeak eta lankideek Txinan egindako gizarte-mezuek zentsuratuta daude hamarka mila pertsona biltzen dituen egoera aparta izugarria dela eta. Ikertzaileek eta herritarrek, ordea, ez dute zer zentsoreek zer eduki ezabatu behar duten erabakitzeko. Txinako ikertzaileak benetan itxaropen desatseginak izan ditzake, mezu motak ezabatu ahal izateko. Batzuk ustez, zentsurak egoera kritiko duten mezuetan oinarritzen dira, eta beste batzuek uste dute portaera kolektiboa sustatzen duten mezuak zaintzen dituztela, hala nola protestak. Aurrez zehaztutako itxaropenak zehaztuz gero, ikertzaileek zentsura egiteko konpromisoa hartzen duten Txinako gobernu autoritarioek eta gainontzeko ikertzaileek nola eragiten duten inplikatzen dute. Hori dela eta, Kingek eta lankideek argitaratu zituzten mezuak alderatu nahi izan zituzten eta ondoren ezabatu eta argitaratu zituzten mezuak ezabatu nahi izan zituzten.
Mezu horiek Biltzen inplikatutako harrigarria ingeniaritza 1.000 baino gehiago Chinese social media web-bakoitzari arakatzea mezu garrantzitsuak ezberdinak Orrialdearen diseinu-aurkitzeko, eta, ondoren, mezu horiek berrikusten eta ondoren ezabatu ziren ikusteko batera balentria. eskala handiko web-arakatze- lotutako normal ingeniaritza arazoak gain, proiektu hau gehitu Erronka hori oso azkarra izan behar da zentsuratu mezu asko hartu behar dituelako behera 24 ordu baino gutxiago izan. Beste era batera esanda, crawler motela duten zentsuratuak sarrera asko galdu litzateke. Aurrerago, crawlers datu bilketa hori guztia egin bitartean evading detektatzeko lest gizarte media webgune sarbidea blokeatu edo bestela euren politikak aldatu estudio erantzunez izan.
Ingeniaritza masiboa burutu zen garaian, King eta lankideek 11 milioi mezu inguru lortu zituzten 85 zehaztutako gai desberdinetan, bakoitza sentsibilitate maila hartuta. Esate baterako, sentsibilitate handiko gaia Ai Weiwei da, artista disidentea; Erdiko sentikortasunaren gaia txinatarren moneta estimatzen eta desbalatzen da eta sentsibilitate baxuko gaia Munduko Kopa da. 11 milioi mezu horietako 2 milioi zentsuratu zitzaizkion. Harrigarria bada ere, Kingek eta lankideek mezuak oso sentikorrak diren gaietan mezuak zentratzen zituzten zentzu erdiko eta baxuko sentsibilitateetan baino. Beste era batera esanda, Txinako zentsuek aipatzen duten postu bat aipatzen du Ai Weiwei Munduko Kopa aipatzen duen postu gisa. Aurkikuntza horiek ez dute onartzen gobernuak gai zentzugabeei buruzko mezuak zentsuratzen dituela.
Gaiaren arabera zentsura-tasa kalkulatzeko modu sinple hau nahasgarria izan daiteke. Esate baterako, gobernuak Ai Weiwei solidarioak diren mezuak zentratzen ditu, baina berarekin kritikatzen dituzten mezuak utzi. Mezuen artean arretaz bereizteko, mezu bakoitzaren sentimendua neurtu behar zuten ikertzaileek. Zoritxarrez, lan asko egin arren, sentimenduen detekzio automatizatuek lehendik dauden hiztegiak erabiltzen dituzten metodoak oraindik ere ez dira oso onak (uste dute 2.3.9 atalean deskribatu den 2001eko irailaren 11ko emozionala). Hori dela eta, Kingek eta lankideek 11 milioi sare sozialen mezuak markatu behar zituztela (1) egoera kritikoa, (2) egoera solidarioa, edo (3) gertakari buruzko informazio garrantzitsuak edo errealitateak. Lan masiboa bezalakoa da, baina datu zientifikoetan ohikoa den trikimailu indartsua erabiltzen du, baina gizarte zientzian nahiko arraroa da: ikuskatutako ikaskuntza ; ikusi 2.5 irudia.
Lehenik eta behin, urrats normalean izeneko preprocessing batean, ikertzaileek bihurtutako gizarte media mezu dokumentu epe matrize bat, non dago dokumentu bakoitzeko lerro bat eta zutabe bat grabatu post hitz jakin bat (adibidez, protesta edo trafiko) jasotako ote zen sartu . Ondoren, ikerketa-laguntzaile talde batek mezuen laginken sentimendua markatu du. Ondoren, eskuz etiketatutako datuak erabili zituzten makina ikasketarako eredua sortzeko, bere ezaugarrietan oinarritutako post baten iritzia azaltzeko. Azkenean, 11 milioi mezu inguruko sentimendua kalkulatzeko eredu hau erabili zuten.
Horrela, 11 milioi mezu irakurtzeari eta etiketatzeari uko egitea, logistikoki ezinezkoa izango litzateke. Erregek eta lankideek eskuz mezu publiko txiki bat etiketatu eta gero mezu guztien sentimendua kalkulatzeko ikasitako gainbegiratze erabiltzen dute. Analisi hau egin ondoren, zertxobait harrigarriro gertatu zen, post bat ezabatuz gero probabilitatea egoera edo estatu solidarioa kritikatu ez ote zen.
Azkenean, Kingek eta lankideek aurkitu zuten hiru zutabe motak bakarrik zirela aldian-aldian: pornografia, zentsoreen kritikak eta ekintza kolektibo potentzialak (hau da, eskala handiko protestak egiteko aukera). Ez ziren ezabatu ezabatutako mezuak ikustean eta Kingek eta lankideek zentsoreek behaketa eta kontrola nola funtzionatzen zuten jakiteko gai izan ziren. Gainera, liburu honetan zehar gertatzen den gai baten aurreikuspenen arabera, gainbegiratutako ikaskuntza-ikuspegia gainbegiratzen dutenak -eta emaitza batzuk markatzen dituztenak eta makina ikasketen eredua eraikitzen duten gainerakoak etiketatzeko- oso ohikoak izaten dira gizarte-ikerketan garai digitaletan . Irudiak oso antzekoak izango dira 2.5 ataleko 3. kapituluan (Galderak egitea) eta 5 (masa lankidetzan sortzea); kapitulu anitzetan agertzen diren ideia bakarretako bat da.
Adibide hauek: New Yorkeko taxi gidarien portaera eta Txinako Gobernuko gizarte-komunikabideen zentsuraren jokabidea erakusten dutenak, datu-iturri handien kontaketa nahiko errazak, zenbait kasutan, ikerketa interesgarria eta garrantzitsua sor dezake. Bi kasuetan, ordea, ikertzaileek informazioaren iturri handieneko galdera interesgarriak egin behar izan zituzten; datuek ez zuten nahikoa.