Galdetegi gehiagoren bat eredu prediktibo bat erabiliz jende askoren datu-iturri handi batzuekin inkesta datuak konbinatzeko galdetzea.
Inkesta eta datu-iturri handiak konbinatzeko modu desberdinak anplifikatutako galderari deitzen diogun prozesua da. Aztertutako galdeketan, ikertzaile batek aurreikusitako eredua erabiltzen du inkesta datu kopuru txikia datu-iturri handiekin konbina ditzan, datuen iturria banan-banan ezinezkoa ez den eskala edo frakziorik kalkulatzeko. Joshua Blumenstock-en lan anitzaren adibide garrantzizkoa da, herrialde pobreetan garapen gidala izan litekeen datuak biltzeko. Iraganean, datu mota hau biltzen duten ikertzaileek, oro har, bi ikuspegi hartu behar izan zituzten: inkestak edo inkesten laginak. Lagin ikerketak, non ikertzaileek jende kopuru txiki bat elkarrizketatzen duten, malgua, puntuala eta nahiko merkea izan daiteke. Hala ere, inkesta horiek, lagin batean oinarritzen direlako, askotan ebazpenean mugatzen dira. Laginketa-inkesta batekin, eskualde geografiko zehatzei edo talde demografiko zehatzei buruzko kalkuluak egiteko sarritan zaila izaten da. Zentsuak, bestalde, guztiontzat elkarrizketak egiten saiatzen dira, eta, beraz, eskualde geografiko txikientzat edo talde demografikoak kalkulatzeko erabil daitezke. Zentsuak, oro har, garestiak dira, fokatze estua (galdera kopuru txiki bat besterik ez dute barne hartzen), eta ez puntuala (ordutegi finko batean gertatzen dira, adibidez, 10 urtez behin) (Kish 1979) . Laginketa inkesta edo zentsuekin itsatsita egon beharrean, imajinatu ikertzaileek bi ezaugarri onak konbinatu ditzaketela. Imajinatu ikertzaile bakoitzak galdera bakoitza egun bakoitzeko pertsona bakoitzeko galdetu dezakeen. Jakina, nonahi, inkesta beti zientzia fantasiazko mota da. Baina agertzen du, hori gutxi gorabeherako inkesta galdera konbinatuz jende askoren aztarnak digital dituzten pertsonen kopuru txiki batetik hasiko dugu.
Blumenstock-en ikerketa hasi zenean Ruanda-ko telefono mugikorraren hornitzailearekin elkartu zenean, konpainiak 1.5 milioi bezeroen transakzio anonimoak eman zituen 2005 eta 2009 bitartean. Erregistro horiei buruzko informazio guztia jasotzen zuten dei bakoitzaren eta testu-mezuaren artean, adibidez, hasierako ordua, iraupena , eta deitzailearen eta hartzailearen kokapen geografikoa gutxi gorabehera. Estatistika-gaiei buruz hitz egin baino lehen, merezi du lehen urrats hori ikertzaile askorentzat zailena izan daitekeela. 2. kapituluan deskribatu dudan bezala, datu-iturririk handienak ikertzaileentzat ezin dira eskura . Telefonoaren meta-datuak, bereziki, bereziki eskuraezinak dira, funtsean ezinezkoa baita anonimotzat jartzea eta, ia zalantzarik gabe, parte-hartzaileek sentikorra izango luketen informazioa edukitzea (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Kasu honetan, ikertzaileek datuen babesari eutsi zioten eta hirugarren batek (hau da, bere IRB) gainbegiratu zuen lana. Gai etiko horiei berriro itzuliko diegula 6. kapituluan.
Blumenstockek aberastasuna eta ongizatea neurtzeko interesa zuen. Baina ezaugarri horiek ez dira zuzenean dei erregistroetan. Beste era batera esanda, dei erregistro hauek ikerketa osorako ez dira osorik -eta 2. kapituluko xehetasun handiz aztertu diren datu-iturri handien ezaugarri komunak. Hala ere, badirudi ziurtagiriak ziurrenik ziurtagiriak aberastasunari eta aberastasunari buruzko informazioa eman dezakeen informazio batzuk ere. ongizatea. Aukera hori kontuan hartuta, Blumenstock-ek eskatu du makina ikasketen eredua trebatzea ala ez galdeketa bati erantzuten dion inkesta baten arabera. Hori posible balitz, Blumenstock-ek eredu hau erabil dezake 1,5 milioi bezeroen inkestaren erantzunak iragartzeko.
Blumenstock-ek eta Kigali Institutuko Zientziaren eta Teknologien Laguntzarako laguntzaileak eratu eta trebatu ahal izateko, mila bezero inguru zeuden ausazko lagina deitu zuten. Ikertzaileek proiektuaren helburuak azaldu zizkieten parte-hartzaileei, beren baimena eskatu zuten elkarrizketa-deiei erantzuteko dei-erregistroetara eta, ondoren, galdetu zien galdetu zioten beren aberastasuna eta ongizatea neurtzeko galdera batzuk: "Zuk jabea zara? Irratia? "eta" Bizikleta jabea zara? "(ikus 3.14 irudia, zerrenda parekiala). Inkestan parte-hartzaile guztiak konpentsatu ziren ekonomikoki.
Ondoren, Blumenstock-ek bi urratseko prozedura erabiltzen zuen makina ikasketan: funtzioen ingeniaritza eta gainbegiratutako ikaskuntzan. Lehenik eta behin, ezaugarrien ingeniaritza urratsean, elkarrizketatutako pertsonentzako, Blumenstockek dei-erregistroak pertsona bakoitzaren ezaugarri multzo bihurtu zituen; datuen zientzialariek "ezaugarri" deitzen diete eta gizarte-zientzialariek "aldagai" deitzen diete. Adibidez, pertsona bakoitzeko, Blumenstock-ek aktibitate-egun kopuru osoa kalkulatu zuen pertsona desberdinek pertsonarekin harremanetan jarri zen, dirua igarotako denbora zenbatekoa, eta abar. Kritikoki, ezaugarri handiko ingeniaritzak ikerketa-esparruaren ezagutza eskatzen du. Esate baterako, garrantzitsua da etxeko eta nazioarteko deien artean bereiztea (nazioartean aberatsago izateko dei egiten dioten pertsonentzat espero dezakegu), hau egin behar da ingeniaritza fasean. Ruandako ulertzeko ikertzaile batek agian ez luke ezaugarri hau agertuko, eta orduan ereduaren aurreikuspenen errendimendua jasango luke.
Ondoren, ikasitako ikaskuntzan pausoz pauso, Blumenstock-ek eredu bat eraiki zuen pertsona bakoitzari egindako inkesten erantzuna aurreikusteko. Kasu honetan, Blumenstock-ek erregresio logistikoa erabili zuen, baina beste hainbat estatistika edo makina ikasketa planteamendu erabili zituen.
Beraz, nola ondo funtzionatzen zuen? Blumenstock-ek inkesta galderei erantzun diezaieten galdetu zioten: "Irratia jabea zara?" Eta "Bizikleta jabea zara?" Dei erregistroetatik eratorritako funtzioak erabiliz? Bere eredua iragarlearen errendimendua ebaluatzeko, Blumenstock -ek baliozkotze gurutzatua erabili zuen, datu zientzian erabilitako teknika bat, baina gutxitan gizarte zientzian. Elkarrizketa gurutzatuaren helburua eredu baten aurresateko errendimendua ebaluatzea da, entrenatzen eta probatzen datuen azpisektore desberdinetan. Bereziki, Blumenstockek banatzen zituen datuak 100 pertsona bakoitzeko 10 zati. Ondoren, bederatzi pieza erabili zituen bere eredua prestatzeko, eta entrenatutako ereduaren aurreikuspenen errendimendua gainerako atalean ebaluatu zen. Prozedura hau 10 aldiz errepikatu zuen, datuen zati bakoitza datuen baliozkotzat hartuz, eta emaitzen batez bestekoa.
Aurreikuspenen zehaztasuna ezaugarri batzuk izan ziren (3.14 irudia); Adibidez, Blumenstock-ek% 97,6ko zehaztasuna aurreikusi zezake norbaitek irrati bat edukitzea. Hau ikusgarria izan daiteke, baina beti garrantzitsua da metodo iragarpen konplexu bat alderatzea alternatiba sinple baten aurrean. Kasu honetan, alternatiba sinple bat da guztiontzat ohikoena den erantzuna ematea aurreikustea. Adibidez, inkestatuen% 97,3k irrati bat edukitzea jakinarazi zuen, Blumenstockek aurreikusitakoa iragarri zezakeen guztiek irratia zuela iritziz,% 97,3ko zehaztasuna zuela, hau da, bere prozedura konplexuena (% 97,6) . Beste era batera esanda, datu guztiak eta modelaketa guztiak aurreikuspenaren zehaztasuna handitu egin da% 97,3tik% 97,6ra. Hala ere, "Bizikleta jabea" bezalako beste galderetarako, aurreikuspenak% 54,4tik% 67,6ra igo dira. Oro har, 3.15. Irudian agertzen da ezaugarri batzuk lortzeko, oinarrizko aurreikuspen soilak besterik ez zituela egin, baina hobekuntza batzuk hobetu ziren. Emaitza hauei begira, hala ere, agian ez duzu uste ikuspegi hori bereziki itxaropentsua.
Hala ere, urtebete geroago, Blumenstock eta bi lankideek-Gabriel Cadamuro eta Robert On -ek argitaratu zuten paper bat Zientzian , emaitza nabarmen hobeak lortuz (Blumenstock, Cadamuro, and On 2015) . Hobekuntza hauetarako bi arrazoi tekniko nagusiak zeuden: (1) metodo sofistikatuagoak erabili zituzten (hau da, ingeniaritzaren ikuspegi berri bat eta eredu sofistikatuagoa ezaugarrien erantzunak aurreikusteko) eta (2), banakako erantzunak Galderen inkestak (adibidez, "Irratia jabea zara?"), aberastasun konposatuaren indizea inferitu zuten. Hobekuntza tekniko horiek esan nahi dute beren laginean jendearen aberastasuna aurreikusteko dei-deiak egiteko arrazoizko lana egitea.
Laginaren aberastasuna aurreikustea, ordea, ez zen ikerketaren azken helburua. Gogoratu azken helburua laginketaren inkesten eta zentsuen ezaugarririk onenak konbinatzea, garapen bidean dauden herrialdeetako pobreziaren prezio zehatza eta ebaluazioa egiteko. Helburu hori lortzeko gaitasuna ebaluatzeko, Blumenstockek eta lankideek eredua eta datuak erabiltzen zituzten deialdiaren 1.5 milioi pertsonen aberastasuna aurreikusteko. Deialdien erregistroan txertatutako informazio geospaziala erabiltzen zuten (gogoratu datuek zelula-dorre hurbilen kokapenari dei bakoitzerako), pertsona bakoitzaren bizileku gutxi gorabeherako zenbatekoa kalkulatzeko (3.17 irudia). Bi estimazio horiek elkarrekin jartzea, Blumenstockek eta lankideek harpidedun aberastasunaren banaketa geografikoa kalkulatu zuten, oso granularitate espazial oso finkoan. Adibidez, Ruandako 2.148 gelaxken batez besteko aberastasuna kalkulatu zuten (herrialdeko administrazio-unitate txikiena).
Zein neurritan estimazio horiek benetako pobretasun mailarekin bat etorri dira eskualde horietan? Galdera hori erantzun baino lehen, eszeptikoa izateko arrazoi asko dagoela azpimarratu nahi dut. Adibidez, aurreikuspenak banakako mailan egiteko gaitasuna nahiko zaratatsua izan zen (3.17 irudia). Eta, agian garrantzitsuagoa dena, telefono mugikorrek dituzten pertsonek sistematikoki ezberdina izan liteke jendeak telefono mugikorrik gabe. Horrela, Blumenstockek eta lankideek aurreko deskribatu nuen 1936 Literary Digest inkestaren estaldura-errore motak izan ditzakete.
Kalkuluen kalitatearen zentzua lortzeko, Blumenstockek eta lankideek beste zerbait konparatu behar zuten. Zorionez, beren ikerketarako aldi berean, beste ikertzaile talde batek Rwanda gizarte-inkesta tradizionalagoa egiten ari zen. Beste inkesta hau, Demografiaren eta Osasunaren Inkestaren programa oso zabaldua denez, aurrekontu handia eta kalitate handiko eta ohiko metodoak erabiltzen zituen. Hori dela eta, Demografia eta Osasun Inkestaren estimazioak zorrozki estimatuak izan daitezke urrezko estandarrak. Bi estimazioak konparatu zirenean, nahiko antzekoak ziren (3.17 irudia). Bestela esanda, inkesta-datuen kopuru txiki bat konbinatuta, dei-erregistroekin, Blumenstock-ek eta lankideek aurrekontu urrezko estandarrekiko konparaziozko estimazioak egin ahal izan zituzten.
Eszeptikoek emaitza horiek emaitza onak izan litzakete. Azken finean, horiek ikusteko modu bat da, datu handiak eta makina ikasketak erabiliz, Blumenstockek eta lankideek jadanik existitzen diren metodoek modu fidagarrian egin ditzaketen estimazioak egin ahal izan zituzten. Baina ez dut uste bi arrazoi direla ikasketa hau pentsatzea. Lehenik eta behin, Blumenstock-en eta lankideen estimazioak 10 aldiz azkarragoak ziren eta 50 aldiz merkeagoak (kostu aldakorreko kostua neurtzen denean). Aurreko kapituluan argudiatu dudan bezala, ikertzaileek ez diete jaramonik egiten kostua beren arriskuan. Kasu honetan, adibidez, kostuaren jaitsiera dramatikoa esan nahi du, urte gutxitan exekutatzen ez den arren, demografia eta osasun inkestak egiteko estandar bezala, inkesta mota hau hilero martxan daiteke, eta horrek abantaila ugari emango lituzke ikertzaileei eta politikari arduradunek. Bigarren arrazoia eszeptikoaren ikuspegia ez da azterketa honek hainbat ikerketa-egoeratan egokitutako oinarrizko errezeta eskaintzen du. Errezeta honek bi osagai eta bi urrats besterik ez ditu. Osagaiak (1) datu zabaleko iturri handi bat da, baina mehea (hau da, jende askok baina ez du pertsona bakoitzari buruzko informazioa behar) eta (2) inkesta estua da baina lodia (hau da, soilik pertsona batzuk, baina pertsona horiei buruzko informazioa behar duzu). Osagai horiek bi urratsetan konbinatzen dira. Lehenik eta behin, datu-iturrietako jendearentzat, makina ikasketen eredua eraikitzen du, datu-iturri handiak erabiltzen ditu inkesten erantzunak aurreikusteko. Hurrengoa, erabili eredu hori inkestaren erantzunak entregatu datu-iturburu handian. Horrela, jende asko galdetu nahi duzun galdekizun bat izanez gero , erantzun datuen iturri handi bat bilatu nahi baduzu, datu-iturri handiak zaintzen ez badituzu ere . Hau da, Blumenstockek eta lankideek ez zuten inolako zerikusirik arduradunei buruz; Deialdien inguruko arretari bakarrik zaintzen baitzaie, zaintzeari buruzko inkesten erantzunak aurreikusteko. Datu-iturburu handien zeharkako interes partikular bakarrak -ezinarriago deskribatu dudan kapsulatutako galderari zabaldu egiten dio.
Laburbilduz, Blumenstockek ikuspegi zabalagoa eskatzen du inkesta datuak datu-iturri handiekin konbinatuta, urrezko estandar inkesta baten antzekoak diren kalkuluak egiteko. Adibide partikular honek galdeketa anplifikatuen eta inkesta tradizionalen metodoen arteko konpromisoak ere argitzen ditu. Kalkuluak galdetegiak handitu egin ziren, puntualagoak, nabarmen merkeagoak eta handiagoak. Baina, beste alde batetik, ez dago oinarri teoriko sendo bat oraindik galdeketa anitzetarako. Adibide bakar honek ez du erakusten ikuspegi hau lan egingo duen eta noiz egingo den, eta ikertzaileek hurbilketa hau erabiltzeak bereziki kezkatuta egon behar du nork sartzen diren eta nor ez diren barne hartutako eraginak, datu-iturri handietan. Gainera, hurbilketa galdeketa anplifikatuak oraindik ez ditu kalkuluetan oinarritutako ziurgabetasuna zenbatzeko modu egokirik. Zorionez, eskaera anplifikatua hiru eremu handitan lotzen ditu estatistiken eta txikienen zenbatespenen arabera (Rao and Molina 2015) , imputazioaren (Rubin 2004) eta ereduen oinarritutako estratifikazioa (hau da, kapituluan deskribatu nuen metodoa) (Little 1993) . Lotura sakon hauei esker, espero dut hobekuntza handitutako oinarri metodologiko askoren hobekuntza.
Azkenean, Blumenstock-en lehen eta bigarren saiakerak alderatuz gero, gizarte-ikerketarako digitalaren inguruko ikasgai garrantzitsu bat ere ilustratzen du: hasiera ez da amaiera. Hau da, askotan, lehenengo hurbilketa ez da onena izango, baina ikertzaileek lanean jarraitzen badute, gauzak hobeak izango dira. Oro har, orduan, gizarte-ikerketarako ikuspegi berriak ebaluatzen ari dira adin digitalean, bi ebaluazio desberdin garatu behar dira: (1) Nola funtzionatzen du lan hau orain? eta (2) Nola egingo du etorkizunean etorkizunean etorkizunean datuak paisaia aldatzeko eta ikertzaileek arazoari arreta handiagoa eskaini ahal izateko? Ikertzaileek lehendabiziko ebaluazio mota egiteko trebatu diren arren, bigarrena sarritan garrantzitsuagoa da.