Ampliċitati tistaqsi billi tuża mudell ta 'tbassir biex tikkombina data ta' l-istħarriġ minn ftit nies b'sors kbir ta 'dejta minn ħafna nies.
Mod differenti biex jgħaqqad l-istħarriġ u sorsi ta 'dejta kbar huwa proċess li ser nitolbok amplifikat billi titlob . Fis-sejħa amplifikata, riċerkatur juża mudell ta 'tbassir biex jikkombina ammont żgħir ta' data ta 'stħarriġ ma' sors tad-dejta kbir sabiex jipproduċi stimi fuq skala jew granularità li ma jkunux possibbli bis-sors tad-dejta individwalment. Eżempju importanti ta 'talba amplifikata ġej mill-ħidma ta' Joshua Blumenstock, li riedet tiġbor dejta li tista 'tgħin biex tiggwida l-iżvilupp f'pajjiżi foqra. Fl-imgħoddi, ir-riċerkaturi li jiġbru dan it-tip ta 'dejta ġeneralment kellhom jieħdu waħda minn żewġ approċċi: stħarriġ kampjunarju jew ċensimenti. Stħarriġ tal-kampjuni, fejn ir-riċerkaturi jintervistaw numru żgħir ta 'nies, jistgħu jkunu flessibbli, f'waqthom, u relattivament irħas. Madankollu, dawn l-istħarriġiet, minħabba li huma bbażati fuq kampjun, ħafna drabi huma limitati fir-riżoluzzjoni tagħhom. Bi stħarriġ tal-kampjuni, ħafna drabi jkun diffiċli li jsiru stimi dwar reġjuni ġeografiċi speċifiċi jew gruppi demografiċi speċifiċi. Iċ-Ċensimenti, min-naħa l-oħra, jipprovaw jintervistaw lil kulħadd, u għalhekk jistgħu jintużaw biex jipproduċu estimi għal reġjuni ġeografiċi żgħar jew gruppi demografiċi. Iżda ċ-ċensimenti huma ġeneralment għaljin, dejjaq (dawn jinkludu biss numru żgħir ta 'mistoqsijiet), u mhux f'waqthom (jiġru fuq skeda fissa, bħal kull 10 snin) (Kish 1979) . Minflok ma tkun mwaħħla ma 'stħarriġ jew ċensimenti tal-kampjuni, jimmaġina jekk ir-riċerkaturi jistgħu jgħaqqdu l-aħjar karatteristiċi tat-tnejn. Immaġina jekk ir-riċerkaturi jistgħu jitolbu kull mistoqsija lil kull persuna kuljum. Ovvjament, dan l-istħarriġ omnipreżenti, dejjem fuq il-post, huwa tip ta 'fantasija tax-xjenza soċjali. Iżda jidher li nistgħu nibdew napprossimaw dan billi ngħaqqdu mistoqsijiet ta 'stħarriġ minn numru żgħir ta' nies bi traċċi diġitali minn ħafna nies.
Ir-riċerka ta 'Blumenstock bdiet meta kien imsieħeb ma' l-ikbar fornitur ta 'telefonija ċellulari fir-Rwanda u l-kumpanija pprovdiet rekords ta' transazzjonijiet anonimizzati minn madwar 1,5 miljun klijent bejn l-2005 u l-2009. Dawn ir-rekords fihom informazzjoni dwar kull sejħa u messaġġ ta 'test, bħall-ħin tal-bidu, , u l-pożizzjoni ġeografika approssimattiva tal-persuna li qed iċempel u r-riċevitur. Qabel ma nitkellem dwar il-kwistjonijiet ta 'l-istatistika, ta' min jenfasizza li dan l-ewwel pass jista 'jkun wieħed mill-iktar diffiċli għal ħafna riċerkaturi. Kif deskritt fil-kapitolu 2, l-aktar sorsi kbar ta 'dejta mhumiex aċċessibbli għar-riċerkaturi. Meta-data tat-telefon, b'mod partikolari, hija speċjalment inaċċessibbli minħabba li bażikament huwa impossibbli li tiġi anonimizzata u kważi ċertament fiha informazzjoni li l-parteċipanti jikkunsidraw sensittivi (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . F'dan il-każ partikolari, ir-riċerkaturi kienu attenti biex jipproteġu d-data u x-xogħol tagħhom kien sorveljat minn parti terza (jiġifieri, l-IRB tagħhom). Jien ser nerġa 'lura għal dawn il-kwistjonijiet etiċi f'aktar dettall fil-kapitolu 6.
Blumenstock kien interessat fil-kejl tal-ġid u l-benesseri. Iżda dawn il-karatteristiċi mhumiex direttament fir-rekords tat-telefonati. Fi kliem ieħor, dawn ir-rekords ta 'sejħiet mhumiex kompleti għal din ir-riċerka - karatteristika komuni ta' sorsi ta 'dejta kbar li ġew diskussi fid-dettall fil-kapitolu 2. Madankollu, jidher probabbli li r-rekords tat-telefonati probabbilment għandhom xi informazzjoni li tista' indirettament tipprovdi informazzjoni dwar il-ġid u benessri. Minħabba din il-possibbiltà, Blumenstock staqsa jekk kienx possibbli li jħarreġ mudell ta 'tagħlim bil-magna biex ibassar kif xi ħadd se jirrispondi għal stħarriġ ibbażat fuq ir-rekords tat-telefonati tagħhom. Jekk dan kien possibbli, allura Blumenstock seta 'juża dan il-mudell biex ibassar ir-risposti tal-istħarriġ tal-1.5 miljun klijent.
Sabiex jinbena u jitħarreġ mudell bħal dan, Blumenstock u assistenti tar-riċerka mill-Istitut tax-Xjenza u t-Teknoloġija ta 'Kigali jissejħu kampjun każwali ta' madwar elf klijent. Ir-riċerkaturi spjegaw l-għanijiet tal-proġett lill-parteċipanti, talbu l-kunsens tagħhom biex jgħaqqdu r-risposti ta 'l-istħarriġ mar-rekords tat-telefonati, u mbagħad staqsiehom serje ta' mistoqsijiet biex ikejlu l-ġid u l-benesseri tagħhom, bħal " radju? "u" Għandek biċikletta? "(ara l-figura 3.14 għal lista parzjali). Il-parteċipanti kollha fl-istħarriġ ġew ikkumpensati finanzjarjament.
Sussegwentement, Blumenstock uża proċedura bi stadji komuni fit-tagħlim tal-magni: inġinerija tal-karatteristika segwita minn tagħlim sorveljat. L-ewwel, fil-pass tal- inġinerija tal-karatteristika , għal kulħadd li kien intervistat, Blumenstock ikkonverti r-rekords tas-sejħiet f'sett ta 'karatteristiċi dwar kull persuna; xjentisti tad-dejta jistgħu jsejħu dawn il-karatteristiċi "karatteristiċi" u xjenzati soċjali jsejħu "varjabbli". Per eżempju, għal kull persuna, Blumenstock ikkalkula n-numru totali ta 'jiem b'attività, in-numru ta' persuni distinti li persuna kienet f'kuntatt magħha, ammont ta 'flus li jintefqu fuq il-ħin ta' l-arja, eċċ. L-inġinerija ta 'karatteristika kritika u tajba teħtieġ għarfien dwar l-issettjar tar-riċerka. Per eżempju, jekk huwa importanti li ssir distinzjoni bejn sejħiet domestiċi u internazzjonali (nistgħu nistennew li n-nies li jsejħu internazzjonalment biex ikunu aktar sinjuri), allura dan għandu jsir fil-fażi tal-inġinerija tal-karatteristika. Riċerkatur bi ftit għarfien tar-Rwanda jista 'ma jinkludix din il-karatteristika, u mbagħad it-twettiq ta' tbassir tal-mudell isofri.
Imbagħad, fil-pass ta ' tagħlim sorveljat , Blumenstock bena mudell biex ibassar ir-rispons tal-istħarriġ għal kull persuna bbażat fuq il-karatteristiċi tagħhom. F'dan il-każ, Blumenstock uża r-rigressjoni loġistika, iżda seta 'wettaq varjetà ta' approċċi oħra ta 'tagħlim tal-istatistika jew tal-magni.
Allura kif ukoll taħdem? Was Blumenstock kapaċi tbassar tweġibiet għal mistoqsijiet ta 'stħarriġ bħal "Int stess radju?" U "Għandek biċikletta?" Billi tuża karatteristiċi derivati mir-rekords tas-sejħiet? Sabiex tevalwa l-prestazzjoni tal-mudell ta 'tbassir tiegħu, Blumenstock uża l-validazzjoni inkroċjata , teknika użata b'mod komuni fix-xjenza tad-dejta iżda rarament fix-xjenza soċjali. L-għan ta 'cross-validation huwa li tipprovdi evalwazzjoni ġusta tal-prestazzjoni prevedibbli ta' mudell billi tħarreġha u tittestjaha fuq sottogruppi differenti ta 'data. B'mod partikolari, Blumenstock maqsum id-dejta tiegħu f'10 biċċiet ta '100 persuna kull wieħed. Imbagħad, huwa uża disgħa mill-biċċiet biex iħarreġ il-mudell tiegħu, u l-prestazzjoni ta 'tbassir tal-mudell imħarreġ ġiet evalwata fuq il-biċċa li fadal. Huwa rrepeta din il-proċedura għal 10 darbiet - ma 'kull sezzjoni ta' data li tirċievi dawra waħda bħala d-dejta tal-validazzjoni u ppmedjat ir-riżultati.
L-eżattezza tal-previżjonijiet kienet għolja għal xi karatteristiċi (figura 3.14); per eżempju, Blumenstock setgħet tbassar bi preċiżjoni ta '97.6% jekk xi ħadd kellu radju. Dan jista 'ħoss impressjonanti, iżda dejjem huwa importanti li jiġi mqabbel metodu ta' tbassir kumpless kontra alternattiva sempliċi. F'dan il-każ, alternattiva sempliċi hija li wieħed ibassar li kulħadd se jagħti l-aktar tweġiba komuni. Per eżempju, 97.3% tar-rispondenti rrapportaw li huma proprjetarji ta 'radju hekk jekk Blumenstock kien ibassar li kulħadd kien jirraporta li kien proprjetarju ta' radju kien ikollu eżattezza ta '97.3%, li hija sorprendentement simili għat-twettiq tal-proċedura aktar kumplessa (preċiżjoni ta' 97.6%). . Fi kliem ieħor, id-dejta kollha fancy u l-immudellar żiedu l-eżattezza tal-previżjoni minn 97.3% għal 97.6%. Madankollu, għal mistoqsijiet oħra, bħal "Għandek biċikletta?", Il-previżjonijiet tjiebu minn 54.4% għal 67.6%. B'mod aktar ġenerali, il-figura 3.15 turi li għal xi karatteristiċi, Blumenstock ma tjiebx lil hinn minn sempliċement it-tbassir bażiku sempliċi, iżda li għal karatteristiċi oħra kien hemm xi titjib. Jekk wieħed iħares biss f'dawn ir-riżultati, madankollu, tista 'ma taħsibx li dan l-approċċ huwa partikolarment promettenti.
Madankollu, sena wara biss, Blumenstock u żewġ kollegi-Gabriel Cadamuro u Robert On-ppubblikaw karta fix- Xjenza b'riżultati sostanzjalment aħjar (Blumenstock, Cadamuro, and On 2015) . Kien hemm żewġ raġunijiet tekniċi ewlenin għal dan it-titjib: (1) użaw metodi aktar sofistikati (jiġifieri approċċ ġdid għall-inġinerija tal-karatteristika u mudell aktar sofistikat biex ibassar risposti mill-karatteristiċi) u (2) aktar milli jippruvaw jiddedu r-risposti individwali mistoqsijiet tal-istħarriġ (eż. "Int stess radju?"), huma ppruvaw jiddeduċu indiċi tal-ġid kompost. Dan it-titjib tekniku fisser li jistgħu jagħmlu xogħol raġonevoli li jużaw rekords ta 'sejħiet biex jipprevedu l-ġid għan-nies fil-kampjun tagħhom.
Madankollu, it-tbassir tal-ġid tan-nies fil-kampjun ma kienx l-għan aħħari tar-riċerka. Ftakar li l-għan aħħari kien li jgħaqqad xi wħud mill-aqwa karatteristiċi ta 'stħarriġ u ċensimenti tal-kampjuni biex jipproduċu stimi eżatti u ta' riżoluzzjoni għolja tal-faqar f'pajjiżi li qed jiżviluppaw. Biex tevalwa l-kapaċità tagħhom li jiksbu dan il-għan, Blumenstock u l-kollegi użaw il-mudell tagħhom u d-data tagħhom biex ibassru l-ġid ta '1.5 miljun ruħ kollha fir-rekords tat-telefonati. U użaw l-informazzjoni ġeospazjali inkorporata fir-rekords tas-sejħiet (ftakru li d-dejta inkludiet il-post tal-eqreb torri taċ-ċellula għal kull sejħa) biex tistma l-post ta 'residenza approssimattiv ta' kull persuna (figura 3.17). Waqt li dawn iż-żewġ stimi tqiegħdu flimkien, Blumenstock u l-kollegi pproduċew stima tad-distribuzzjoni ġeografika tal-ġid ta 'abbonati b'garurità spazjali estremament fina. Per eżempju, jistgħu jistmaw il-ġid medju f'kull waħda mir-Rumanija ta '2,148 ċellula (l-iżgħar unità amministrattiva fil-pajjiż).
Kemm għamlu dawn l-istimi jaqblu mal-livell attwali ta 'faqar f'dawn ir-reġjuni? Qabel ma nirrispondi għal din il-mistoqsija, nixtieq nenfasizza l-fatt li hemm ħafna raġunijiet biex ikunu xettiċi. Pereżempju, il-ħila li tagħmel previżjonijiet fil-livell individwali kienet pjuttost storbjuża (figura 3.17). U, forsi aktar importanti, in-nies bit-telefowns ċellulari jistgħu jkunu sistematikament differenti minn nies mingħajr mowbajls. Għalhekk, Blumenstock u l-kollegi jistgħu jsofru mit-tipi ta 'żbalji ta' kopertura li biħsiebhom l - istħarriġ tad-Digest Letterarju tal- 1936 li deskritt qabel.
Biex tikseb sens tal-kwalità tal-istimi tagħhom, Blumenstock u l-kollegi kellhom iqabbluhom ma 'xi ħaġa oħra. Fortunatament, fl-istess ħin bħall-istudju tagħhom, grupp ieħor ta 'riċerkaturi mexxa stħarriġ soċjali aktar tradizzjonali fir-Rwanda. Dan l-istħarriġ l-ieħor, li kien parti mill-programm Stħarriġ dwar is-Saħħa Demografika u r-Rispetta, kellu baġit kbir u uża metodi tradizzjonali ta 'kwalità għolja. Għalhekk, l-istimi mill-Istħarriġ Demografiku u tas-Saħħa jistgħu raġonevolment jitqiesu bħala stimi standard tad-deheb. Meta ż-żewġ stimi tqabblu, kienu pjuttost simili (figura 3.17). Fi kliem ieħor, billi tgħaqqad ammont żgħir ta 'dejta tal-istħarriġ mar-rekords tat-telefonati, Blumenstock u l-kollegi setgħu jipproduċu estimi komparabbli ma' dawk minn approċċi standard tad-deheb.
Skeptiku jista 'jara dawn ir-riżultati bħala diżappunt. Wara kollox, mod wieħed biex jarahom huwa li jgħidu li bl-użu ta 'dejta kbira u t-tagħlim tal-magni, Blumenstock u l-kollegi setgħu jipproduċu estimi li jistgħu jsiru b'mod aktar affidabbli minn metodi diġà eżistenti. Imma ma naħsibx li dan huwa l-mod kif wieħed jaħseb dwar dan l-istudju għal żewġ raġunijiet. L-ewwel, l-istimi minn Blumenstock u l-kollegi kienu madwar 10 darbiet aktar mgħaġġla u 50 darba irħas (meta l-ispiża hija mkejla f'termini ta 'spejjeż varjabbli). Kif semmejt aktar kmieni f'dan il-kapitolu, ir-riċerkaturi jinjoraw l-ispejjeż meta jkunu ta 'periklu. F'dan il-każ, pereżempju, it-tnaqqis drammatiku fl-ispiża jfisser li minflok ma jitmexxa kull ftit snin, kif inhu stmat għall-Istħarriġ Demografiku u tas-Saħħa, dan it-tip ta 'stħarriġ jista' jitmexxa kull xahar, li jipprovdi bosta vantaġġi għal riċerkaturi u politika dawk li jfasslu. It-tieni raġuni biex ma titqiesx l-opinjoni ta 'l-iskeptiku hija li dan l-istudju jipprovdi riċetta bażika li tista' tkun imfassla għal ħafna sitwazzjonijiet ta 'riċerka differenti. Din ir-riċetta għandha biss żewġ ingredjenti u żewġ passi. L-ingredjenti huma (1) sors tad-dejta kbir li huwa wiesa 'iżda irqiq (jiġifieri, għandu ħafna nies imma mhux l-informazzjoni li għandek bżonn dwar kull persuna) u (2) stħarriġ li huwa dojoq iżda ħoxnin (jiġifieri, ftit nies, iżda għandu l-informazzjoni li għandek bżonn dwar dawk in-nies). Dawn l-ingredjenti huma mbagħad ikkombinati f'żewġ stadji. L-ewwelnett, għall-persuni fiż-żewġ sorsi tad-dejta, nibnu mudell ta 'tagħlim bil-magna li juża s-sors tad-dejta kbir biex ibassar it-tweġibiet tal-istħarriġ. Sussegwentement, uża dak il-mudell biex tattribwixxi r-risposti tal-istħarriġ ta 'kulħadd fis-sors tad-dejta l-kbir Għalhekk, jekk hemm xi mistoqsija li trid titlob lil ħafna nies, tfittex sors ta 'dejta kbir minn dawk in-nies li jistgħu jintużaw biex ibassru t-tweġiba tagħhom, anke jekk ma tħobbx is-sors kbir ta' dejta . Jiġifieri, Blumenstock u l-kollegi tagħhom ma kinux ta 'ħsieb inerenti dwar rekords ta' sejħiet; huma biss jieħdu ħsieb ir-rekords tat-telefonati minħabba li setgħu jintużaw biex ibassru t-tweġibiet tal-istħarriġ li kienu jieħdu ħsiebhom. Dan l-interess indirett biss karatteristiku fis-sors tad-dejta l-kbir jagħmel amplifikat billi titlob differenti minn dak li niddeplora inkorporat, li deskritt qabel.
Bħala konklużjoni, l-approċċ amplifikat ta 'Blumenstock li jqabbel l-istħarriġ flimkien ma' sors ta 'data kbir biex jipproduċi estimi komparabbli ma' dawk minn stħarriġ standard tad-deheb. Dan l-eżempju partikolari jikkjarifika wkoll xi wħud mill-kompromessi bejn metodi ta 'stħarriġ amplifikati u ta' stħarriġ tradizzjonali. L-estimi amplifikati li qed jitolbu kienu aktar f'waqthom, sostanzjalment orħos, u aktar granulari. Iżda, min-naħa l-oħra, għad ma hemmx bażi teoretika b'saħħitha għal dan it-tip ta 'mistoqsijiet amplifikati. Dan l-eżempju waħdieni ma jurix meta dan l-approċċ se jaħdem u meta mhux se jkun, u r-riċerkaturi li jużaw dan l-approċċ għandhom ikunu mħassba b'mod speċjali dwar preġudizzji possibbli kkawżati minn min hu inkluż u li mhuwiex inkluż fis-sors tad-dejta kbir tagħhom. Barra minn hekk, l-approċċ ta 'talba amplifikat għad m'għandux modi tajbin biex jikkwantifika l-inċertezza madwar l-estimi tiegħu. Fortunatament, l-amplifikazzjoni tal-mistoqsijiet għandha konnessjonijiet profondi ma 'tliet oqsma kbar fl-istatistika - stima ta' żona żgħira (Rao and Molina 2015) , imputazzjoni (Rubin 2004) , u post-stratifikazzjoni bbażata fuq mudell il-metodu I deskritt qabel fil-kapitolu) (Little 1993) . Minħabba dawn il-konnessjonijiet fil-fond, nistenna li ħafna mill-pedamenti metodoloġiċi tal-mistoqsijiet amplifikati dalwaqt se jitjiebu.
Fl-aħħarnett, it-tqabbil tal-ewwel u t-tieni tentattiv ta 'Blumenstock juri wkoll lezzjoni importanti dwar riċerka soċjali tal-età diġitali: il-bidu mhuwiex it-tmiem. Jiġifieri, ħafna drabi, l-ewwel approċċ mhux se jkun l-aħjar, imma jekk ir-riċerkaturi jkomplu jaħdmu, l-affarijiet jistgħu jiksbu aħjar. B'mod aktar ġenerali, meta tevalwa approċċi ġodda għar-riċerka soċjali fl-era diġitali, huwa importanti li jsiru żewġ evalwazzjonijiet distinti: (1) Kif taħdem tajjeb issa? u (2) Kemm se taħdem dan fil-ġejjieni hekk kif il-pajsaġġ tad-dejta jinbidel u bħala riċerkaturi jiddedikaw aktar attenzjoni għall-problema? Għalkemm ir-riċerkaturi huma mħarrġa biex jagħmlu l-ewwel tip ta 'evalwazzjoni, it-tieni spiss ikun aktar importanti.