Wedi'i ymestyn yn gofyn i ddefnyddio model rhagfynegol i gyfuno data'r arolwg gan ychydig o bobl â ffynhonnell ddata fawr gan lawer o bobl.
Mae ffordd wahanol i gyfuno arolygon a ffynonellau data mawr yn broses y byddaf yn ei alw'n ehangu yn gofyn . Mewn gofyniad estynedig, mae ymchwilydd yn defnyddio model rhagfynegol i gyfuno swm bach o ddata arolwg gyda ffynhonnell ddata fawr er mwyn cynhyrchu amcangyfrifon ar raddfa neu grynderdeb na fyddai'n bosibl gyda ffynhonnell ddata naill ai'n unigol. Mae enghraifft bwysig o ofyn estynedig yn dod o waith Joshua Blumenstock, a oedd am gasglu data a allai helpu i arwain datblygiad mewn gwledydd tlawd. Yn y gorffennol, roedd yn rhaid i ymchwilwyr sy'n casglu'r math hwn o ddata gymryd un o ddau ddull: arolygon sampl neu gyfrifiadau. Gall arolygon enghreifftiol, lle mae ymchwilwyr yn cyfweld â nifer fach o bobl, yn gallu bod yn hyblyg, yn amserol, ac yn gymharol rhad. Fodd bynnag, mae'r arolygon hyn, oherwydd eu bod yn seiliedig ar sampl, yn aml yn gyfyngedig yn eu datrysiad. Gyda arolwg sampl, mae'n aml yn anodd gwneud amcangyfrifon ynghylch rhanbarthau daearyddol penodol neu ar gyfer grwpiau demograffig penodol. Ar y llaw arall, mae cyfrifiadau yn ceisio cyfweld pawb, ac felly gellir eu defnyddio i gynhyrchu amcangyfrifon ar gyfer rhanbarthau daearyddol bach neu grwpiau demograffig. Ond mae cyfrifiadau yn gyffredinol yn ddrud, yn ffocws cul (dim ond nifer fach o gwestiynau y maent ynddynt), ac nid amserol (maent yn digwydd ar amserlen sefydlog, fel pob 10 mlynedd) (Kish 1979) . Yn hytrach na bod yn sownd ag arolygon sampl neu gyfrifiadau, dychmygwch pe bai ymchwilwyr yn gallu cyfuno nodweddion gorau'r ddau. Dychmygwch os gallai ymchwilwyr ofyn pob cwestiwn i bob person bob dydd. Yn amlwg, mae'r arolwg hollgynhwysfawr, bob amser, yn fath o ffantasi gwyddoniaeth gymdeithasol. Ond mae'n ymddangos y gallwn ddechrau brasio hyn trwy gyfuno cwestiynau arolwg gan nifer fach o bobl sydd â olion digidol gan lawer o bobl.
Dechreuodd ymchwil Blumenstock pan ymunodd â'r darparwr ffôn symudol mwyaf yn Rwanda, a darparodd y cwmni gofnodion trafodion dienw o tua 1.5 miliwn o gwsmeriaid rhwng 2005 a 2009. Roedd y cofnodion hyn yn cynnwys gwybodaeth am bob galwad a neges destun, megis yr amser cychwyn, y cyfnod , a lleoliad daearyddol bras y galwr a'r derbynnydd. Cyn i mi siarad am y materion ystadegol, mae'n werth nodi y gallai'r cam cyntaf hwn fod yn un o'r rhai anoddaf i lawer o ymchwilwyr. Fel y disgrifiais ym mhennod 2, mae'r ffynonellau data mwyaf mawr yn anhygyrch i ymchwilwyr. Mae meta-ddata ffōn, yn arbennig, yn anhygyrch yn enwedig oherwydd ei bod yn amhosibl amhosibl ei ddienw ac mae bron yn sicr yn cynnwys gwybodaeth y byddai cyfranogwyr yn ei ystyried yn sensitif (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Yn yr achos arbennig hwn, roedd yr ymchwilwyr yn ofalus i amddiffyn y data a goruchwyliwyd eu gwaith gan drydydd parti (hy, eu IRB). Dychwelaf at y materion moesegol hyn yn fanylach ym mhennod 6.
Roedd gan Blumenstock ddiddordeb mewn mesur cyfoeth a lles. Ond nid yw'r nodweddion hyn yn uniongyrchol yn y cofnodion galwadau. Mewn geiriau eraill, mae'r cofnodion galwadau hyn yn anghyflawn ar gyfer yr ymchwil hwn - nodwedd gyffredin o ffynonellau data mawr a drafodwyd yn fanwl ym mhennod 2. Fodd bynnag, mae'n debyg y bydd gan y cofnodion galwadau rywfaint o wybodaeth a allai roi gwybodaeth anuniongyrchol am gyfoeth a lles. O ystyried y posibilrwydd hwn, gofynnodd Blumenstock a oedd hi'n bosib hyfforddi model dysgu peiriant i ragweld sut y bydd rhywun yn ymateb i arolwg yn seiliedig ar eu cofnodion galwadau. Pe byddai hyn yn bosibl, yna gallai Blumenstock ddefnyddio'r model hwn i ragfynegi ymatebion yr arolwg i bob 1.5 miliwn o gwsmeriaid.
Er mwyn adeiladu a hyfforddi model o'r fath, galwodd Blumenstock a chynorthwywyr ymchwil o Sefydliad Gwyddoniaeth a Thechnoleg Kigali sampl ar hap o tua mil o gwsmeriaid. Esboniodd yr ymchwilwyr amcanion y prosiect i'r cyfranogwyr, gofynnodd am eu caniatâd i gysylltu ymatebion yr arolwg i'r cofnodion galwadau, ac yna gofynnodd iddynt gyfres o gwestiynau i fesur eu cyfoeth a'u lles, megis "Ydych chi'n berchen arno radio? "a" Ydych chi'n berchen ar feic? "(gweler ffigur 3.14 am restr rhannol). Cafodd yr holl gyfranogwyr yn yr arolwg eu digolledu'n ariannol.
Yna, defnyddiodd Blumenstock weithdrefn dau gam yn gyffredin mewn dysgu peiriannau: peirianneg nodwedd a ddilynir gan ddysgu dan oruchwyliaeth. Yn gyntaf, yn y cam peirianneg nodwedd , i bawb a gafodd gyfweliad, gwnaeth Blumenstock y cofnodion galwad i set o nodweddion am bob person; gallai gwyddonwyr data alw'r nodweddion hyn yn "nodweddion" a byddai gwyddonwyr cymdeithasol yn galw "newidynnau" iddynt. Er enghraifft, ar gyfer pob person, cyfrifodd Blumenstock gyfanswm nifer y dyddiau gyda gweithgaredd, nifer y bobl wahanol y mae person wedi bod mewn cysylltiad â nhw, swm yr arian a wariwyd ar amser awyr, ac yn y blaen. Yn feirniadol, mae peirianneg nodwedd dda yn gofyn am wybodaeth am y lleoliad ymchwil. Er enghraifft, os yw'n bwysig gwahaniaethu rhwng galwadau domestig a rhyngwladol (efallai y byddem yn disgwyl i bobl sy'n galw'n rhyngwladol yn fwy cyfoethog), yna mae'n rhaid gwneud hyn ar gam peirianneg nodwedd. Ni allai ymchwilydd sydd â dealltwriaeth ychydig o Rwanda gynnwys y nodwedd hon, ac yna byddai perfformiad rhagfynegol y model yn dioddef.
Nesaf, yn y cam dysgu dan oruchwyliaeth , adeiladodd Blumenstock fodel i ragfynegi ymateb yr arolwg i bob person yn seiliedig ar eu nodweddion. Yn yr achos hwn, defnyddiodd Blumenstock atchweliad logistaidd, ond gallai fod wedi defnyddio amrywiaeth o ddulliau dysgu ystadegol neu beiriannau eraill.
Felly pa mor dda y bu'n gweithio? A oedd Blumenstock yn gallu rhagfynegi atebion i gwestiynau'r arolwg fel "Ydych chi'n berchen ar radio?" A "Ydych chi'n berchen ar feic?" Gan ddefnyddio nodweddion sy'n deillio o gofnodion galwad? Er mwyn gwerthuso perfformiad ei fodel rhagfynegol, defnyddiodd Blumenstock draws-ddilysu , techneg a ddefnyddir yn gyffredin mewn gwyddoniaeth data ond yn anaml mewn gwyddoniaeth gymdeithasol. Y nod o groes-ddilysu yw darparu asesiad teg o berfformiad rhagfynegol model trwy ei hyfforddi a'i brofi ar is-setiau gwahanol o ddata. Yn benodol, rhannodd Blumenstock ei ddata yn 10 darnau o 100 o bobl yr un. Yna, defnyddiodd naw o'r darnau i hyfforddi ei fodel, a gwerthuswyd perfformiad rhagfynegol y model hyfforddedig ar y darllediad sy'n weddill. Ailadroddodd y weithdrefn hon 10 gwaith - gyda phob darnau o ddata yn cael un tro fel y data dilysu - a chyfartaledd y canlyniadau.
Roedd cywirdeb y rhagfynegiadau yn uchel ar gyfer rhai nodweddion (ffigwr 3.14); er enghraifft, gallai Blumenstock ragweld gyda 97.6% yn gywir os oedd rhywun yn berchen ar radio. Gallai hyn swnio'n drawiadol, ond mae bob amser yn bwysig cymharu dull rhagfynegi cymhleth yn erbyn dewis syml. Yn yr achos hwn, dewis arall syml yw rhagfynegi y bydd pawb yn rhoi'r ateb mwyaf cyffredin. Er enghraifft, dywedodd 97.3% o ymatebwyr fod yn berchen ar radio felly pe bai Blumenstock wedi rhagweld y byddai pawb yn adrodd bod yn berchen ar radio byddai wedi bod yn gywir o 97.3%, sy'n syndod yn debyg i berfformiad ei weithdrefn fwy cymhleth (97.6% o gywirdeb) . Mewn geiriau eraill, cynyddodd yr holl ddata ffansi a modelu gywirdeb y rhagfynegiad o 97.3% i 97.6%. Fodd bynnag, ar gyfer cwestiynau eraill, megis "Ydych chi'n berchen ar feic?", Mae'r rhagolygon wedi gwella o 54.4% i 67.6%. Yn fwy cyffredinol, mae ffigwr 3.15 yn dangos nad oedd ar gyfer rhai nodweddion Blumenstock yn gwella llawer mwy na dim ond gwneud y rhagfynegiad llinell sylfaen syml, ond ar gyfer nodweddion eraill roedd peth gwelliant. Gan edrych yn union ar y canlyniadau hyn, fodd bynnag, efallai na fyddwch yn meddwl bod yr ymagwedd hon yn arbennig o addawol.
Fodd bynnag, dim ond blwyddyn yn ddiweddarach, cyhoeddodd Blumenstock a dau gydweithiwr-Gabriel Cadamuro a Robert Ar-bapur mewn Gwyddoniaeth gyda chanlyniadau sylweddol well (Blumenstock, Cadamuro, and On 2015) . Roedd dau brif reswm technegol dros y gwelliant hwn: (1) defnyddiant ddulliau mwy soffistigedig (hy, dull newydd o beirianneg nodwedd a model mwy soffistigedig i ragfynegi ymatebion o nodweddion) a (2) yn hytrach na cheisio canfod ymatebion i unigolion cwestiynau arolwg (ee, "Ydych chi'n berchen ar radio?"), roeddent yn ceisio canfod mynegai cyfoeth cyfansawdd. Roedd y gwelliannau technegol hyn yn golygu y gallent wneud gwaith rhesymol o ddefnyddio cofnodion galwadau i ragweld cyfoeth i'r bobl yn eu sampl.
Nid rhagfynegi cyfoeth pobl yn y sampl, fodd bynnag, oedd nod nod yr ymchwil. Cofiwch mai'r nod pennaf oedd cyfuno rhai o nodweddion gorau arolygon sampl a chyfrifiadau i gynhyrchu amcangyfrifon cywir, datrysiad uchel o dlodi mewn gwledydd sy'n datblygu. I asesu eu gallu i gyflawni'r nod hwn, defnyddiodd Blumenstock a chydweithwyr eu model a'u data i ragfynegi cyfoeth yr holl 1.5 miliwn o bobl yn y cofnodion galw. Ac roeddent yn defnyddio'r wybodaeth geosodol a fewnosodwyd yn y cofnodion galwadau (dwyn i gof bod y data yn cynnwys lleoliad y tŵr celloedd agosaf ar gyfer pob galwad) i amcangyfrif man preswyl fras pob person (ffigwr 3.17). Gan roi'r ddau amcangyfrifon hyn gyda'i gilydd, cynhyrchodd Blumenstock a chydweithwyr amcangyfrif o ddosbarthiad daearyddol cyfoeth tanysgrifiwr mewn gronynnod gofodol iawn iawn. Er enghraifft, gallent amcangyfrif cyfoeth cyfartalog ym mhob un o 2,148 celloedd Rwanda (yr uned weinyddol leiaf yn y wlad).
Pa mor dda y mae'r amcangyfrifon hyn yn cyd-fynd â lefel wirioneddol tlodi yn y rhanbarthau hyn? Cyn i mi ateb y cwestiwn hwnnw, rwyf am bwysleisio'r ffaith bod yna lawer o resymau dros amheuaeth. Er enghraifft, roedd y gallu i wneud rhagfynegiadau ar lefel unigol yn eithaf swnllyd (ffigur 3.17). Ac, yn bwysicach na hynny, gallai pobl â ffonau symudol fod yn systematig wahanol i bobl heb ffonau symudol. Felly, gallai Blumenstock a chydweithwyr ddioddef o'r mathau o wallau sylw a oedd yn rhagfarnu arolwg Digwyddiad Llenyddol 1936 a ddisgrifiais yn gynharach.
Er mwyn cael synnwyr o ansawdd eu hamcangyfrifon, roedd angen i Blumenstock a chydweithwyr eu cymharu â rhywbeth arall. Yn ffodus, tua'r un pryd â'u hastudiaeth, roedd grŵp arall o ymchwilwyr yn cynnal arolwg cymdeithasol mwy traddodiadol yn Rwanda. Roedd yr arolwg arall hwn - a oedd yn rhan o'r rhaglen Arolwg Demograffig ac Iechyd a barchir yn eang - yn meddu ar gyllideb fawr ac yn defnyddio dulliau traddodiadol o safon uchel. Felly, gallai'r amcangyfrifon o'r Arolwg Demograffig ac Iechyd gael eu hystyried yn rhesymol yn amcangyfrifon safonol. Pan gymharwyd y ddau amcangyfrif, roeddent yn eithaf tebyg (ffigur 3.17). Mewn geiriau eraill, trwy gyfuno ychydig o ddata arolwg gyda'r cofnodion galwadau, roedd Blumenstock a chydweithwyr yn gallu cynhyrchu amcangyfrifon sy'n debyg i'r rhai o ddulliau safon aur.
Gallai amheuaeth weld y canlyniadau hyn fel siom. Wedi'r cyfan, un ffordd i'w gweld yw dweud, trwy ddefnyddio data mawr a dysgu peiriannau, bod Blumenstock a chydweithwyr yn gallu cynhyrchu amcangyfrifon y gellid eu gwneud yn fwy dibynadwy trwy ddulliau sy'n bodoli eisoes. Ond ni chredaf mai dyna'r ffordd iawn i feddwl am yr astudiaeth hon am ddau reswm. Yn gyntaf, roedd yr amcangyfrifon o Blumenstock a chydweithwyr tua 10 gwaith yn gyflymach a 50 gwaith yn rhatach (pan fesurir y gost o ran costau amrywiol). Wrth i mi ddadlau yn gynharach yn y bennod hon, mae ymchwilwyr yn anwybyddu'r gost yn eu perygl. Yn yr achos hwn, er enghraifft, mae'r gostyngiad dramatig yn y gost yn golygu, yn hytrach na chael ei redeg bob ychydig o flynyddoedd - fel sy'n safonol ar gyfer Arolygon Demograffig ac Iechyd-gellid cynnal y math hwn o arolwg bob mis, a fyddai'n darparu nifer o fanteision i ymchwilwyr a pholisi gwneuthurwyr. Yr ail reswm i beidio â chymryd barn yr amheuaeth yw bod yr astudiaeth hon yn darparu rysáit sylfaenol y gellir ei deilwra i lawer o wahanol sefyllfaoedd ymchwil. Dim ond dwy gynhwysyn a dau gam yw'r rysáit hwn. Mae'r cynhwysion (1) yn ffynhonnell ddata fawr sydd yn eang ond yn denau (hy, mae ganddo lawer o bobl ond nid y wybodaeth sydd ei hangen arnoch am bob person) a (2) arolwg sy'n gul ond yn drwchus (hy, dim ond ychydig o bobl, ond mae ganddo'r wybodaeth sydd ei hangen arnoch am y bobl hynny). Yna caiff y cynhwysion hyn eu cyfuno mewn dau gam. Yn gyntaf, ar gyfer y bobl yn y ddau ffynhonnell ddata, adeiladu model dysgu peiriant sy'n defnyddio'r ffynhonnell ddata fawr i ragfynegi atebion arolwg. Nesaf, defnyddiwch y model hwnnw i geisio ateb yr arolwg o bawb yn y ffynhonnell ddata fawr. Felly, os oes rhywfaint o gwestiwn yr ydych am ofyn llawer o bobl, edrychwch am ffynhonnell ddata fawr gan y bobl hynny y gellid eu defnyddio i ragweld eu hateb, hyd yn oed os nad ydych yn poeni am y ffynhonnell ddata fawr . Hynny yw, nid oedd Blumenstock a chydweithwyr yn gofalu am gofnodion galwadau mewn gwirionedd; roeddent yn gofalu am gofnodion galwadau yn unig oherwydd y gellid eu defnyddio i ragfynegi atebion arolwg y maent yn gofalu amdano. Mae'r nodwedd hon yn unig yn anuniongyrchol yn y ffynhonnell ddata fawr-yn gwneud yn fwy helaeth yn gofyn yn wahanol i ofyn mewnosod, a ddisgrifiais yn gynharach.
I gloi, mae ymagwedd holi ymhlith Blumenstock yn cyfuno data arolwg gyda ffynhonnell ddata fawr i gynhyrchu amcangyfrifon sy'n debyg i'r rhai o arolwg safon aur. Mae'r enghraifft benodol hon hefyd yn egluro rhai o'r dulliau gwahardd rhwng dulliau ehangu gofyn a dulliau traddodiadol o'r arolwg. Roedd yr amcangyfrifon ymgeisio mwyedig yn fwy amserol, yn sylweddol rhatach, a mwy o fawreddog. Ond, ar y llaw arall, nid oes sail ddamcaniaethol gadarn eto ar gyfer y math hwn o ofyn estynedig. Nid yw'r un enghraifft hon yn dangos pryd y bydd yr ymagwedd hon yn gweithio a phryd na fydd hi, ac mae angen i ymchwilwyr sy'n defnyddio'r ymagwedd hon fod yn arbennig o bryderus ynghylch rhagfarniadau posibl a achosir gan bwy sydd wedi'i gynnwys-ac nad yw wedi'i gynnwys-yn eu ffynhonnell ddata fawr. Ar ben hynny, nid oes gan yr ymagwedd holi wedi'i ymgorffori ffyrdd da o fesur ansicrwydd eto o'i hamcangyfrifon. Yn ffodus, mae gan ofyn wedi'i ymgorffori gysylltiadau dwfn â thri maes mawr mewn ystadegau - amcangyfrif ardal fach (Rao and Molina 2015) , imputation (Rubin 2004) , ac ôl-haenau seiliedig ar fodel (sydd â chysylltiad agos â Mr. P., y dull a ddisgrifiais yn gynharach yn y bennod) (Little 1993) . Oherwydd y cysylltiadau dwfn hyn, rwy'n disgwyl y bydd llawer o sylfeini methodolegol y gofyniad estynedig yn cael ei wella cyn bo hir.
Yn olaf, mae cymharu ymdrechion cyntaf ac ail Blumenstock hefyd yn dangos gwers bwysig am ymchwil gymdeithasol o oedran ddigidol: nid y dechrau yw'r diwedd. Hynny yw, sawl gwaith, ni fydd y dull cyntaf orau, ond os yw ymchwilwyr yn parhau i weithio, gall pethau wella. Yn fwy cyffredinol, wrth arfarnu ymagweddau newydd at ymchwil gymdeithasol yn yr oes ddigidol, mae'n bwysig gwneud dau arfarniad gwahanol: (1) Pa mor dda y mae hyn yn gweithio nawr? a (2) Pa mor dda y bydd hyn yn gweithio yn y dyfodol wrth i dirwedd y data newid ac wrth i ymchwilwyr roi mwy o sylw i'r broblem? Er bod ymchwilwyr wedi'u hyfforddi i wneud y math cyntaf o werthusiad, mae'r ail yn aml yn bwysicach.