Олон хүмүүсээс өгөгдлийн том эх үүсвэртэй цөөн тооны хүмүүсээс судалгааны өгөгдлийг нэгтгэн урьдчилан таамаглах загварыг ашиглан асууж тодруулсан.
Судалгаа, том хэмжээний мэдээллийн эх сурвалжийг нэгтгэх өөр нэг арга бол асуусан асуултыг асуух үйл явц юм. Судлаач асууж тодруулахдаа судлаач нь өгөгдлийн эх сурвалжтай аль нэгээр нь масштаб эсвэл масштабтай тоо хэмжээг гаргахын тулд их хэмжээний өгөгдлийн эх сурвалжтай бага хэмжээний судалгааны өгөгдлийг нэгтгэж урьдчилан таамаглах загварыг ашигладаг. Ядуу орнуудын хөгжлийн удирдамжийг боловсруулахад туслах өгөгдөл цуглуулахыг хүссэн Жошуа Блүмэнстокын бүтээлээс олшруулсан асуултыг асуусан асуултын чухал жишээ юм. Өнгөрсөн хугацаанд ийм төрлийн өгөгдлийг цуглуулсан судлаачид дээжийн судалгаа буюу тооллогын хоёр аргын аль нэгийг авах шаардлагатай байв. Судлаачдын цөөн тооны хүмүүстэй ярилцлага хийж буй судалгаа нь уян хатан, цаг үеэ олсон, харьцангуй хямдхан байдаг. Гэсэн хэдий ч, эдгээр судалгаанууд нь дээж дээр суурилсан учир тэдгээрийг шийдвэрлэхэд хязгаарлагдмал байдаг. Түүвэр судалгаанаас үзэхэд газар зүйн тодорхой бүс нутгууд эсвэл хүн ам зүйн тодорхой бүлгүүдийн талаар тооцоолох нь хэцүү байдаг. Нөгөө талаас, хүн бүрт ярилцлага хийхийг оролдохын зэрэгцээ газарзүйн жижиг бүс нутгууд болон хүн ам зүйн бүлгүүдийн тооцоог гаргахад ашиглаж болно. Гэхдээ тооллого нь ерєнхийдєє їнэ єртєгтэй, нарийн тївэгтэй асуудал (тэдгээр нь зєвхєн цєєн тооны асуултуудтай), цаг хугацаанд нь хийгдээгїй (10 жил тутам гэх мэт тогтмол хуваарийн дагуу хийгддэг) (Kish 1979) . Түүвэр судалгаа эсвэл тооллогод хамрагдсанаас илүүтэйгээр судлаачид хоёулангийнх нь хамгийн сайн шинж чанарыг хослуулан хэрэглэж болно гэж төсөөлье. Судлаач бүр асуулт бүрийг өдөр бүр асуултаа асууж болох уу? Мэдээжийн хэрэг, энд байнга хийгддэг, байнга судалгаа нь нийгмийн шинжлэх ухааны уран зөгнөлийн хэлбэр юм. Гэхдээ энэ нь бид олон хүмүүсээс дижитал ул мөр бүхий хүмүүсийн жижиг хэд хэдэн судалгаа асуулт хослуулсан энэ ойролцоо эхлэх болно гэж гарч байна.
Blumenstock-ийн судалгаа Rwanda дахь хамгийн том үүрэн телефон үйлчилгээ үзүүлэгчтэй хамтран ажиллаж эхэлсэн бөгөөд 2005-2009 оны хооронд 1.5 сая хэрэглэгчээс нэрээ нууцалсан гүйлгээний бичилт хийлгэсэн байна. Эдгээр бичлэгүүд нь дуудлага, текст мессеж бүрийн тухай мэдээлэл, тухайлбал эхлэх цаг, хугацаа , дуудагч болон хүлээн авагчийн газарзүйн байршлын ойролцоо байна. Статистик асуудлуудын талаар ярихаасаа өмнө энэ эхний алхам нь олон судлаачдын хувьд хамгийн хэцүү нь байж болох юм гэдгийг онцлон тэмдэглэх нь зүйтэй юм. Би 2-р бүлэгт тайлбарласанчлан ихэнх мэдээллийн томоохон эх үүсвэр судлаачид хүрч чадахгүй . Телефон мета-өгөгдөл нь ялангуяа нэргүй нууцлах боломжгүй байдаг учраас оролцогчид мэдрэмжтэй гэж үздэг мэдээлэл (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Энэ тохиолдолд судлаачид өгөгдлийг хамгаалахад маш болгоомжтой хандаж, тэдний ажлыг гуравдагч этгээд (өөрөөр хэлбэл, тэдний IRB) хянаж байсан. Би эдгээр ёс зүйн асуудлуудыг 6-р бүлэгт дэлгэрэнгүй харуулъя.
Блүмэнсток баялаг, сайн сайхан байдлыг хэмжих сонирхолтой байв. Гэхдээ эдгээр шинж чанарууд нь шууд дуудлагын бичлэгт байдаггүй. Өөрөөр хэлбэл, эдгээр дуудлагын бүртгэл том мэдээллийн эх сурвалжаас энэ эрдэм шинжилгээ-нийтлэг онцлог Гэсэн хэдий ч бүлгийн 2-т нарийвчлан хэлэлцсэн нь дутуу байна, энэ нь дуудлагын бүртгэл магадгүй шууд бусаар эд баялаг-ий тухай мэдээлэл өгч болох зарим нэг мэдээлэл байгаа гэсэн үг бололтой болон сайн сайхан байдал. Үүнийг харгалзан үзвэл, Blumenstock хэн нэг хүний дуудлагын бичлэг дээр тулгуурлан судалгаанд хэрхэн хариулах талаар машин сургалтын загварыг сургах боломжтой эсэхийг асуусан. Хэрэв боломжтой байсан бол Blumenstock 1.5 сая хэрэглэгчдийн санал асуулгыг урьдчилан таамаглах боломжтой байсан.
Ийм загварыг бүтээх, сургахын тулд Кигали, Шинжлэх ухаан, технологийн хүрээлэнгийн Блумимсток, судалгааны туслах ажилтнууд ойролцоогоор мянга орчим хэрэглэгчийн санамсаргүй түүвэр хийжээ. Судлаачид төслийн зорилгыг оролцогчдод тайлбарлаж, судалгааны хариултуудыг дуудлагын бичлэгт холбохыг зөвшөөрч, тэдний эд баялаг, сайн сайхан байдлыг хэмжих хэд хэдэн асуулт асуусан. Жишээ нь: "Та эзэмшдэг радио уу? "," Та унадаг дугуйтай юу? "(хэсэгчилсэн жагсаалтыг 3.14-р зургаас үзнэ үү). Судалгаанд хамрагдсан бүх хүмүүс санхүүгийн хувьд нөхөн олговор авсан болно.
Дараа нь, Blumenstock машин сурахад нийтлэг хэрэглэгддэг хоёр үе шаттай процедурыг ашигласан байна. Нэгдүгээрт, онцлог инженерийн алхам дээр ярилцсан хүн бүр Blumanstock дуудлагын бичлэгийг хүн бүрийн талаархи шинж чанар болгон хувиргасан; Мэдээллийн шинжлэх ухааны эрдэмтэд эдгээр шинж чанаруудыг "функц" гэж нэрлэж болох ба нийгмийн эрдэмтэд үүнийг "хувьсагч" гэж нэрлэж болно. Жишээ нь, хүн бүрт Blumenstock нийт үйл ажиллагаа явуулж буй өдрийн нийт тоог тооцоолсон, тухайн хүний ялгаатай хүмүүсийн тоо цагт зарцуулсан мөнгөний хэмжээ, гэх мэт. Онцгой шинжтэй инженерчлэл нь судалгааны нөхцөл байдлын талаар мэдлэгтэй байхыг шаарддаг. Жишээлбэл, дотоодын болон олон улсын дуудлагаар ялгах нь чухал юм (олон улсын хэмжээнд чинээлэг байхын тулд биднийг дууддаг хүмүүс гэж тооцож болно), тэгээд энэ нь инженерчлэлийн үе шатанд хийгдэх ёстой. Рвандагийн талаар багахан ойлголттой судлаач энэ шинж чанарыг агуулахгүй байж магадгүй, дараа нь загварын таамаглалыг гүйцэлдүүлэх болно.
Дараа нь хяналттай сургалтын үе шатанд, Blumenstock нь хүн бүрийнхээ онцлог шинж дээр тулгуурлан судалгааны хариултыг урьдчилан таамаглах загварыг бий болгосон. Энэ тохиолдолд Blumenstock ложистикийн регресс ашиглаж байсан ч бусад статистик болон машин сургалтын аргуудыг хэрэглэж болох байсан.
Тэгэхээр энэ нь хэр сайн байсан бэ? Blumenstock нь "Радио эзэмшдэг үү?", "Унадаг дугуйтай юу?" Гэх мэт асуултын хариултыг урьдчилан мэдэх боломжтой байсан уу? Түүний урьдчилан таамагласан загварын гүйцэтгэлийг үнэлэхийн тулд Блүмэнсток мэдээллийн шинжлэх ухаанд ихэвчлэн ашигладаг боловч нийгмийн шинжлэх ухаанд ховор тохиолддог хөндлөн баталгаажуулалтыг ашигладаг. Баталгаажуулалтын зорилго нь загварын урьдчилан таамагласан гүйцэтгэлийн үнэлгээг шударга байдлаар үнэлэх явдал юм. Тухайлбал, Blumenstock өөрийн өгөгдлийг тус бүрдээ 100 хүнээс 10 хэсэг болгон хуваасан байна. Дараа нь тэрээр есөн загварыг өөрийн загвараа сургахад ашиглаж, бэлтгэгдсэн загварыг урьдчилан таамаглах чадварыг үлдсэн хэсэг дээр үнэлжээ. Тэрээр энэ аргыг 10 удаа давтаж, өгөгдөл бүрт нэгийг нь баталгаажуулах өгөгдөл болгон хувиргаж, үр дүнг дундаж болгов.
Зарим шинж чанаруудын хувьд таамаглалын нарийвчлал өндөр байсан (Зураг 3.14); Жишээлбэл, хэн нэгэн радио эзэмшдэг бол Blumenstock 97.6% -ийн нарийвчлалыг урьдчилан таамаглаж болох юм. Энэ нь гайхалтай санагдаж магадгүй боловч энгийн таамаглалын эсрэг нарийн төвөгтэй таамаглалын аргыг харьцуулах нь үргэлж чухал юм. Энэ тохиолдолд хамгийн хялбар хувилбар бол хүн бүр хамгийн нийтлэг хариултыг өгөх болно. Жишээлбэл, 97.3% нь радио эзэмшдэг гэж мэдээлсэн бол Блуменсток хүн бүр радио эзэмших боломжтой гэж мэдэгдэж байгаа бөгөөд 97.3% -ийн нарийвчлалтай байх нь илүү нарийн төвөгтэй процесс (97.6% нарийвчлалтай) . Єєрєєр хэлбэл, бїх сонирхол татахуйц мэдээлэл, загварчлал нь таамаглалын нарийвчлалыг 97.3% -аас 97.6% -иар нэмэгдїїлсэн. Гэсэн хэдий ч "Та унадаг дугуйтай юу?" Гэх мэт бусад асуултуудад 54.4% -аас 67.6% хүртэл өссөн байна. Ерєнхийдєє, зураг 3.15-д Blumenstock зарим онцлог шинж чанарыг энгийн таамаглалыг гаргахаас гадна сайжруулаагїй боловч бусад шинж чанаруудын хувьд зарим сайжруулалт хийгдсэн байна. Зөвхөн эдгээр үр дүнг харвал энэ хандлага нь ирээдүйтэй гэж бодож болохгүй.
Гэсэн хэдий ч, зөвхөн нэг жилийн дараа, Blumenstock, хоёр хамт олон, Габриел Cadamuro, Роберт Шинжлэх ухаан нь цаасан дээр бодитойгоор илүү сайн үр дүн нь On-хэвлэгдсэн (Blumenstock, Cadamuro, and On 2015) . Эдгээр сайжруулалтын техникийн үндсэн хоёр шалтгаан байсан: (1) тэд илүү нарийн арга барил хэрэглэдэг (өөрөөр хэлбэл онцлог инженерийн шинэ арга барил, онцлог шинж чанаруудын хариуг таамаглах илүү боловсронгуй загвар), (2) хувь хүнд хариу өгөхийг оролдохын оронд Судалгааны асуултууд (жишээ нь "Та радио эзэмшдэг үү?" гэх мэт), тэд нийлмэл баялагийн индексийг олж тогтоох оролдлого хийсэн. Эдгээр техникийн сайжруулалтууд нь тэд дээжийн хүмүүсийн баялгийг урьдчилан таамаглахын тулд дуудлагын бүртгэлийг ашиглах боломжийн ажлыг хийж чадна гэсэн үг юм.
Дээжийн хүмүүсийн баялгийг урьдчилан таамаглах нь судалгааны эцсийн зорилго биш юм. Эцсийн зорилго нь хөгжиж буй орнуудад ядуурлын үнэн зөв, өндөр нарийвчлалтай тооцооллыг гаргахын тулд түүвэр судалгаа, тооллогын хамгийн шилдэг боломжуудыг хослуулах явдал байв. Энэ зорилгодоо хүрэх чадварыг үнэлэхийн тулд Blumenstock болон хамтран ажиллагсад өөрсдийн загвар болон өгөгдлөө ашиглан дуудлагын бүртгэлд 1.5 сая хүн ам олноороо таамаглажээ. Тэд дуудлагын бүртгэлд агуулагдсан гео-орон зайн мэдээллийг ашигладаг (дуудлага бүрт ойролцоох үүрэн цамхагийн байршлыг оруулаад өгөгдлийг оруулаад) хүн бүрийн оршин суугаа газрын ойролцоо байршлыг тооцох (Зураг 3.17). Эдгээр хоёр тооцоог нэгтгэхийн тулд Blumenstock болон хамтран ажиллагсад захиалагчийн эд хөрөнгийн газарзүйн хуваарилалтыг орон зайн нарийн мушгиа байдлаар үнэлдэг. Жишээлбэл, Рвандагийн 2,148 нүдэн дэх дундаж баялгийг (улсын хамгийн жижиг засаг захиргааны нэгж) тооцоолж болно.
Эдгээр тооцоо нь эдгээр бүс нутгуудад ядуурлын бодит түвшинтэй хэрхэн тохирч байсан бэ? Энэ асуултад хариулахын өмнө би эргэлзээтэй олон шалтгаан байгаа гэдгийг онцлон тэмдэглэхийг хүсч байна. Жишээлбэл, хувь хүний түвшинд таамаглах чадвар нь маш их дуу чимээтэй байсан (Зураг 3.17). Хамгийн чухал нь гар утастай хүмүүс гар утасгүй хүмүүсээс системтэйгээр ялгаатай байж болох юм. Тиймээс Blumenstock болон хамтран ажиллагсад нь өмнө нь тайлбарласан 1936 Literary Digest хэмээх судалгаанд алдаа мадаггүй хамруулахаас үүдэлтэй алдааны төрлүүдээс болж зовж магадгүй юм.
Тэдний тооцооллын чанарыг ойлгохын тулд Blumenstock болон хамтран ажиллагсад тэдгээрийг бусад зүйлстэй харьцуулах хэрэгтэй байв. Аз болоход, тэдний судалж байгаатай адил өөр нэг бүлэг эрдэмтэн Руанда дахь уламжлалт нийгмийн судалгааг явуулж байжээ. Хүн ам зүй, эрүүл мэндийн судалгааны өргөн хүрээтэй хөтөлбөрийн хүрээнд хийгдсэн энэхүү судалгаа нь томоохон төсөвтэй, өндөр чанартай, уламжлалт аргыг ашигласан. Тиймээс хүн ам зүй, эрүүл мэндийн судалгааны үр дүнгийн тооцоолол нь алтны стандартын тооцоонд үндэслэлтэй байж болох юм. Хоёр тооцоог харьцуулсан нь харьцангуй төстэй байсан (Зураг 3.17). Өөрөөр хэлбэл, дуудлагын бүртгэлтэй бага хэмжээний судалгааны өгөгдлийг нэгтгэснээр, Blumenstock болон хамтран ажиллагсад нь алтны стандартын аргуудтай харьцуулах боломжтой байв.
Үл итгэгчид эдгээр үр дүнг урам хугарах мэт хардаг. Эцсийн эцэст, тэдгээрийг харах нэг арга бол том өгөгдөл болон машиныг суралцах замаар ашиглахыг хэлэхийн тулд Blumenstock болон хамтран ажиллагсад аль хэдийн ашиглагдаж байсан аргуудаар илүү найдвартай тооцоолж чадна гэж тооцоолж чаджээ. Гэхдээ энэ судалгааг хоёр шалтгаанаар бодох нь зөв гэж бодож байна. Нэгдүгээрт, Blumenstock болон түүний хамтрагч нарын тооцоолол 10 дахин хурдан бөгөөд 50 дахин хямд (зардлыг хувьсах зардлын хувьд хэмжиж үзэхэд) байсан. Энэ бүлгийн өмнө би судлаачдын үзэж байгаагаар судлаачид тэдний аюулд өртөг зардлыг үл тоомсорлодог. Жишээлбэл, зардал эрс буурсан нь хїн ам зїй, эрїїл мэндийн судалгаагаар цєєн жил ажилласнаар бус харин сар тутам ийм тєрлийн судалгаа явуулж болох бєгєєд ингэснээр судлаачид болон бодлогын хувьд олон давуу талыг бий болгоно. үйлдвэрлэгчид. Хоёрдахь шалтгаан нь эргэлзээтэй хандлагыг авч үзэхгүй байх явдал юм. Энэ судалгаа нь олон янзын судалгааны нөхцөлд тохирсон үндсэн жороор хангадаг юм. Энэхүү жор нь зөвхөн хоёр найрлага, хоёр шаттай байдаг. Элементүүд нь (1) өргөн цар хүрээтэй боловч маш нимгэн өгөгдлийн эх үүсвэр (өөрөөр хэлбэл, энэ нь олон хүнтэй гэхдээ хүн бүрийн талаархи хэрэгцээтэй мэдээлэл биш) ба (2) нарийхан боловч зузаан (өөрөөр хэлбэл зөвхөн цөөн хэдэн хүмүүс, гэхдээ энэ хүмүүсийн талаар танд хэрэгтэй мэдээллээр хангадаг). Эдгээр найрлага нь хоёр үе шаттайгаар нэгтгэгдэнэ. Нэгдүгээрт, өгөгдлийн эх сурвалжийн аль алиных нь хувьд судалгааны өгөгдлийг урьдчилан таамаглах том мэдээллийн эх үүсвэрийг ашигладаг машин сургалтын загвар бүтээх. Дараа нь том хэмжээний өгөгдлийн эх сурвалжаас авсан бүх асуултад хариулт өгөх загварыг ашиглана уу. Тиймээс, хэрэв та олон хүмүүсээс асуух асуулт байвал олон тооны мэдээллийн эх сурвалжийг анхаардаггүй байсан ч хариултаа таамаглахад ашиглаж болох хүмүүсийн том мэдээллийн эх сурвалжийг хайж олох хэрэгтэй. Энэ бол Blumenstock болон хамтран ажиллагсад дуудлагын бичлэгт санаа тавьдаггүй байсан юм. Тэд зөвхөн анхаарал татсан бичлэгийн талаархи анхаарал халамж тавьдаг тул тэд анхаарч үзсэн судалгааны хариултыг урьдчилан таамаглахад ашиглаж болно. Том хэмжээний өгөгдлийн эх сурвалжаас энэ шинж чанар нь зөвхөн шууд бус сонирхолтой байдаг. Би өмнө нь тайлбарласан, суулгагдсан асуултаас ялгаатай асуусан.
Эцэст нь хэлэхэд, Blumenstock-ийн олшруулсан асуумжийн арга нь судалгааны өгөгдлийг том хэмжээний эх сурвалжтай хослуулсан бөгөөд энэ нь алтны стандартын судалгаанаас харьцуулж тооцоолох боломжтой юм. Энэ жишээнд олшруулсан асуулт асууж, уламжлалт судалгааны аргуудын хоорондын ялгааг тодруулж өгдөг. Тооцоолсон асуумжийн тооцоолол нь цаг хугацааны хувьд илүү хямд, илүү нарийн зүйл байв. Гэхдээ нөгөө талаас, ийм төрлийн асууж тодруулах асуултын хувьд онолын үндэслэл одоохондоо байхгүй байна. Энэ нэг жишээ нь энэ аргыг ашиглахад хэзээ ч харагдахгүй, энэ аргыг хэрэглэж буй судлаачид энэ талаархи том мэдээллийн эх сурвалжид хэн оролцсон, хэн оролцоогүй зэргээс шалтгаалсан байж болох алдааны талаар санаа зовж байх хэрэгтэй. Цаашилбал, асуумжийн асуумжийн арга нь түүний тооцооллын эргэн тойронд тодорхой бус байдлыг тоогоор тооцох сайн арга замгүй байна. Гэсэн хэдий ч асуумжийн асуумж нь статистик-жижиг бүс нутгийг тооцоолох (Rao and Molina 2015) , индикатор (Rubin 2004) гэсэн 3 том газар нутгуудтай гүнзгий холболттой бөгөөд загварт суурилсан дараах үе шат (энэ нь П.П., Энэ бүлэгт өмнө нь тайлбарласан арга) (Little 1993) . Эдгээр гүнзгий холбоосуудаас болж асуултын асуумжийн аргачлалын олон санг удахгүй сайжруулна гэж найдаж байна.
Эцэст нь, Blumenstock-ийн эхний болон хоёр дахь оролдлогыг харьцуулах нь дижитал-насны нийгмийн судалгааны талаар чухал сургамжийг харуулж байна: эхлэл нь төгсгөл биш юм. Энэ нь олон удаа, эхний арга нь хамгийн сайн зүйл биш, харин судлаачид үргэлжлүүлэн ажиллаж байгаа бол зүйлүүд илүү сайжрах болно. Илүү ерөнхийдөө дижитал нийгмийн нийгмийн судалгаанд шинэ хандлагыг үнэлэхэд хоёр өөр үнэлгээг хийх нь чухал юм. Үүнд: (1) Энэ нь одоо хэр сайн ажилласан бэ? (2) Мэдээллийн ландшафтын өөрчлөлт, судлаачдын хувьд энэ асуудалд илүү анхаарал хандуулах нь ирээдүйд энэ ажил хэр сайн байх вэ? Хэдийгээр судлаачид анхны үнэлгээг хийхээр бэлтгэгдсэн боловч хоёр дахь нь илүү чухал байдаг.