Ferbettere freegje mei it brûken fan in foar predikant model om ûndersiidsgegevens te kombinearjen fan in pear minsken mei in grutte data boarne fan in soad minsken.
In oare manier om ûndersyk te kombinearjen en grutte gegevensboarnen is in proses dat ik amplisearre freegje te neamen. Yn 'e amplisearre fraach stelt in ûndersiker in foar predikant model om in lyts bedekking fan gegevensgegevens te kombinearjen mei in grutte gegevensboarne om skepten te meitsjen by in skaal of kanaalens dat net mei mooglik gegevens mei boarne wêze kin. In wichtich foarbyld fan ferplichte fraach komt út it wurk fan Joshua Blumenstock, dy't gewoane data sammelen dy't de ûntwikkeling yn arme lannen helpe kinne. Yn it ferline moasten ûndersikers dy soart gegevens oer it algemien hawwe moatte ien fan twa oanpakken nimme: probearûndersiken of sulveren. Sample-ûndersiken, dêr't ûndersikers in lyts tal minsken besykje, kinne fleksibel, tydlik, en relatyf goedkeap wêze. Dochs binne dizze ûndersiken, om't se basearre binne op in samling, faak beheine yn har resolúsje. Mei in probleemûndersyk is it faak hurd om skaten oer spesifike geografyske regio's of foar spesifike demografyske groepen te meitsjen. Censuses, oan 'e oare kant, probearje elkenien ynteressearje, en dus kinne se brûkt wurde om skaten foar lytse geografyske regio's of demografyske groepen te meitsjen. Maatregelingen binne oer it generaal djoer, smel yn fokus (se binne allinich in lyts tal fragen), en net opnij (se passe op in fêste plank, lykas alle 10 jier) (Kish 1979) . Lykwols net mei problemen opnommen of besprekken stean, foarkommen as ûndersikers de bêste eigenskippen fan beide kombinearje kinne. Stel dan as ûndersikers elke fraach oan elke persoan elke dei freegje. Fansels is dizze omhillige, altiten ûndersyk in soarte fan sosjale wittenskiplike fantasy. Mar it ferskynt dat wy begjinne kinne oan dit te berikken troch kombineare fraachtekens fan in lyts tal minsken mei digitale spoaren fan in soad minsken.
It ûndersiik fan Blumenstock begon doe't hy partners mei de grutste mobile telefoonbetrou yn Rwanda hie, en it bedriuw stelde tusken 2005 en 2009 anonymisearre transaksje-recordings fan likernôch 1,5 miljoen klanten. Dizze akten befette ynformaasje oer elke oanroppen en berjochtferbân, lykas de starttiid, tydens , en unyk geografyske lokaasje fan 'e oanrjochter en ûntfanger. Foardat ik praat oer de statistyske problemen, is it wurdich te wizen dat dizze earste stap ien fan 'e hurdste binne foar in soad ûndersikers. As ik yn haadstik 2 beskreaun binne, binne de measte grutte gegevensboarnen net te besykjen foar ûndersikers. Tillefoanmetaasjedaten binne benammen untagonklik, om't it grûnslach ûnmooglik is om anonymisearje te wêzen en it (Mayer, Mutchler, and Mitchell 2016; Landau 2016) ynformaasje hast sa dat dielnimmers in sensitive beskôgje kinne (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Yn dit bepaalde saak wiene de ûndersikers soarch om de gegevens te beskermjen en har wurk waard troch in tredde partij kontrolearre (dat is har IRB). Ik sil yn 'e haadstik 6 dizze ethike saken yn mear detail weromkomme.
Blumenstock wie ynteressearre yn it mêd fan rykdom en wolwêzen. Mar dy skaaimerken binne net direkt yn 'e oanroprekten. Mei oare wurden, dizze rufwerken binne ûnfolslein foar dit ûndersyk - in mienskiplike funksje fan grutte gegevensboarnen dy't yn haadstik 2 dúdlik besprutsen waard. Troch it petearen fan 'e oprop kinne wierskynlik guon ynformaasje hawwe dy't indirekt ynformaasje jaan oer rykdom en wolwêzen. Mei dizze mooglikheid frege Blumenstock oft it mooglik wie om in masine-learmodel te skriuwen om te praten hoe't immen reageert op in survey dat basearre is op har rapportaazjes. As dat mooglik wie, koe Florstok dit model brûke om de ûndersyksreaktes fan alle 1,5 miljoen klanten te foarsjen.
Om sa'n model te bouwen en te dragen, neamde Blumenstock en ûndersyksassistenten fan it Kigali Ynstitút foar Wittenskip en Technology in willekeurich probleem fan sa'n tûzen klanten. De ûndersikers ferklearren de doelen fan it projekt oan 'e dielnimmers, frege om har ynstimming om de fersiken fan' e survey te keppeljen oan 'e call-opnamen, en frege se dan in rige fragen om har rykdom en wolwêzen te mjitten, lykas: "Hawwe jo in radio? "en" Hawwe jo in fyts? "(sjoch figuer 3.14 foar in partiellist). Alle dielnimmers yn 'e enkête waarden finansjeel kompensearre.
Dêrnei brûkte Blumenstock in twa-stapke proseduere common yn masine learen: funksje-yngenieur folge troch begeliede learen. Earst, yn 'e funksje-ynstallaasje stap, foar elkenien dy't ynteressearre wie, boude Blumenstock de oproptsjilden yn in set fan eigenskippen oer elke persoan; Data-wittenskippers kinne dizze karakteren "funksjes" neame en sosjale wittenskippers har "fariabelen" neame. Bygelyks foar elke persoan, Blumenstock berekkene it totaal oantal dagen mei aktiviteit, it tal ferskillende minsken in persoan wie yn kontakt mei, de It bedrach fan jild, dat op 'e termyn brocht wurdt, en sa fierder. Krityk, goede karakteristyk fereasket kennis fan 'e ûndersyksstelling. Bygelyks as it wichtich is om ûnderskied te meitsjen tusken ynterne en ynternasjonale oanspraken (wy kinne ferwachtsje dat minsken dy't ynternasjoneel binne om rykierder te neamen), dan moat dit dien wurde op 'e funksje-ynstappe-stap. In ûndersiker mei in lyts begryp fan Rûanda soe dizze funksje net ynfolje, en dan soe de foarsizzende optreding fan it model lijt.
Njonkenlytsen, yn 'e begelaat learstap, boude Blumenstock in model om it ûndersiikre reaksje foar elke persoan te bewegen op basis fan har funksjes. Yn dit gefal brûke Florstok logistyske regression, mar hy koe in ferskaat oan oare statistyske of masine-leargongten brûke.
Dus hoe wie it goed dien? Wie Blumenstock kin de antwurden foar ûndersykje fragen as "Besette jo in radio?" En "Besykje jo in fyts?" Brûkend funksjes dy't ôflaat binne fan oproptsjinners? Om it optreden fan syn predictive model te evaluearjen brûkte Blumenstock in krúsvalidaasje , in technyk dy't brûkt wurdt yn datawittenskip, mar selden yn 'e sosjale wittenskip. It doel fan krúsvalidaasje is om in juste beoardieling te jaan foar in foarbyld fan foarbylden fan in model troch it oplieden en te testen op ferskate submetsen fan gegevens. Benammen Floriststok spielde syn gegevens yn 10 kanten fan 100 minsken elk. Dêrnei brûkte hy njoggen fan 'e stoelen om syn model te trainearjen, en de foarsizzjende optreden fan it trained model waard evaluearre op' e restige kroan. Hy hat dizze proseduere 10 kear werhelle - mei elke kâns fan gegevens komme ien kear as de validaasjedaten en gemiddeld de resultaten.
De kreft fan 'e foarbylden wie heech foar guon treuren (figuer 3.14); Bygelyks kinne Blumenstock prate mei 97,6% prestaasjes as immen in radio hat. Dit kin yndrukwekkend klinke, mar it is altyd belangryk om in komplekse predikaasje-metoade te fergelykjen tsjin in ienfâldige alternatyf. Yn dit gefal is in ienfâldige alternatyf om te praten dat elkenien de meast foarkommende antwurd jout. Bygelyks, 97,3% fan 'e respondinten rapporteare dat in radio wie doe't predikant dat Flieterstok praten hat dat elkenien in rapport besocht hie dat hy in rjochtfeardigens fan 97,3% hie, dat is ferrassend fergelykber mei de prestaasjes fan syn kompleksere proseduere (97,6% accuracy) . Mei oare wurden, alle fancy data en modeling fergrutte de krektens fan 'e foarsizzing fan 97,3% oant 97,6%. Lykwols, foar oare fragen, lykas "Hawwe jo in fyts?", Hawwe de foarbylden fan 54,4% oant 67,6% ferbettere. Meast algemien, figuer 3.15 lit sjen dat foar inkelde trajekten Florstok net folle ferbettere hat, mar krekt de ienfâldige baselinefoarstelling, mar dat foar oare skaaimerken, wie der wat ferbetterjen. Sjoch mar krekt op dy resultaten, kinne jo miskien net tinke dat dizze oanpak benammen te promovearjen is.
Dochs noch ien jier letter, Blumenstock en twa kollega's - Gabriel Cadamuro en Robert On-publisearre in papier yn 'e Science with substantially better results (Blumenstock, Cadamuro, and On 2015) . Der wienen twa wichtige technyske redenen foar dizze ferbettering: (1) se brûkten mear opfiedende metoaden (dus in nije oanpak fan tekeningen en in mear kompleksere model om te bewizen fan 'e funksjes) en (2), mar as it besykje, Untfang fan fragen (bgl. "Hawwe jo in radio?"), besykje se in kompositearre rykdomeksje te ynfoljen. Dizze technyske ferbetterings betsjutte dat se in ridlik berop dwaan kinne om gebrûk fan opnames te brûken om de rykdom foar de minsken te sizzen yn har sampling.
De foarsjenning fan 'e rykdom fan minsken yn' e probe is lykwols net it ultimate doel fan it ûndersyk. Tink derom dat it ultimate doel wie te kombinearjen wat fan 'e bêste funksjes fan samplingsûndersiken en folkstellingen om krekte, heech-oplossings-estimaasjes fan earmoed yn' e ûntwikkeldriezen te meitsjen. Om harren feardigens te evaluearjen om dit doel te realisearjen, brûkten Blumenstock en kollega's har model en har gegevens brûke om de rykdom fan alle 1.5 miljoen minsken yn 'e rufwerken te foarsjen. En se brûkten de geospatiale ynformaasje dy't yn 'e rufwerken ynsteld binne (tink derom dat de gegevens de lokaasje fan' e tichtste seltoertoer foar eltse oanfraach opnommen hawwe) om de unyk plak fan ferbliuw fan elke persoan te beskriuwen (ôfbylding 3.17). It opstellen fan dizze twa skatting yn elkoar, Blumenstock en kollega's hawwe in skatting makke fan 'e geografyske ferdieling fan abonnemint raffing by ekstreem feint romtlikens. Sa kinne se bygelyks de gemiddelde rykdom yn elk fan 2,148 sellen fan Rwanda beskate (de lytste bestjoerlike ienheid yn it lân).
Hoe goed hawwe dizze skatten opnommen mei it wurklik nivo fan earmoed yn dizze regio's? Foardat ik dizze fraach antwurdzje, wol ik it feit betinke dat der in soad redenen binne om skeptysk te wêzen. Bygelyks, de fermogen om predikaasjes op it yndividuele nivo te meitsjen wie moai (figuer 3.17). En, miskien wichtiger, minsken mei mobile tillefoans kinne systematysk ferskille fan minsken sûnder mobile tillefoans. Sa kinne Blumenstock en kollega 's lijt fan' e type fan ferslachfekraten dy't de 1936 Literêre Digestûndersyp ferjaan dat ik earder beskreaun.
Om in gefoel fan 'e kwaliteit fan har skatten te krijen, moatte Blumenstock en kollega's hawwe om har te fergelykjen mei wat oars. Gelokkich, om itselde tiid as har stúdzje, in oare groep ûndersikers lei in mear tradisjonele sosjale enkête yn Ruanda. Dizze oare ûndersiik wie in ûnderdiel fan it programma 'Demografisch en sûnenswittenskip', dy't in protte respektearre wie - in grutte budzjet en brûkt hege kwaliteit, tradisjonele metoaden. De beoardielingen fan 'e Demografyske en sûnensûndersyks kinne dêrom redenien wurde as goudstânskâns beskôge. Doe't de twa skatten fergelykje waarden, wienen sy hiel gewoan (figuer 3.17). Mei oare wurden troch it kombinearjen fan in lyts bedrach fan gegevensgegevens mei de oanroppen opnij, binne Blumenstock en kollega's in fertsjintwurdiging te meitsjen dy't ferlykber binne mei dy fan goud-standert oanwêzigen.
In skeptikus kin dizze resultaten sjen as in teloarstelling. Eftergrûn, ien manier om se te besjen is te sizzen dat troch grutte data en masine learen, Blumenstock en kollega's in soad prizen te meitsjen dy't feiliger wurde kinne troch al besteande metoaden. Mar ik tink net dat it de goeie manier is om te tinke oer dizze stúdzje foar twa redenen. Earst binne de skattingen út Blesserstok en kollega's sawat 10 kear flugger en 50 kear goedkeaper (as de kosten wurde gemiddeld yn betingsten fan variable kosten). As ik earder yn dit haadstik argumentearre, binne de ûndersikers kosten op har gefaar. Yn dit gefal betsjut bygelyks de dramatyske ferfallen fan kosten, dat allinich in pear jier útfierd wurde kin, lykas standert foar Demografyske en sûnensûndersiken - dizze soarte fan survey kinne elke moanne útfierd wurde, dy't in soad foardielen foar ûndersikers en belied makers. De twadde reden om net te besjen fan 'e skeptikus is dat dit ûndersyk in basisreklik biedt dat kinne oanpast wurde oan in protte ferskate ferskaat situaasjes. Dit resepsje hat mar twa yngrediïnten en twa stappen. De yngrediïnten binne (1) in grutte gegevensboarne dy't breed mar dünn is (dus it hat in soad minsken, mar net de ynformaasje dy't jo nedich hat oer elke persoan) en (2) in oersicht dat is smelle, mar dik (it hat allinne mar in pear minsken, mar it hat de ynformaasje dy't jo nedich hawwe oer dy minsken). Dizze yngrediïnten wurde yn twa stappen kombinearre. Earst, foar de minsken yn beide data boarnen, bouwe in masine-learmodel dat de grutte gegevensboarne brûkt om ûndersyksoanfragen te foarsjen. Neist it gebrûk meitsje dat model om 'e ûndersyksûntwikkeling fan elkenien yn' e grutte data boarne te ferwiderjen. As der dan in fraach is dat jo in protte minsken freegje, sykje in grutte gegevensboarne fan dy minsken dy't brûkt wurde om har antwurd tefoaren te praten, sels as jo de soarchfersekering net soarchje . Dat is, Blumenstock en kollega's net harsels sizze oer ruften; Se soargje allinich oer ruften opsjenningen om't se brûkt wurde soene foar ûndersiken fan antwurden dy't se soargen. Dit karakteristike-allinich indirekte belangstelling foar de grutte gegevensboarne makket amplifiseard te freegjen fan ferskate fan ynbêde fragen, dy't ik earder beskreaun.
Yn ôfsluting sil de ferstannige fraachpetear fan Blumenstock kombinearje gegevensgegevens mei in grutte data boarne om skepten te fergelykjen te meitsjen mei dy fan in gouden standert survey. Dit bysûndere foarbyld befettet ek wat fan 'e hannelingen tusken fersterke fragen en tradisjonele ûndersiikmetoaden. De ferplichte fraachstikken wiene hieltyd tichterby, yn essentieel goedkeaper, en mear koartere. Mar, op 'e oare hân, is der noch gjin sterke teoretyske basis foar dizze soarte fan ferplichte fraach. Dit ienige foarbyld lit net sjen wannear't dizze oanpak wurket en wannear't it net sil, en ûndersikers dy't dizze oanpak brûke, moatte benammen dwaande wêze oer mooglike ferlies dy't feroarsake wurde troch wa't opnommen is en wa't net opnommen is yn har grutte gegevensboarne. Fierder hat de amplisearre fraachpakket noch gjin goede manieren om de ûnwissichheid om har skatten te kwantearjen. Gelokkich hat de amplifisearre fraach djippe ferbiningen mei trije grutte gebieten yn 'e statistyk-lytse gebietsôfwizings (Rao and Molina 2015) , ympulaasje (Rubin 2004) , en model-basearre post-stratifikaasje (dy't sels ferbûn is mei Mr. P., de metoade dy't ik earder yn it haadstik beskreaun hat) (Little 1993) . Troch dizze djippe ferbinings ferwachtsje ik dat in soad fan 'e metodyske fûneminten fan ferplichte fragen al gau ferbettere wurde.
As lêste, fergelykjen fan 'e earste en twadde besytse fan Flowersstock, ferwiist ek in wichtige lesson oer sosjale wittenskiplike digitale jierren: it begjin is net de ein. Dat is, in protte kearen, de earste oanpak net de bêste, mar as ûndersikers fierder wurkje, kinne dingen better wurde. Mear algemien, as it evaluearjen fan nije oanpak fan sosjale ûndersiken yn 'e digitale leeftyd, is it wichtich om twa ûnderskate evaluaasjes te meitsjen: (1) Hoe goed wurket dit no? en (2) Hoe goed sil dit wurk yn 'e takomst feroarje as it gegevenslânskip feroaret en as ûndersikers mear omtinken jouwe oan it probleem? Hoewol't ûndersikers trainer binne om de earste soarte fan evaluaasje te meitsjen, is de twadde faak wichtiger.