Kunligi vian enketon al ciferecaj spuroj povas esti kiel demandanta ĉiuj viaj demandoj cxiam.
Demandante ĝenerale venas en du ĉefaj kategorioj: specimeno enketoj kaj censoj. Specimeno enketoj, kie vi aliras malgranda nombro da homoj, povas esti fleksebla, oportuna kaj relative malmultekosta. Tamen, specimenaj enketoj, ĉar ili baziĝas sur provaĵo, ofte limigitaj en sia rezolucio; kun specimeno enketo, estas ofte malfacile fari taksojn pri specifaj geografiaj regionoj aŭ por specifaj demografiaj grupoj. Censoj, aliflanke, provis intervjui ĉiuj en la loĝantaro. Ili havas grandan rezolucion, sed ili estas ĝenerale multekostaj, mallarĝa en fokuso (ili nur inkludas malgrandan nombron de demandoj), kaj ne oportuna (ili okazos sur fiksa horaro, kiel ĉiu 10 jaroj) (Kish 1979) . Nun imagu se esploristoj povis kombini la pli bonajn karakterizaĵojn de specimeno enketoj kaj censoj; imagu se esploristoj povis demandi ĉiun demandon al ĉiuj ĉiutage.
Evidente, tiu konstanta, ĉiea, ĉiam-sur enketo estas speco de socia scienco fantazio. Sed ŝajnas ke ni povas komenci aproksimi tiun kombinante enketo demandoj de malgranda nombro da homoj kun cifereca spuroj de multaj personoj. Mi nomas tiun tipon de kombino amplifita petas. Se bone faris, ĝi povus helpi al ni provizas takson ke estas pli loka (por pli malgrandaj geografiaj areoj), pli granular (por specifaj demografiaj grupoj), kaj pli oportuna.
Unu ekzemplo de amplifita demandante devenas la verkon de Josuo Blumenstock, kiu volis kolekti datumojn kiuj helpus gvidas evoluo en malriĉaj landoj. Pli specife, Blumenstock volis krei sistemon por mezuri riĉeco kaj bonstato kiu kombinis la kompleteco de Kalkulu kun la flekseblecon kaj ofteco de enketo (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Fakte, mi jam priskribis Blumenstock laboro brevemente en Ĉapitro 1.
Komenci, Blumenstock partnerita kun la plej granda movebla telefono provizanto en Ruando. La kompanio provizis lin anonymized transakcio vidaĵoj el proksimume 1.5 milionojn klientoj kovrante konduto de 2005 kaj 2009. La ŝtipoj enhavas informojn pri ĉiu alvoko kaj tekstmesaĝo kiel la komenco tempo, daŭro, kaj proksimuma geografia loko de la telefonanto kaj ricevilo. Antaŭ ni komencas paroli pri la statistikaj temoj, ĝi valoras markante ke ĉi tiu unua paŝo estu unu el la plej malfacilaj. Kiel priskribite en Ĉapitro 2, plej ciferecan spuron datumoj estas nealirebla al esploristoj. Kaj multaj entreprenoj estas prave hezitema dividi liajn datumojn ĉar ĝi estas privata; ke estas iliaj klientoj probable ne atendis ke liaj diskoj estos dividita en ŝvelaĵo-kun esploristoj. En tiu kazo, la esploristoj prenis zorgema paŝoj al anonymize la datumoj kaj prilaboriteco estis kontrolitaj fare de triaj (te ilia IRB). Sed, malgraŭ tiuj klopodoj, tiuj datumoj estas probable ankoraŭ identigebla kaj ili probable enhavas konfidencajn informojn (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Mi revenos al ĉi tiuj etikaj demando en Ĉapitro 6.
Memoru ke Blumenstock interesata en mezuranta riĉeco kaj bonstato. Sed ĉi tiuj trajtoj ne rekte en la alvoko rekordojn. Alivorte, tiuj alvoko rekordoj estas nekompletaj por tiu esploro, komuna trajto de ciferecaj spuroj kiuj estis diskutitaj en detalo en Ĉapitro 2. Sed, ŝajnas verŝajne ke la alvoko registroj probable havas iun informon pri riĉeco kaj bonstato. Do, unu maniero de demandi Blumenstock demando povus esti: ĉu eblas antaŭdiri kiom iu respondos al enketo bazita sur ilia diĝita spuro datumoj? Se jes, tiam Petante kelkaj homoj povas diveni la respondojn de ĉiuj aliaj.
Taksi ĉi empirie, Blumenstock kaj esploro helpantoj de Kigali Instituto de Scienco kaj Teknologio nomita specimeno de cxirkaux mil poŝtelefono klientoj. La investigadores klarigis la celojn de la projekto al la partoprenantoj, petis ilian konsenton ligas la enketo respondojn al la alvoko rekordoj, kaj demandis ilin serion de demandoj por mezuri ilian riĉecon kaj bonfarton, kiel ekzemple "Ĉu vi posedas radioaparato? "kaj" Ĉu vi posedas biciklon? "(vidu Figuro 3.11 por parta listo). Ĉiuj partoprenantoj en la enketo estis kompensita finance.
Sekva, Blumenstock uzis du-paŝo proceduro komuna en datumoj scienco: trajto inĝenierio sekvis kontrolita lernado. Unue, en la trajto inĝenierio paŝo, por ĉiuj kiu estis intervjuita, Blumenstock konvertis la alvoko rekordojn en aron de karakterizaĵoj pri ĉiu persono; datumoj sciencistoj povus nomi tiujn karakterizaĵojn "trajtoj" kaj sociaj sciencistoj nomas ilin "variabloj." Ekzemple, por ĉiu persono, Blumenstock kalkulita totala nombro de tagoj kun aktiveco, la kvanto de diversaj personoj persono estis en kontakto kun la kvanto de mono elspezita sur airtime, kaj tiel plu. Kritike, bona karakterizaĵo inĝenieristiko postulas konon de la esploro fikso. Ekzemple, se estas grave distingi inter hejmaj kaj internaciaj alvokoj (ni povus atendi homoj kiuj nomas internacie esti riĉaj), tiam ĉi devas esti farita en la trajto inĝenierio paŝo. La investigador kun malmulta kompreno de Ruando eble ne inkludas ĉi trajto, kaj tiam la prognoza efikeco de la modelo suferos.
Tuj poste, en la kontrolita lernado paŝo, Blumenstock konstruita statistika modelo por antaŭdiri la enketo respondo por ĉiu persono bazita sur iliaj trajtoj. Tiukaze, Blumenstock uzita logistika malprogreso kun 10-obla transversa validación, sed li povus uzi diversajn aliajn statistikaj aŭ maŝino lernado aliroj.
Tiom kiom bone tio funkcias? Estis Blumenstock povis antaŭdiri respondojn al enketo demandoj kiel "Ĉu vi posedas radioaparaton?" Kaj "Ĉu vi posedas biciklon?" Uzante karakterizaĵoj derivita de alvoko rekordojn? Ia. La precizeco de la prognozoj estis altaj por kelkaj trajtoj (Figuro 3.11). Sed, ĝi estas ĉiam grava por kompari kompleksa antaŭdiro metodo kontraŭ simpla alternativo. En tiu kazo, simpla alternativo estas antaŭdiri ke ĉiuj donos la plej komuna respondo. Ekzemple, 97,3% raportis posedi radioaparaton do se Blumenstock antaŭdiris ke ĉiuj raportus posedi radioaparaton li devintus precizeco de 97,3%, kiu estas surprize simila al la agado de sia pli kompleksa proceduro (97.6% precizeco). Alivorte, ĉiuj fancy datumoj kaj modelado pliigis la precizecon de la prognozo de 97,3% al 97,6%. Tamen, por aliaj demandoj, kiel ekzemple "Ĉu vi posedas biciklon?", La antaŭdiroj plibonigita de 54.4% al 67.6%. Pli ĝenerale, Figuro 3.12 spektakloj por iu trajtojn Blumenstock ne plibonigis multe preter simple farante la simpla bazo antaŭdiro, sed por aliaj trajtoj ekzistis iu plibonigo.
Ĉe tiu punkto vi eble pensas ke tiuj rezultoj estas iom decepcionante, sed nur unu jaron poste, Blumenstock kaj du kolegoj-Gabriel Cadamuro kaj Robert Sur- eldonis artikolon en Scienco kun substance pli bonajn rezultojn (Blumenstock, Cadamuro, and On 2015) . Ekzistis du ĉefaj teknikaj kialoj por la plibonigo: 1) oni uzis pli kompleksan metodoj (te nova alproksimiĝo reliefiganta inĝenierio kaj pli kompleksa maŝino lernado modelo) kaj 2) anstataŭ provante dedukti respondoj al individua enketo demandoj (ekz, "Ĉu vi posedas radioaparaton?"), ili provis dedukti komponigita riĉeco indekso.
Blumenstock kaj kolegoj montris la elfaro de ilia alproksimiĝo dumaniere. Unue, ili trovis ke la personoj en ilia provaĵo, ili povis fari sufiĉe bonan laboron de antaŭdiri ilian riĉecon de alvoko registroj (Figuro 3.14). Dua, kaj pli kaj pli grave, Blumenstock kaj kolegoj montris ke ilia proceduro povis produkti altkvalitan taksoj de la geografia distribuo de riĉeco en Ruando. Pli specife, oni uzis ilian maŝinon lerna modelo, kiu estis trejnita sur ilia provaĵo de proksimume 1,000 homoj, antaŭdiri la riĉeco de ĉiu 1,5 milionoj da homoj en la alvoko rekordojn. Plui, kun la Geospatial datumoj enigita en la nomita datumoj (memoru ke la alvoko datumoj inkludas la lokon de la plej proksima ĉelo turo por ĉiu alvoko), la investigadores estis kapablaj de taksi la proksimuma loko de restadejo de ĉiu persono. Metante tiujn du taksoj kune, la esploro produktis takson de la geografia distribuo de abonanto riĉeco en ekstreme bona spaca granularidad. Ekzemple, ili povis estimi la duonan riĉecon en ĉiu de Ruando la 2148 ĉelojn (la plej malgranda administra unuo en la lando). Tiuj antaŭdiris riĉeco valoroj tiom granular ili malfacile kontroli. Do, la esploristoj agregita iliajn rezultojn produkti taksojn de la mezumo riĉeco de Ruando la 30an distriktoj. Tiuj distrikto-nivelo taksoj estis forte rilata al la taksoj de oro tradicia enketo, la ruanda Demografia kaj Health Survey (Figuro 3.14). Kvankam la taksoj de la du fontoj estis similaj, la taksoj de Blumenstock kaj kolegoj estis proksimume 50 fojojn pli malmultekosta kaj 10 fojoj pli rapida (kiam kosto en mezurita en terminoj de variablo kostoj). Tiu drama malkresko en kosto signifas ke prefere ol estado kuri ĉiu malmultaj jaroj-kiel estas normo por Demografia kaj Health Surveys-la híbrido de malgranda enketo kombinita kun granda diĝita spuro datumoj povus kuri ĉiu monato.
En konkludo, Blumenstock la amplifita petante alproksimiĝo kombinita enketo datumoj kun cifereca spuro datumoj produkti taksojn komparebla kun oro-normo enketo taksoj. Tiu aparta ekzemplo ankaŭ klarigas iujn de la komerco-offs inter amplifita demandante kaj tradicia enketo metodoj. Unue, la amplifita petante taksoj estis pli oportuna, substance malkara kaj pli granular. Sed, aliflanke, ĉe tiu tempo, ne ekzistas fortaj teoria bazo por tiu speco de amplifita demandante. Kiu, tiu ekzemplo ne montras kiam ĝi funkcios kaj kiam ne. Plui, la amplifita demandante alproksimiĝo ankoraŭ ne havas bonajn manierojn kvantigi necerteco ĉirkaŭ ĝia taksoj. Tamen, amplifita demandante havas profundajn ligojn al tri grandaj areoj en statistiko-modelo bazita post-tavoliĝo (Little 1993) , imputación (Rubin 2004) , kaj malgranda areo taksado (Rao and Molina 2015) -Kaj tial mi atendas ke progreso volo esti rapida.
Amplifita demandante sekvas bazan recepton kiu eblas adaptita al via aparta situacio. Estas du ingrediencoj kaj du paŝoj. La du ingrediencoj estas 1) cifereca spuro dataset kiu estas larĝa sed maldikaj (tio estas, ĝi havas multaj personoj sed ne la informo kiun vi bezonas sur ĉiu personoj) kaj 2) enketo kiu estas mallarĝa sed dikaj (tio estas, ĝi havas nur kelkaj homoj, sed ĝi havas la informon ke vi bezonas pri tiuj personoj). Tiam, estas du paŝojn. Unue, ĉar la popolo en ambaŭ datumoj fontoj, konstrui maŝinon lerna modelo kiu uzas ciferecan spuron datumoj antaŭdiri enketo respondojn. Sekva, uzi tiun maŝinon lerna modelo atribui la enketo respondojn de ĉiuj en la cifereca spuro datumoj. Tiel, se ekzistas iu demando kiun vi volas demandi al multaj homoj, serĉi ciferecan spuron datumojn de tiuj homoj, kiuj povus esti uzitaj por antaŭdiri ilian respondon.
Komparante Blumenstock unua kaj dua provo ĉe la problemo ankaŭ ilustras gravan lecionon pri la transiro de dua estis triono estis alproksimiĝojn por inspekti esploradon: la komenco ne estas la fino. Kiu, multaj fojoj, la unua alproksimiĝo ne estos la plej bona, sed se esploristoj daŭrigi laborante, aĵoj povas akiri pli bonan. Pli ĝenerale, kiam pritaksanta novajn alirojn al sociaj esploroj en la cifereca erao, estas grave fari du apartajn evaluaciones: 1) kiom bone tio funkcias nun kaj 2) kiom bone vi pensas ĉi povus labori en la estonteco kiel la datumoj pejzaĝo ŝanĝoj kaj kiel esploristoj dediĉi pli da atento al la problemo. Kvankam, esploristoj estas trejnitaj por fari la unua speco de takso (kiel bona estas tiu aparta peco de esplorado), la dua estas ofte pli grava.