Amplificat întrebarea folosind un model de predicție pentru a combina datele din sondaj de la câțiva oameni cu o mare sursă de date de la mulți oameni.
O modalitate diferită de a combina sondajul și sursele mari de date este un proces pe care îl voi numi întrebat amplificat . Într-o întrebare amplificată, un cercetător folosește un model predictiv pentru a combina o cantitate mică de date de sondaj cu o sursă mare de date pentru a produce estimări la o scară sau granularitate care nu ar fi posibilă nici cu fiecare sursă de date. Un exemplu important de solicitare amplificată provine din activitatea lui Joshua Blumenstock, care dorea să colecteze date care ar putea ajuta la dezvoltarea în țările sărace. În trecut, cercetătorii colectând astfel de date trebuiau în general să ia una din cele două abordări: anchete prin sondaj sau recensăminte. Sondajele de sondaj, în cazul în care cercetătorii intervievați un număr mic de persoane, pot fi flexibile, la timp și relativ ieftine. Cu toate acestea, aceste anchete, deoarece se bazează pe un eșantion, sunt adesea limitate în rezolvarea lor. Cu ajutorul unui sondaj prin sondaj, este adesea dificil să se facă estimări privind anumite regiuni geografice sau pentru anumite grupuri demografice. Pe de altă parte, recensămintele încearcă să intervieveze pe toată lumea și astfel pot fi folosite pentru a produce estimări pentru regiuni geografice mici sau grupuri demografice. Dar recensămintele sunt, în general, costisitoare, înguste în focare (ele cuprind doar un număr mic de întrebări) și nu în timp util (acestea se întâmplă pe o durată fixă, cum ar fi la fiecare 10 ani) (Kish 1979) . Mai degrabă decât să fiți blocați cu studii de sondaj sau recensăminte, imaginați-vă dacă cercetătorii ar putea combina cele mai bune caracteristici ale ambelor. Imaginați-vă dacă cercetătorii ar putea să pună fiecare întrebare fiecărei persoane în fiecare zi. Evident, acest sondaj omniprezent, întotdeauna, este un fel de fantezie a științei sociale. Dar se pare că putem începe să aproximăm acest lucru prin combinarea întrebărilor anchetei de la un număr mic de oameni cu urme digitale de la mulți oameni.
Studiul realizat de Blumenstock a început atunci când a colaborat cu cel mai mare furnizor de telefonie mobilă din Rwanda, iar compania a înregistrat anonimat înregistrări de tranzacții de la aproximativ 1,5 milioane de clienți între 2005 și 2009. Aceste înregistrări conțin informații despre fiecare apel și mesaj text, cum ar fi timpul de începere, , și locația geografică aproximativă a apelantului și a receptorului. Înainte de a vorbi despre problemele statistice, merită să subliniem că acest prim pas poate fi unul dintre cele mai dificile pentru mulți cercetători. După cum am arătat în capitolul 2, majoritatea surselor de date sunt inaccesibile cercetătorilor. În special, metadatele de date telefonice sunt inaccesibile în special pentru că este practic imposibil de anonimat și aproape sigur conține informații pe care participanții le-ar considera sensibile (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . În acest caz special, cercetătorii au avut grijă să protejeze datele și munca lor a fost supravegheată de o terță parte (adică IRB-ul lor). Voi reveni la aceste aspecte etice în detaliu în capitolul 6.
Blumenstock era interesat de măsurarea bogăției și bunăstării. Dar aceste trăsături nu sunt direct în înregistrările apelurilor. Cu alte cuvinte, aceste înregistrări de apeluri sunt incomplete pentru această cercetare - o caracteristică comună a surselor mari de date care a fost discutată în detaliu în capitolul 2. Cu toate acestea, pare probabil că înregistrările apelurilor au probabil unele informații care ar putea furniza indirect informații despre bogăție și bunăstare. Având în vedere această posibilitate, Blumenstock a întrebat dacă este posibil să se pregătească un model de învățare a mașinilor pentru a anticipa modul în care cineva va răspunde la un sondaj bazat pe înregistrările apelurilor. Dacă acest lucru a fost posibil, atunci Blumenstock ar putea folosi acest model pentru a anticipa răspunsurile anchetei tuturor celor 1,5 milioane de clienți.
Pentru a construi și a pregăti un astfel de model, Blumenstock și asistenții de cercetare de la Institutul de Știință și Tehnologie din Kigali au numit un eșantion aleatoriu de aproximativ o mie de clienți. Cercetătorii au explicat participanților obiectivele proiectului, și-au cerut consimțământul de a lega răspunsurile sondajului la înregistrările apelurilor și apoi le-au adresat o serie de întrebări pentru a-și măsura averea și bunăstarea, cum ar fi "dețineți radio? "și" dețineți o bicicletă? "(vezi figura 3.14 pentru o listă parțială). Toți participanții la sondaj au fost compensați financiar.
Apoi, Blumenstock a folosit o procedură în două etape obișnuită în procesul de învățare a mașinilor: ingineria caracteristică urmată de învățarea supravegheată. În primul rând, în etapa de proiectare , pentru toți cei intervievați, Blumenstock a convertit înregistrările apelurilor într-un set de caracteristici despre fiecare persoană; cercetătorii de date ar putea numi aceste caracteristici "caracteristici", iar oamenii de știință sociali le-ar numi "variabile". De exemplu, pentru fiecare persoană, Blumenstock a calculat numărul total de zile cu activitate, numărul de persoane distincte cu care o persoană a fost în contact, suma de bani cheltuite pe timpul de difuzare și așa mai departe. Din punct de vedere critic, ingineria de caracteristici bune necesită cunoașterea setării de cercetare. De exemplu, dacă este important să se facă distincția între apelurile interne și internaționale (ne putem aștepta ca persoanele care fac apel la nivel internațional să fie mai bogate), atunci acest lucru trebuie făcut la etapa de proiectare. Un cercetător cu puțină înțelegere față de Rwanda ar putea să nu includă această caracteristică, iar apoi performanța predictivă a modelului ar suferi.
În continuare, în etapa de învățare supravegheată , Blumenstock a construit un model pentru a anticipa răspunsul la sondaj pentru fiecare persoană pe baza funcțiilor sale. În acest caz, Blumenstock folosea regresia logistică, dar ar fi putut folosi o varietate de alte abordări statistice sau de învățare în mașină.
Deci, cât de bine a funcționat? A fost Blumenstock capabil să prezică răspunsuri la întrebările de anchetă precum "dețineți un radio?" Și "dețineți o bicicletă?" Folosind caracteristici derivate din înregistrările apelurilor? Pentru a evalua performanța modelului său predictiv, Blumenstock a folosit validarea încrucișată , o tehnică frecvent utilizată în știința datelor, dar rareori în știința socială. Scopul validării încrucișate este de a oferi o evaluare corectă a performanței predictive a unui model, prin instruirea acestuia și testarea acestuia pe diferite subseturi de date. În special, Blumenstock și-a împărțit datele în 10 bucăți de câte 100 de persoane. Apoi, el a folosit nouă bucăți pentru a-și instrui modelul, iar performanța predictivă a modelului instruit a fost evaluată pe piesa rămasă. El a repetat această procedură de 10 ori - fiecare bucată de date a obținut un rând ca date de validare - și a măsurat rezultatele.
Precizia predicțiilor a fost ridicată pentru unele trăsături (figura 3.14); de exemplu, Blumenstock ar putea prezice cu o precizie de 97,6% dacă cineva deținea un radio. Acest lucru ar putea părea impresionant, dar este întotdeauna important să comparăm o metodă predictivă complexă cu o alternativă simplă. În acest caz, o alternativă simplă este de a prezice că toată lumea va da răspunsul cel mai comun. De exemplu, 97,3% dintre respondenți au raportat că dețin un radiou, astfel încât dacă Blumenstock ar fi prezis că toată lumea ar raporta că deține un radio ar fi avut o precizie de 97,3%, ceea ce este surprinzător de similar cu performanța procedurii sale mai complexe (acuratețe 97,6% . Cu alte cuvinte, toate datele fanteziste și modelarea au crescut precizia predicției de la 97,3% la 97,6%. Cu toate acestea, pentru alte întrebări, cum ar fi "dețineți o bicicletă?", Previziunile s-au îmbunătățit de la 54,4% la 67,6%. În general, figura 3.15 arată că pentru unele trăsături Blumenstock nu sa îmbunătățit mult dincolo de simpla predicție a liniei de bază, dar că pentru alte trăsături a existat o îmbunătățire. Privind doar la aceste rezultate, cu toate acestea, s-ar putea să nu credeți că această abordare este deosebit de promițătoare.
Cu toate acestea, doar un an mai târziu, Blumenstock și doi colegi - Gabriel Cadamuro și Robert On - au publicat o lucrare în știință cu rezultate substanțial mai bune (Blumenstock, Cadamuro, and On 2015) . Au existat două motive tehnice principale pentru această îmbunătățire: (1) au folosit metode mai sofisticate (adică o nouă abordare a ingineriei caracteristicilor și a unui model mai sofisticat pentru a anticipa răspunsurile de la caracteristici) și (2) mai degrabă decât încercarea de a deduce răspunsuri la întrebări individuale (de exemplu, "dețineți un post de radio?"), au încercat să deducă un indice al bogăției compuse. Aceste îmbunătățiri tehnice au însemnat că ar putea face o muncă rezonabilă de a folosi înregistrările apelurilor pentru a prezice bogăția oamenilor din eșantion.
Cu toate acestea, prezicerea bogăției oamenilor din eșantion nu a fost scopul final al cercetării. Amintiți-vă că obiectivul final a fost combinarea unora dintre cele mai bune trăsături ale anchetelor și recensămintelor pentru a produce estimări precise și de înaltă rezoluție a sărăciei în țările în curs de dezvoltare. Pentru a evalua capacitatea lor de a atinge acest obiectiv, Blumenstock și colegii și-au folosit modelul și datele pentru a prezice bogăția tuturor celor 1,5 milioane de persoane din înregistrările apelurilor. Și au folosit informațiile geospațiale încorporate în înregistrările apelurilor (reamintesc că datele au inclus locația celui mai apropiat turn celular pentru fiecare apel) pentru a estima locația aproximativă de reședință a fiecărei persoane (figura 3.17). Punând aceste două estimări împreună, Blumenstock și colegii au realizat o estimare a distribuției geografice a bogăției abonaților la o granularitate spațială extrem de fină. De exemplu, aceștia ar putea estima averea medie în fiecare dintre cele 2 148 de celule din Rwanda (cea mai mică unitate administrativă din țară).
Cât de bine s-au corelat aceste estimări cu nivelul real al sărăciei din aceste regiuni? Înainte de a răspunde la această întrebare, vreau să subliniez faptul că există multe motive să fii sceptic. De exemplu, abilitatea de a face predicții la nivel individual a fost destul de zgomotos (figura 3.17). Și, poate, mai important, persoanele cu telefoane mobile ar putea fi sistematic diferite de persoanele fără telefoane mobile. Astfel, Blumenstock și colegii ar putea suferi de tipurile de erori de acoperire care au influențat sondajul Literary Digest din 1936 pe care l-am descris mai devreme.
Pentru a obține un sentiment al calității estimărilor lor, Blumenstock și colegii au avut nevoie să le compare cu altceva. Din fericire, în același timp cu studiul lor, un alt grup de cercetători conducea o cercetare socială mai tradițională în Rwanda. Acest alt studiu - care face parte din programul de cercetare demografic și de sănătate foarte respectat - a avut un buget mare și a folosit metode tradiționale de înaltă calitate. Prin urmare, estimările din Studiul privind demografia și sănătatea ar putea fi considerate, în mod rezonabil, estimări standard pentru aur. Când cele două estimări au fost comparate, ele erau destul de similare (figura 3.17). Cu alte cuvinte, prin combinarea unei cantități mici de date de anchetă cu înregistrările apelurilor, Blumenstock și colegii au reușit să producă estimări comparabile cu cele de la abordările standard de aur.
Un sceptic ar putea vedea aceste rezultate ca o dezamăgire. La urma urmei, o modalitate de a le vizualiza este de a spune că prin utilizarea datelor mari și a învățării în mașină, Blumenstock și colegii au putut să producă estimări care ar putea fi făcute mai fiabil prin metode deja existente. Dar nu cred că este modul potrivit de a gândi acest studiu din două motive. În primul rând, estimările de la Blumenstock și colegii lor au fost de aproximativ 10 ori mai rapide și de 50 de ori mai ieftine (când costul este măsurat în termeni de costuri variabile). Așa cum am susținut mai devreme în acest capitol, cercetătorii ignoră costurile la riscul lor. În acest caz, de exemplu, scăderea dramatică a costurilor înseamnă că, mai degrabă decât să fie derulată la fiecare câțiva ani - așa cum este standard pentru anchetele demografice și de sănătate - acest tip de sondaj ar putea fi realizat în fiecare lună, ceea ce ar oferi numeroase avantaje pentru cercetători și politici factorii de decizie. Cel de-al doilea motiv pentru a nu lua punctul de vedere al scepticului este că acest studiu oferă o rețetă de bază care poate fi adaptată la multe situații de cercetare diferite. Această rețetă are doar două ingrediente și două etape. Ingredientele sunt (1) o mare sursă de date care este largă, dar subțire (adică are mulți oameni, dar nu informațiile de care aveți nevoie despre fiecare persoană) și (2) un studiu îngust, dar gros (adică are doar câțiva oameni, dar are informațiile de care aveți nevoie despre acei oameni). Aceste ingrediente sunt apoi combinate în două etape. În primul rând, pentru persoanele din ambele surse de date, construiți un model de învățare a mașinilor care utilizează sursa mare de date pentru a prezice răspunsurile la sondaj. Apoi, utilizați acest model pentru a imputa răspunsurile anchetei tuturor celor din sursa mare de date. Astfel, dacă există o întrebare pe care doriți să o întrebați o mulțime de oameni, căutați o mare sursă de date de la acei oameni care ar putea fi folosite pentru a prezice răspunsul lor, chiar dacă nu vă pasă de marele sursă de date . Adică Blumenstock și colegii nu au avut grijă în mod inerent de înregistrările apelurilor; le păsa doar despre înregistrările apelurilor deoarece ar putea fi utilizate pentru a prezice răspunsurile la sondaj pe care le păsa. Acest interes caracteristic doar indirect în marea sursă de date face ca întrebările amplificate să fie diferite de întrebările încorporate, pe care le-am descris mai devreme.
În concluzie, abordarea amplificată a solicitării de către Blumenstock a combinat datele sondajului cu o sursă mare de date pentru a produce estimări comparabile cu cele obținute în urma unui sondaj de tip aur. Acest exemplu specific clarifică și unele dintre compromisurile între metodele de cercetare amplificate și cele tradiționale. Estimările solicitate amplificate au fost mai timpurii, substanțial mai ieftine și mai granuloase. Dar, pe de altă parte, nu există încă o bază teoretică puternică pentru acest tip de întrebări amplificate. Acest exemplu unic nu arată când această abordare va funcționa și când nu va fi și cercetătorii care folosesc această abordare trebuie să fie preocupați în special de posibilele prejudecăți cauzate de cine este inclus și care nu este inclus în sursa mare de date. În plus, abordarea amplificată a solicitării nu are încă modalități bune de a cuantifica incertitudinea în jurul estimărilor sale. Din fericire, întrebările amplificate au legături profunde cu trei mari zone statistice - estimarea zonelor mici (Rao and Molina 2015) , imputarea (Rubin 2004) și post-stratificare bazată pe model (care este strâns legată de domnul P., metoda pe care am descris-o mai devreme în capitol) (Little 1993) . Din cauza acestor legături profunde, mă aștept ca multe dintre temelile metodologice ale întrebărilor amplificate să fie în curând îmbunătățite.
În cele din urmă, compararea primelor și a doua încercări ale lui Blumenstock ilustrează de asemenea o lecție importantă despre cercetarea socială a vârstei digitale: începutul nu este sfârșitul. Adică, de multe ori, prima abordare nu va fi cea mai bună, dar dacă cercetătorii continuă să lucreze, lucrurile se pot îmbunătăți. În general, în evaluarea noilor abordări ale cercetării sociale în era digitală, este important să se facă două evaluări distincte: (1) Cât de bine funcționează acum? și (2) Cât de bine va funcționa acest lucru în viitor, pe măsură ce se schimbă peisajul datelor și dacă cercetătorii acordă mai multă atenție problemei? Deși cercetătorii sunt instruiți să facă primul tip de evaluare, al doilea este adesea mai important.