Paaugstināts, pieprasot izmantot prognozēšanas modeli, lai apvienotu aptauju datus no dažiem cilvēkiem ar lielu datu avotu no daudziem cilvēkiem.
Cits veids, kā apvienot aptauju un lielus datu avotus, ir process, ko es saucu par pastiprinātu jautājumu . Paplašinātā jautājumā pētnieks izmanto prognozēšanas modeli, lai apvienotu nelielu aptaujas datu apjomu ar lielu datu avotu, lai iegūtu aprēķinus mērogā vai detalizācijā, kas nebūtu iespējami atsevišķi no viena datu avota. Svarīgs piemērs pastiprinātai prasībai nāk no Joshua Blumenstock darba, kurš vēlējās apkopot datus, kas varētu palīdzēt attīstīt nabadzīgās valstis. Agrāk pētniekiem, kas vāca šāda veida datus, parasti bija jāizmanto viena no divām pieejām: izlases veida apsekojumi vai skaitīšanas. Izlases aptaujas, kurās pētnieki intervē nelielu skaitu cilvēku, var būt elastīgi, savlaicīgi un salīdzinoši lēti. Tomēr šie apsekojumi, jo tie ir balstīti uz paraugu, bieži ir ierobežoti to izšķirtspējā. Ar izlases apsekojumu bieži vien ir grūti veikt aprēķinus par konkrētiem ģeogrāfiskiem reģioniem vai noteiktām demogrāfiskām grupām. No otras puses, cenzē mēģinājumi intervēt ikvienu, un tāpēc tos var izmantot, lai iegūtu aprēķinus maziem ģeogrāfiskiem reģioniem vai demogrāfiskajām grupām. Taču skaitīšana parasti ir dārga, šaurāka (tie ietver tikai nedaudzus jautājumus), nevis savlaicīgi (notiek pēc noteiktā grafika, piemēram, ik pēc 10 gadiem) (Kish 1979) . Nevis iestrēdzis izlases apsekojumos vai skaitļošanas procesos, iedomājieties, vai pētnieki varētu apvienot abus labākās īpašības. Iedomājieties, ja pētnieki katru dienu varētu jautāt katru jautājumu katram cilvēkam. Acīmredzot šis visuresošais, pastāvīgais pētījums ir sava veida sociālās zinātnes fantāzija. Bet šķiet, ka mēs varam sākt to tuvināt, apvienojot aptaujas jautājumus no neliela skaita cilvēku ar digitālo pēdas no daudziem cilvēkiem.
Blūmenstoka pētījums sākās, kad viņš sadarbojās ar lielāko mobilo tālruņu pakalpojumu sniedzēju Ruandā, un uzņēmums no 2005. līdz 2009. gadam sniedza anonīmus darījumu datus no aptuveni 1,5 miljoniem klientu. Šie ieraksti satur informāciju par katru zvanu un īsziņu, piemēram, sākuma laiku, ilgumu , un aptuvens zvanītāja un saņēmēja ģeogrāfiskais novietojums. Pirms es runāju par statistikas jautājumiem, ir vērts norādīt, ka šis pirmais solis var būt viens no visgrūtākajiem daudziem pētniekiem. Kā es aprakstīju 2. nodaļā, vairums lielo datu avotu ir nepieejami pētniekiem. Jo īpaši, telefona metadatu dati ir īpaši nepieejami, jo anonīmi ir gandrīz neiespējami, un gandrīz noteikti ir informācija, ko dalībnieki uzskata par jutīgiem (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Šajā konkrētajā gadījumā pētnieki rūpīgi aizsargāja datus, un viņu darbu kontrolēja trešā puse (ti, to IRB). Es atgriezīšos pie šiem ētikas jautājumiem sīkāk 6. nodaļā.
Blūmenstoks bija ieinteresēts vērtēt bagātību un labsajūtu. Bet šīs īpašības nav tieši zvana ierakstos. Citiem vārdiem sakot, šie zvana ieraksti ir nepilnīgi šim pētījumam - lielu datu avotu kopēja iezīme, kas detalizēti tika apspriesta 2. nodaļā. Tomēr šķiet, ka sarunu ierakstiem, iespējams, ir kāda informācija, kas var netieši sniegt informāciju par bagātību un labklājība. Ņemot vērā šo iespēju, Blūmenstoks jautāja, vai ir iespējams apmācīt mašīnu mācību modeli, lai prognozētu, kā kāds reaģēs uz aptauju, pamatojoties uz viņu zvana ierakstiem. Ja tas būtu iespējams, tad Blumenstock varētu izmantot šo modeli, lai prognozētu visu 1,5 miljonu klientu aptaujas atbildes.
Lai izveidotu un apmācītu šādu modeli, Blumenstock un zinātniskie asistenti no Kigali Zinātnes un tehnoloģijas institūta sauc par nejauši atlasītu apmēram tūkstošu klientu. Pētnieki paskaidroja projekta mērķus dalībniekiem, lūdza viņu piekrišanu saistīt aptaujas atbildes ar sarunu ierakstiem un pēc tam uzdeva viņiem virkni jautājumu, lai novērtētu viņu bagātību un labklājību, piemēram, "Vai jums pieder radio? "un" Vai jums pieder velosipēds? "(sk. 3.14. attēlu daļējai sarakstei). Visi apsekojuma dalībnieki tika finansiāli kompensēti.
Tālāk Blumenstock izmantoja divu pakāpju procedūru, kas ir kopīga mašīnzinībās: funkciju inženierija, kam seko uzrauga mācīšanās. Pirmkārt, funkciju inženierijas solī visiem, kas tika intervēti, Blumenstock pārveidoja zvanu ierakstus par katras personas īpašību kopumu; datu zinātnieki varētu saukt šīs īpašības "īpašības" un sociologi tos sauc par "mainīgajiem lielumiem". Piemēram, katrai personai Blūmenstoks aprēķināja kopējo dienu skaitu ar aktivitāti, atsevišķu cilvēku skaitu, ar kuriem persona ir sazinājusies, nauda, kas iztērēta par laiku, un tā tālāk. Kritiski, labas funkciju inženierija prasa zināšanas par izpētes iestatījumu. Piemēram, ja ir svarīgi atšķirt vietējos un starptautiskos zvanus (mēs varam sagaidīt, ka cilvēki, kas zvana starptautiskā līmenī, ir bagātāki), tad tas jādara, veicot funkciju inženierijas darbību. Pētnieks ar mazu izpratni par Ruandu var neiekļaut šo funkciju, un tad cietīs modeļa paredzamā veiktspēja.
Tālāk, uzraudzītajā mācību stadijā, Blumenstock izveidoja modeli, lai prognozētu katras personas aptaujas atbildi, pamatojoties uz to funkcijām. Šajā gadījumā Blumenstock izmantoja loģistikas regresiju, taču viņš varēja izmantot dažādas statistikas vai mašīntulkošanas metodes.
Tātad, cik labi tas darbojas? Vai Blumenstock spēja paredzēt atbildes uz aptaujas jautājumiem, piemēram, "Vai jums pieder radio?" Un "Vai jums pieder velosipēds?", Izmantojot funkcijas, kas iegūtas no zvanu ierakstiem? Lai novērtētu viņa prognozēšanas modeļa veiktspēju, Blumenstock izmantoja krustenisko validāciju - metodi, ko parasti izmanto datu zinātnēs, bet reti - sociālajās zinātnēs. Kross-validācijas mērķis ir nodrošināt godīgu modeļa prognozējošo darbību novērtējumu, to apmācot un testējot dažādās datu apakšgrupās. Jo īpaši Blumenstock sadalīja savus datus 10 gabalos pa 100 cilvēkiem katrā. Tad viņš izmantoja deviņus gabalus, lai apmācītu savu modeli, un apmācītā modeļa paredzamā darbība tika novērtēta uz atlikušo rindu. Viņš šo procedūru atkārtojis 10 reizes - katru datu rindu iegūstot vienu pagriezienu kā validācijas datus un vidējo rezultātu.
Dažām pazīmēm prognozēšanas precizitāte bija augsta (3.14. Attēls); piemēram, Blumenstock varētu prognozēt ar 97,6% precizitāti, ja kāds pieder radio. Tas varētu izklausīties iespaidīgi, taču vienmēr ir svarīgi salīdzināt sarežģītu prognozēšanas metodi ar vienkāršu alternatīvu. Šajā gadījumā vienkārša alternatīva ir prognozēt, ka viss notiks visbiežāk. Piemēram, 97,3% respondentu paziņoja, ka viņiem pieder radio, tādēļ, ja Blūmenstoks būtu paredzējis, ka visi ziņos, ka viņam pieder radio, viņam būtu precizitāte 97,3%, kas ir pārsteidzoši līdzīgs sarežģītākas procedūras rezultātam (97,6% precizitāte) . Citiem vārdiem sakot, visi iedomātā dati un modelēšana palielināja prognozes precizitāti no 97,3% līdz 97,6%. Tomēr attiecībā uz citiem jautājumiem, piemēram, "Vai jums pieder velosipēds?", Prognozes uzlabojās no 54,4% līdz 67,6%. Kopumā 3.15. Attēlā redzams, ka dažu iezīmju gadījumā Blumenstock neuzlabojās daudz tālāk, nekā vienkāršs sākotnējais prognoze, bet attiecībā uz citām iezīmēm bija daži uzlabojumi. Tomēr, ņemot vērā šos rezultātus, jūs, iespējams, nedomājat, ka šī pieeja ir īpaši daudzsološa.
Tomēr tikai vienu gadu vēlāk Blūmenstoks un divi kolēģi - Gabriels Kadamuurs un Roberts Ons - publicēja zinātnisko darbu ar ievērojami labākiem rezultātiem (Blumenstock, Cadamuro, and On 2015) . Šim uzlabojumam bija divi galvenie tehniskie iemesli: (1) viņi izmantoja sarežģītākas metodes (ti, jauna pieeja funkciju inženierijai un sarežģītāks modelis, lai prognozētu reakcijas no pazīmēm) un (2), nevis mēģinājums secināt atbildes uz atsevišķiem Aptaujas jautājumi (piemēram, "Vai jums pieder radio?"), viņi mēģināja secināt jauktu bagātības indeksu. Šie tehniskie uzlabojumi nozīmēja, ka viņi var veikt saprātīgu darbu, izmantojot zvanu arhīvu, lai prognozētu viņu izlasē esošo iedzīvotāju bagātību.
Tomēr izlases cilvēku bagātības prognozēšana nebija pētījuma galvenais mērķis. Atcerieties, ka galvenais mērķis bija apvienot dažas no labākajām izlases veida apsekojumu un skaitīšanas metodēm, lai izstrādātu precīzas, augstas izšķirtspējas aprēķinus par nabadzību jaunattīstības valstīs. Lai novērtētu viņu spēju sasniegt šo mērķi, Blūmenstoks un viņa kolēģi izmantoja savu modeli un savus datus, lai prognozētu visu 1,5 miljonu cilvēku bagātību sarunu ierakstos. Un viņi izmantoja ģeotelpisko informāciju, kas iekļauta sarunu ierakstos (atgādināt, ka dati ietvēra tuvākā šūnu torņa atrašanās vietu katram zvanam), lai novērtētu katras personas aptuveno dzīvesvietu (3.17. Attēls). Izmantojot abus aprēķinus kopā, Blūmenstoks un viņa kolēģi sagatavoja aplēsi par abonentu bagātības ģeogrāfisko izplatību, izmantojot ļoti smalkas telpiskās detalizācijas pakāpes. Piemēram, viņi varētu novērtēt vidējo bagātību katrā Ruandas 2 148 šūnās (valsts mazākā administratīvā vienība).
Cik lielā mērā šīs aplēses saskan ar faktisko nabadzības līmeni šajos reģionos? Pirms es atbildu uz šo jautājumu, es vēlos uzsvērt to, ka ir daudz iemeslu, kas būtu skeptiski. Piemēram, spēja veikt prognozes individuālā līmenī bija diezgan skaļš (3.17. Attēls). Un, varbūt vēl svarīgāk, cilvēki ar mobilajiem telefoniem var sistemātiski atšķirties no cilvēkiem bez mobilajiem telefoniem. Tādējādi Blumenstock un viņa kolēģi varētu ciest no pārklājuma kļūdu veidiem, kas neobjektīvi aprakstīja iepriekš aprakstīto 1936. gada Literārā Digesta aptauju.
Lai iegūtu izpratni par viņu aplēsēm, Blūmenstokam un kolēģiem vajadzēja tos salīdzināt ar kaut ko citu. Par laimi, apmēram tajā pašā laikā, kad viņu pētījums, vēl viena pētnieku grupa veica tradicionālāku sociālo pētījumu Ruandā. Šis cits pētījums, kas bija daļa no plaši pazīstamās Demogrāfiskās un veselības pārbaudes programmas, bija liels budžets un augstas kvalitātes tradicionālās metodes. Tādēļ Demogrāfijas un veselības apsekojuma aprēķinus pamatoti var uzskatīt par zelta standarta aprēķiniem. Salīdzinot abas aplēses, tās bija diezgan līdzīgas (3.17. Attēls). Citiem vārdiem sakot, apvienojot nelielu aptaujas datu apjomu ar zvanu ierakstiem, Blumenstock un viņa kolēģi spēja sagatavot aprēķinus, kas ir salīdzināmi ar zelta standarta pieejas aprēķiniem.
Skeptiķi šos rezultātus var uzskatīt par vilšanos. Galu galā viens no to skatīšanās veidiem ir teikt, ka, izmantojot lielus datus un mašīnu apgūšanu, Blumenstock un kolēģi spēja sagatavot aprēķinus, kurus varētu padarīt ticamāk jau esošās metodes. Bet es nedomāju, ka tas ir pareizais veids, kā domāt par šo pētījumu divu iemeslu dēļ. Pirmkārt, Blumenstock un kolēģu aplēses bija apmēram 10 reizes ātrākas un 50 reizes lētākas (kad izmaksas tiek mērītas mainīgo izmaksu izteiksmē). Kā es jau agrāk argumentēju šajā nodaļā, pētnieki ignorē izmaksas, ko rada viņu risks. Šajā gadījumā, piemēram, dramatisks izmaksu samazinājums nozīmē, ka nevis reizi gadā, kā tas notiek demogrāfisko un veselības pārbaužu laikā, tas tiek veikts ik pēc pāris gadiem - šāda veida apsekošana varētu tikt veikta katru mēnesi, un tas sniegtu daudzas priekšrocības pētniekiem un politikai veidotāji. Otrais iemesls neuztvert skeptiķa viedokli ir tāds, ka šis pētījums sniedz pamatprincipu, ko var pielāgot daudzām dažādām pētījumu situācijām. Šajā receptē ir tikai divas sastāvdaļas un divas pakāpes. Sastāvdaļas ir (1) liels datu avots, kas ir plašs, bet plāns (ti, tajā ir daudz cilvēku, bet ne informācija, kas jums nepieciešama par katru personu) un (2) aptauja, kas ir šaura, bet bieza (ti, tas ir tikai daži cilvēki, bet tai ir informācija, kas jums nepieciešama par šiem cilvēkiem). Tad šīs sastāvdaļas apvieno divās pakāpēs. Pirmkārt, lai abos datu avotos cilvēki izveidotu mašīnu mācību modeli, kurā tiek izmantots liels datu avots, lai prognozētu aptaujas atbildes. Pēc tam izmantojiet šo modeli, lai iekļautu aptaujas atbildes visiem lielā datu avotā. Tādējādi, ja rodas kāds jautājums, kuru vēlaties uzdot daudziem cilvēkiem, meklējiet lielu datu avotu no tiem cilvēkiem, kurus varētu izmantot, lai prognozētu viņu atbildi, pat ja jūs neuztraucas par lielo datu avotu . Tas nozīmē, ka Blūmenstokam un kolēģiem nebija raksturīgi zvana ieraksti; viņi tikai rūpējās par zvanu ierakstiem, jo tos varēja izmantot, lai prognozētu aptaujas atbildes, par kurām viņi rūpējās. Šī raksturīgā - tikai netieša interese par lielo datu avotu - padara paplašināto, prasot atšķirties no iegultā jautājuma, kuru es iepriekš aprakstīju.
Noslēgumā Blūmenstoka pastiprināta prasītā pieeja apvienoja aptaujas datus ar lielu datu avotu, lai iegūtu aprēķinus, kas ir salīdzināmi ar zelta standarta aptaujas rezultātiem. Šis konkrētais piemērs arī precizē dažus kompromisus starp pastiprināto pieprasījumu un tradicionālajām aptaujas metodēm. Paplašinātās prasītās aplēses bija savlaicīgākas, ievērojami lētākas un precīzākas. Bet, no otras puses, šim pastiprinātam jautājumam vēl nav spēcīga teorētiska pamata. Šis vienīgais piemērs neuzrāda, kad šī pieeja darbosies un kad tas nenotiks, un pētniekiem, kas izmanto šo pieeju, īpaši jāuztraucas par iespējamiem aizspriedumiem, kurus izraisījis tas, kas ir iekļauts - un kuri nav iekļauti - to lielajos datu avotos. Turklāt paplašinātajai lūdzējai pieejai vēl nav labu veidu, kā aplēst nenoteiktību. Par laimi, pastiprinātai jautāšanai ir dziļi savienojumi ar trīs lielām jomām statistikā - neliela apgabala aplēses (Rao and Molina 2015) , ieskaitīšana (Rubin 2004) un modelēta pēcapstrāde (kas pati par sevi ir cieši saistīta ar P., metodi, kuru es iepriekš aprakstīju nodaļā) (Little 1993) . Šo dziļu savienojumu dēļ es sagaidu, ka drīz tiks uzlaboti daudzi pastiprinātā jautājuma metodoloģiskie pamati.
Visbeidzot Blumenstock pirmā un otrā mēģinājuma salīdzināšana arī ilustrē svarīgu mācību par digitālā vecuma sociālajiem pētījumiem: sākums nav beigas. Tas ir, daudzkārt, pirmā pieeja nebūs vislabākā, bet, ja pētnieki turpinās strādāt, lietas var uzlaboties. Vispārīgāk, vērtējot jaunās pieejas sociālajiem pētījumiem digitālajā laikmetā, ir svarīgi veikt divus atšķirīgus novērtējumus: (1) Cik labi tas darbojas tagad? un (2) Cik labi tas darbosies nākotnē, mainoties datu ainai, un kā pētnieki velta lielāku uzmanību problēmai? Lai gan pētnieki ir apmācīti veikt pirmā veida novērtēšanu, otrais bieži vien ir svarīgāks.