Saistot savu pētījumu, lai ciparu pēdas var būt, piemēram, uzdodot ikvienam jūsu jautājumiem visos laikos.
Jautā parasti nāk divās galvenajās kategorijās: izlases apsekojumos un skaitīšanās. Izlases veida apsekojumi, kur jums piekļūt neliels skaits cilvēku, var būt elastīga, savlaicīgi, un salīdzinoši lēti. Tomēr izlases veida apsekojumus, jo tie ir balstīti uz izlasi, bieži vien ierobežots savā rezolūcijā; ar izlases veida apsekojumu, tas bieži vien ir grūti veikt aprēķinus par konkrētiem ģeogrāfiskajiem reģioniem vai īpašām demogrāfiskajām grupām. Skaitīšanas, no otras puses, mēģina intervēt ikvienu iedzīvotāju. Viņiem ir lieliska izšķirtspēja, bet tie parasti ir dārgi, šaurs fokusā (tie ietver tikai nelielu skaitu jautājumu), un nav savlaicīgi (tās notiek pēc noteikta grafika, piemēram, ir 10 gadi) (Kish 1979) . Tagad iedomājieties, ja pētnieki varētu apvienot labākās īpašības izlases apsekojumos un skaitīšanās; iedomājieties, ja pētnieki katru dienu varētu lūgt katru jautājumu ikvienam.
Protams, tas pastāvīgu, visuresoša, vienmēr-on aptaujā ir sava veida sociālo zinātņu fantāzijas. Bet, šķiet, ka mēs varam sākt tuvināt to apvienojot aptaujas jautājumiem no nedaudziem cilvēkiem ar digitālo pēdas no daudziem cilvēkiem. Es aicinu šāda kombinācija pastiprina jautā. Ja tas tiek darīts labi, tas varētu palīdzēt mums sniedz aplēsi, kas ir vairāk vietējo (mazākiem ģeogrāfiskajos apgabalos), vairāk granulu (par konkrētām demogrāfiskajām grupām), un vairāk savlaicīgi.
Viens piemērs papildināts jautā nāk no darba Joshua Blumenstock, kas vēlējās, lai vāktu datus, kas palīdzētu ceļvedi attīstību nabadzīgajās valstīs. Precīzāk, Blumenstock vēlējās radīt sistēmu, lai novērtētu bagātību un labklājību, kas apvienojumā pilnīgumu skaitīšanas ar elastīgumu un biežumu aptauju (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Patiesībā, es esmu jau aprakstīts Blumenstock darbu īsi 1. nodaļā.
Lai sāktu, Blumenstock sadarbojas ar lielāko mobilo telefonu pakalpojumu sniedzējs Ruandā. Uzņēmums iesniedza viņam anonimizētus darījumu uzskaiti no aptuveni 1,5 miljoni klientu, kas aptver uzvedību no 2005. un 2009. gadā logs satur informāciju par katru zvanu un īsziņu, piemēram, sākuma laiks, ilgums, un aptuveno ģeogrāfisko atrašanās vietu zvanītāju un uztvērēju. Pirms sākam runāt par statistikas jautājumiem, ir vērts norādīt, ka šis pirmais solis varētu būt viens no vissmagāk. Kā aprakstīts 2. nodaļā, lielākā daļa digitālo izsekot dati ir nepieejamas pētniekiem. Un, daudzi uzņēmumi ir pamatoti vilcinās dalīties datus, jo tas ir privāts; tas ir viņu klienti, iespējams, nav paredzams, ka viņu ieraksti tiks dalītas vairumā-ar pētniekiem. Šajā gadījumā, zinātnieki veica rūpīgu darbības, lai anonimizētas datus, un viņu darbs tika pārrauga trešās puses (ti, to IRB). Bet, neskatoties uz šiem centieniem, šie dati, iespējams, joprojām ir identificējami un tie, visticamāk satur jutīgu informāciju (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Es atgriezties pie šīm ētikas jautājumu 6. nodaļā.
Atgādināt, ka Blumenstock interesēja mērīšanas bagātību un labklājību. Bet šīs īpašības nav tieši zvanu ierakstus. Citiem vārdiem sakot, šie zvanu ieraksti ir nepilnīgi, lai šo pētījumu, kopīga iezīme digitālo pēdas, kas tika apspriests detalizēti 2. nodaļā Bet, šķiet, ka zvanu ierakstus, iespējams, ir kāda informācija par bagātību un labklājību. Tātad, viens no veidiem, kā jautā Blumenstock jautājums varētu būt: vai ir iespējams paredzēt, kā kāds reaģēs ar pētījumu, pamatojoties uz savu digitālo izsekot datiem? Ja tā, tad uzdodot dažus cilvēkus mēs varam uzminēt atbildes ikvienam citam.
Lai novērtētu šo empīriski, Blumenstock un pētniecības asistenti no Kigali institūta Zinātnes un tehnoloģiju sauc paraugu aptuveni tūkstoš mobilo telefonu klientiem. Pētnieki paskaidroja mērķus projekta dalībniekiem, lūdza viņu piekrišanu saistīt aptaujas atbildes uz zvanu ierakstus, un tad jautāja viņiem virkni jautājumu, lai novērtētu savu bagātību un labklājību, piemēram, "Vai jums pieder radio? "un" Vai jums pieder velosipēdu? "(skat 3.11 rādītājs par daļēju sarakstu). Visi dalībnieki aptaujā tika kompensēti finansiāli.
Tālāk, Blumenstock izmanto divpakāpju procedūra kopēju datu zinātnē: iezīme inženieru seko uzraudzītā mācīšanos. Pirmkārt, iezīme inženierzinātņu solis, lai ikviens, kas tika aptaujāti, Blumenstock pārvērš zvanu ierakstus īpašību kopumu par katru personu; Datu zinātnieki varētu aicināt šīs īpašības "iespējas" un sociālie zinātnieki varētu viņus sauc "mainīgos." Piemēram, par katru personu, Blumenstock aprēķina kopējo dienu skaitu, ar darbību, tad no atšķirīgu cilvēku skaits, persona ir bijusi saskarē ar, summu naudas iztērēti par airtime, un tā tālāk. Kritiski, laba īpašība engineering nepieciešamas zināšanas par pētniecības vidē. Piemēram, ja tas ir svarīgi nošķirt vietējiem un starptautiskajiem zvaniem (mēs varētu sagaidīt cilvēki, kas zvana starptautiski būt bagātāka), tad tas jādara pie iezīme inženierzinātņu soli. Pētnieks ar nelielu izpratni Ruandas varētu iekļaut šo funkciju, un tad jutīgā sniegums modeļa cietīs.
Tālāk, uzraudzītā mācību soli, Blumenstock uzcēla statistisko modeli, lai prognozētu aptaujas atbildes uz katru personu, pamatojoties uz to iezīmes. Šajā gadījumā, Blumenstock izmanto loģistiskās regresijas ar 10-kārtīgu savstarpēju apstiprināšanu, bet viņš varēja izmantot dažādas citas statistikas vai mašīna mācīšanās pieejas.
Tātad, cik labi tas darbojas? Bija Blumenstock spēj paredzēt atbildes uz aptaujas jautājumiem, piemēram, "Vai jums pieder radio?" Un "Vai jums pieder velosipēdu?", Izmantojot iespējas, kas iegūtas no zvanu ierakstus? Veida. No prognozes precizitāte bija liels dažām pazīmēm (3.11 attēls). Bet, tas vienmēr ir svarīgi, lai salīdzinātu kompleksu prognozēšanas metodi pret vienkāršu alternatīvu. Šajā gadījumā vienkārša alternatīva ir prognozēt, ka ikvienam dos visbiežāk atbildi. Piemēram, 97,3% ziņoja pieder radio tāpēc, ja Blumenstock bija paredzams, ka ikvienam būtu jāziņo pieder radio viņš būtu bijis precizitāte ir 97,3%, kas ir pārsteidzoši līdzīgs sniegumu viņa sarežģītāku procedūru (97,6% precizitāte). Citiem vārdiem sakot, visi iedomātā dati un modelēšanas palielināja precizitāti prognozes no 97,3% līdz 97,6%. Tomēr attiecībā uz citiem jautājumiem, piemēram, "Vai jums pieder velosipēdu?", Prognozes uzlabojās no 54.4% līdz 67.6%. Vispārīgāk, 3.12 attēls rāda dažām īpašībām Blumenstock neuzlaboja daudz tālāk tikai veicot vienkāršu sākotnējo prognozi, bet citām īpašībām tur bija daži uzlabojumi.
Šajā brīdī jūs varētu domāt, ka šie rezultāti ir nedaudz vilties, bet tikai gadu vēlāk, Blumenstock un divi kolēģi-Gabriel Cadamuro un Robert On-publicēja grāmatu zinātnē ar ievērojami labākiem rezultātiem (Blumenstock, Cadamuro, and On 2015) . Tur bija divi galvenie tehniskie iemesli uzlabošanai: 1) tie izmanto sarežģītākas metodes (ti, jauna pieeja iezīme inženierijas un sarežģītākas mašīna mācīšanās modeli) un 2), nevis mēģinot secināt atbildes uz atsevišķiem aptaujas jautājumiem (piemēram, "Vai jums pieder radio?"), viņi mēģināja secināt saliktu bagātības indeksu.
Blumenstock un kolēģi demonstrēja sniegumu savu pieeju divos veidos. Pirmkārt, viņi konstatēja, ka cilvēkiem savā izlasē, viņi varētu darīt diezgan labu darbu prognozēt savu bagātību no zvanu ierakstus (3.14 attēls). Otrkārt, un vēl svarīgāk, Blumenstock un kolēģi pierādīja, ka viņu procedūra varētu ražot augstas kvalitātes aplēses ģeogrāfisko sadalījumu bagātību Ruandā. Precīzāk, viņi izmanto savu mašīnu mācību modeli, kas tika apmācīti par viņu izlasi apmēram 1000 cilvēku, lai prognozētu bagātību visiem 1,5 miljoniem cilvēku zvanu ierakstus. Turklāt ar ģeotelpisko datu iestrādāta zvanu datus (atgādināt, ka zvans dati ietver atrašanās vietu tuvāko šūnu tornis katru zvanu), pētnieki varēja novērtēt aptuveno dzīvesvietu katru personu. Liekot šīs divas tāmes kopā, pētniecības ražoti tāmi ģeogrāfisko sadalījumu abonentu bagātību pie ļoti smalku telpiskās detalizācijas. Piemēram, tie varētu novērtēt vidējo bagātību katrā no Ruandas 2148 šūnām (mazākais administratīvā vienība valstī). Šie plānotie bagātība vērtības bija tik graudains tie bija grūti pārbaudīt. Tātad, zinātnieki summēt rezultātus uzrādīt aprēķinus par vidējo bagātību Ruandas 30 rajoniem. Šīs rajona līmeņa aplēses bija cieši saistīta ar aplēsēm no zelta standarta tradicionālajā aptaujā, Ruandas Demogrāfijas un veselības apsekojuma (3.14 attēls). Lai gan aplēses no diviem avotiem bija līdzīgi, aplēses no Blumenstock un kolēģi bija apmēram 50 reizes lētāk un 10 reizes ātrāk (kad izmaksas in mēra ziņā mainīgās izmaksas). Tas dramatisks samazinājums izmaksas nozīmē, ka nevis palaist ik pēc pāris gadiem, kā tas ir standarts demogrāfisko un veselības apsekojumus-hibrīds mazo aptaujas apvienojumā ar lielu ciparu izsekot datiem varētu vadīt katru mēnesi.
Noslēgumā, Blumenstock ir papildināts lūdzot pieeja apvienojumā apsekojuma datus ar ciparu zīmju datus, lai iegūtu aplēses salīdzināmi ar zelta standarta apsekojumā. Šis konkrētais piemērs izskaidro arī daži kompromisi starp pastiprina jautā un tradicionālās apsekošanas metodēm. Pirmkārt, pastiprina lūdzot aplēses bija vairāk savlaicīgi, ievērojami lētāka, un vairāk granulu. Bet, no otras puses, šajā laikā, ir ne spēcīga teorētiskā bāze, lai šāda veida pastiprina lūdzot. Tas ir, šis viens piemērs neparāda, ja tas darbosies, un tad, kad tas nav. Turklāt pastiprina prasītā pieeja vēl nav labas iespējas kvantificēt neskaidrības ap aplēses. Tomēr papildināts prasītā ir dziļas savienojumus ar trīs lielās teritorijās statistika modelis balstītas pēc stratifikācijas (Little 1993) , ieskaitīšanas (Rubin 2004) , un maza teritorija aprēķinu (Rao and Molina 2015) -Un, tāpēc es ceru, ka progress būs būt straujš.
Papildināts prasītā seko pamata recepte, kas var tikt pielāgota jūsu konkrēto situāciju. Ir divas sastāvdaļas un divi soļi. Abas sastāvdaļas ir 1) digitālais izsekot datu kopa, kas ir plašs, bet plānas (tas ir, tas ir daudz cilvēku, bet ne informāciju, kas jums ir nepieciešams par katru personu) un 2) aptauju, kas ir šaura, bet biezs (tas ir, tā ir tikai daži cilvēki, bet tā ir informācija, kas jums ir nepieciešams par tiem cilvēkiem). Pēc tam, ir divi soļi. Pirmkārt, cilvēkiem abās datu avotu, veidot mašīna mācību modeli, kas izmanto ciparu izsekot datu paredzēt aptaujas atbildes. Tālāk, izmantot šo mašīnu mācību modeli, lai piedēvētu apsekojuma atbildes ikvienam ciparu izsekot datiem. Tādējādi, ja ir kāds jautājums, ka jūs vēlaties lūgt daudz cilvēku, meklēt digitālo izsekot datiem no tiem cilvēkiem, kas varētu tikt izmantoti, lai prognozētu savu atbildi.
Salīdzinot Blumenstock pirmo un otro mēģinājumu problēmas arī ilustrē svarīgu mācību par pāreju no otrā laikmeta trešajām laikmets pieejas domas izpēti: sākums nav beigas. Tas ir, daudzas reizes, pirmā pieeja nebūs labākais, bet, ja pētnieki turpina darbu, lietas var iegūt labāku. Vispārīgāk, izvērtējot jaunas pieejas sociālo pētījumu digitālajā laikmetā, ir svarīgi veikt divus atšķirīgus novērtējumus: 1) cik labi tas darbojas tagad un 2) cik labi jūs domājat, ka tas varētu strādāt nākotnē datu ainava izmaiņas un kā pētnieku veltīt lielāku uzmanību šai problēmai. Lai gan, pētnieki ir apmācīti veikt pirmo veida novērtējumu (cik labs ir šis konkrētais gabals pētījumu), otrais bieži ir svarīgāka.