Susiejimas savo apklausą skaitmeninių pėdsakų gali būti tarsi klausia kiekvienam jūsų klausimus bet kuriuo metu.
Klausia paprastai ateina į dvi pagrindines kategorijas: atrankiniai tyrimai ir surašymai. Imčių tyrimai, kuriuose galite atidaryti nedidelį skaičių žmonių, gali būti lankstūs, laiku, ir gana pigus. Tačiau imčių tyrimai, nes jie grindžiami mėginio, dažnai apsiriboja savo rezoliucijoje; su atrankinio tyrimo, ji dažnai sunku padaryti sąmatas apie konkrečius geografinius regionus arba konkrečių demografinių grupių. Surašymai, kita vertus, bando apklausti visus į gyventojų. Jie turi didelę skiriamąją gebą, bet paprastai jie yra brangus, siauras dėmesio (jie apima tik nedidelį skaičių klausimus), o ne laiku (jie įvyktų ant nustatytą grafiką, pavyzdžiui, per 10 metų) (Kish 1979) . Dabar įsivaizduokite, jei mokslininkai galėtų sujungti geriausius charakteristikas atrankinių tyrimų ir surašymų; įsivaizduokite, jei mokslininkai galėtų prašyti kiekvieną klausimą visiems kiekvieną dieną.
Akivaizdu, kad tai nuolatinis, visur, visada ant apklausa yra socialinių mokslų fantazijos natūra. Tačiau, atrodo, kad mes galime pradėti derinti tai derinant apklausos klausimus iš nedidelio skaičiaus žmonių su skaitmeninių pėdsakų iš daugelio žmonių. Aš vadinu tai derinys tipas papildyta klausia. Jei padaryta gerai, tai gali padėti mums suteikia įvertį, kad yra daugiau vietos (mažesniems geografinėse vietovėse), daugiau granulių (konkrečių demografinių grupių), ir laiku.
Vienas iš pavyzdžių papildyta klausia ateina iš Joshua Blumenstock, kuris norėjo rinkti duomenis, kurie padėtų instrukciją skurdžių šalių vystymąsi darbą. Tiksliau, Blumenstock norėjo sukurti sistemą, siekdama įvertinti turtus ir gerovę, kad kartu su surašymo su lankstumo ir dažnumo tyrimo išsamumą (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Tiesą sakant, aš jau aprašyta Blumenstock darbą trumpai 1 skyriuje.
Norėdami pradėti, Blumenstock bendradarbiauja su didžiausia mobiliojo ryšio telefono paslaugų teikėjas Ruandoje. Bendrovė pateikė jam anoniminius sandorių įrašus iš maždaug 1,5 milijono klientų apimantis elgesį nuo 2005 ir 2009 Rąstai pateikiama informacija apie kiekvieno skambučių ir teksto pranešimą, pavyzdžiui, pradžios laiką, trukmę, ir apytikslį geografinės padėties skambinančiajam ir imtuvo. Prieš pradedant kalbėti apie statistikos klausimais, verta pastebėti, kad tai pirmas žingsnis gali būti viena iš sudėtingiausių. Kaip aprašyta 2 skyriuje, dauguma skaitmeninių pėdsakų duomenys yra neprieinami tyrėjams. Ir daugelis įmonių yra pagrįstai nesiryžta pasidalinti savo duomenis, nes tai yra privati; tai yra jų klientai tikriausiai nesitikėjo, kad jų įrašai bus dalijamasi-urmu-su tyrėjais. Šiuo atveju, mokslininkai paėmė atsargūs veiksmus anoniminius duomenis ir jų darbas buvo prižiūrimas trečiosios šalies (ty jų IRB). Tačiau, nepaisant šių pastangų, šie duomenys yra turbūt vis dar yra atpažįstami ir jie greičiausiai yra jautrus informacija (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Aš grįžti į šių etikos klausimą 6 skyriuje.
Prisiminkite, kad Blumenstock domino matavimo turtus ir gerovę. Bet šie bruožai yra tiesiogiai skambučių įrašus. Kitaip tariant, šios Skambučių įrašai yra neišsamūs dėl šio tyrimo, bendras bruožas skaitmeninių pėdsakų, kuri buvo išsamiai aptarta 2 skyriuje Tačiau, atrodo, kad Skambučių įrašai tikriausiai šiek tiek informacijos apie turto ir gerovės. Taigi, vienas iš būdų klausia Blumenstock klausimas galėtų būti toks: tai galima prognozuoti, kaip kažkas bus atsakyti į apklausos, remiantis jų skaitmeninių pėdsakų duomenų? Jei taip, tada klausia keletą žmonių galime atspėti visi kiti atsakymus.
Norėdami tai įvertinti empiriškai, Blumenstock ir mokslinių tyrimų asistentai iš Kigalis instituto mokslo ir technologijų vadinamas maždaug tūkstantis mobiliųjų telefonų vartotojams mėginį. Mokslininkai paaiškino projekto tikslus, dalyvių prašoma jų sutikimo susieti apklausos atsakymus į skambučių įrašus, tada paprašė jiems keletą klausimų išmatuoti savo turtus ir gerovę, pavyzdžiui, "Ar turite radijo? "ir" Ar turite dviratį? "(žr 3.11 pav dalinis sąrašas). Visi dalyviai apklausoje buvo kompensuota finansiškai.
Be to, Blumenstock naudojama dviejų pakopų procedūrą bendrą duomenų mokslas: funkcija inžinerijos po prižiūrimos mokymosi. Pirma, funkcija inžinerijos žingsnyje visiems, kad buvo apklausti, Blumenstock konvertuoti skambučių įrašus į charakteristikų apie kiekvieną asmenį, rinkinys; duomenų mokslininkai gali skambinti šių savybių "funkcijos" ir sociologai būtų jas vadina "kintamuosius." Pavyzdžiui, už kiekvieną asmenį, Blumenstock apskaičiuojamas bendras darbo dienų skaičius su veikla, iš skirtingų žmonių skaičius asmuo lietėsi su suma pinigų išleista eterio laiko, ir pan. Kritiškai, geras bruožas inžinerija reikalauja žinių apie mokslinių tyrimų aplinkoje. Pavyzdžiui, jei tai yra svarbu atskirti vidaus ir tarptautinius skambučius (galime tikėtis žmonės, kurie vadina tarptautiniu būti turtingesni), tai turi būti daroma funkcija inžinerijos žingsnio. Mokslininkas su mažai supratimo Ruandos gali neapima šią funkciją, tada prognozavimo veiklos modelio kentės.
Toliau, prižiūrimos mokymosi etape, Blumenstock pastatė statistinį modelį prognozuoti atsakymą kiekvienam, atsižvelgiant į jų savybes asmens apklausa. Šiuo atveju Blumenstock naudoti logistinę regresiją su 10 kartų kryžminio patvirtinimo, bet jis galėjo naudojamas kitų statistinės ar mašina mokymosi metodų įvairovė.
Taigi, kaip gerai padarė tai veikia? Buvo Blumenstock sugebėti nuspėti atsakymus į apklausos klausimus, pavyzdžiui, "Ar turite radijo?" Ir "Ar turite dviratį?", Naudojant funkcijų, gautų iš skambučių įrašus? Rūšiuoti. Iš prognozių tikslumas buvo didelis kai kurių bruožų (3.11 pav.) Bet, ji yra visada svarbu palyginti sudėtingą numatymo metodą prieš paprasta alternatyva. Tokiu atveju paprastas alternatyva yra prognozuoja, kad kiekvienas duos dažniausiai atsakymą. Pavyzdžiui, 97,3% nurodė turinti radijo todėl, jei Blumenstock numatė, kad kiekvienas būtų pranešti turinti radijo jis turėjo apie 97,3%, o tai yra stebėtinai panašus į savo sudėtingesnio tvarka (97,6% tikslumas) atlikimo tikslumą. Kitaip tariant, visi išgalvotas duomenys ir modeliavimas padidėjo prognozavimo tikslumą iš 97,3% iki 97,6%. Tačiau dėl kitų klausimų, pavyzdžiui, "Ar turite dviratį?" Prognozės pagerėjo nuo 54,4% iki 67,6%. Apskritai, 3.12 paveiksle matyti, kai bruožų Blumenstock nepagerėjo daug daugiau nei tiesiog padaryti paprastą pradinis prognozę, bet ir kitų bruožų buvo šiek tiek patobulintas.
Šiuo metu jums gali būti mąstymas, kad šie rezultatai yra šiek tiek nuviliantys, tačiau tik po metų, Blumenstock ir du kolegos-Gabrielis Cadamuro ir Robert Informacinis paskelbė dokumentą mokslo su žymiai geresnių rezultatų (Blumenstock, Cadamuro, and On 2015) , Yra du pagrindiniai techniniai priežastys tobulinimo: 1) jie naudojami sudėtingesnius metodus (ty, naujas požiūris funkcija inžinerijos ir daugiau sudėtingų mašinų mokymosi modelį) ir 2), o ne bando daryti išvadą, atsakant į individualius apklausos klausimus (pvz, "Ar turite radijo?"), jie bandė išvesti sudėtinį turto indeksą.
Blumenstock ir kolegos parodė savo požiūrį našumą dviem būdais. Pirma, jie nustatė, kad už jų imties žmonių, jie gali padaryti labai gerą darbą prognozuoti savo turtus iš skambučių įrašus (3.14 pav.) Antra, vis svarbiau, Blumenstock ir kolegos parodė, kad jų procedūra galėtų gaminti aukštos kokybės įvertinimus geografinį pasiskirstymą turto Ruandoje. Tiksliau, jie naudojo savo mašina mokymosi modelį, kuris buvo apmokytas jų imties apie 1000 žmonių, prognozuoti visų 1,5 milijono žmonių turtai skambučių įrašus. Be to, su geografinių duomenų įterptųjų skambučių duomenis (Primenu, kad skambutis duomenys apima artimiausią ląstelių bokštas už kiekvieną pokalbio vietą), mokslininkai galėjo apskaičiuoti apytikslę gyvenamąją vietą kiekvieno asmens. Eksploatacijos šias dvi sąmatas kartu, tyrimai pagamino geografinį pasiskirstymą prenumeratoriaus turto apskaičiavimas ribose, esant ypatingai plonos erdvinės detalumo. Pavyzdžiui, jie gali apskaičiuoti vidutinį turtus kiekvienoje Ruandos 2148 ląstelių (mažiausias administracinis vienetas šalyje). Numatomi turto vertės buvo tokios granulės jie buvo sunku patikrinti. Taigi, mokslininkai sudedami jų rezultatus pateikti sąmatas, vidutinio turto Ruanda 30 rajonų. Šie rajono lygmens vertinimai buvo glaudžiai susiję su skaičiavimais aukso standarto tradicinės apklausos duomenimis, Ruandos demografijos ir sveikatos tyrimas (3.14 pav.) Nors įverčiai iš dviejų šaltinių, buvo panašus, sąmatos iš Blumenstock ir kolegos buvo apie 50 kartų pigesnės ir 10 kartų greičiau (kai kaina vertinami atsižvelgiant į kintamųjų sąnaudų). Šis dramatiškas sumažėjimas kaina reiškia, kad užuot paleisti kas keletą metų, kaip yra standartinis demografinių ir sveikatos tyrimų, smulkaus tyrimo kartu su didelių skaitmeninių pėdsakų duomenų hibridas gali būti paleisti kiekvieną mėnesį.
Taigi, Blumenstock s Amplified klausia požiūris derinamas tyrimo duomenis su skaitmeninių pėdsakų duomenų gaminti sąmatas palyginamus su aukso standartas tyrimo vertinimais. Tai ypač pavyzdys taip pat paaiškinama kai kompromisus tarp papildyta klausia ir tradicinių tyrimo metodus. Pirma, amlifikuoti klausia vertinimai buvo labiau laiku, gerokai pigiau, o išsamesnis. Bet, kita vertus, šiuo metu, yra ne stiprus teorinis pagrindas šio pagausintos klausia rūšies. Tai yra, tai vienas iš pavyzdžių nerodo, kai jis bus dirbti ir kai ji nebus. Be to, sustiprina klausia požiūris dar neturi gerų būdų kiekybiškai neaiškumų savo įverčiams nustatyti. Tačiau papildyta klausia turi gilias jungtis prie trijų didelių teritorijų statistika modelis pagrįstas po stratifikacijos (Little 1993) , sąlyginius (Rubin 2004) , o nedidelio ploto skaičiavimo (Rao and Molina 2015) -ir todėl tikiuosi, kad pažanga bus būti greitas.
Amplified klausia taip pagrindinę receptą, kuris gali būti pritaikytas prie jūsų konkrečioje situacijoje. Yra dviejų sudedamųjų dalių ir du žingsniai. Du Pagalbinės medžiagos yra 1) skaitmeninis pėdsakas rinkinį, yra platus, bet plonas (tai yra, ji turi daug žmonių, bet ne informaciją, jums reikia apie kiekvieną asmenims) ir 2) apklausą, kad yra siauras, bet stora (tai yra, ji turi tik keletas žmonių, bet jis turi informacijos, kad jums reikia apie tuos žmonių). Tada, yra du žingsniai. Pirma, dėl abiejų duomenų šaltinių žmonių, statyti mašina mokymosi modelį, kuris naudoja skaitmeninius pėdsakus duomenis prognozuoti tyrimo atsakymus. Be to, naudoti šią mašiną mokymosi modelį priskirti apklausos atsakymus visiems į skaitmeninių pėdsakų duomenis. Taigi, jei yra tam tikrų abejonių, kad norite paklausti daug žmonių, ieškoti skaitmeninių pėdsakų duomenų iš tų žmonių, kurie gali būti naudojami prognozuoti savo atsakymą.
Lyginant Blumenstock pirmasis ir antrasis bandymas į problemą taip pat iliustruoja svarbų pamoką apie perėjimo nuo antrojo eros trečiosioms eros metodų apklausos tyrimai: pradžia yra ne pabaiga. Tai reiškia, kad daug kartų, pirmasis požiūris nebus geriausias, bet jei mokslininkai toliau apdorotos, ką gali gauti geriau. Apskritai, vertinant naujų požiūrių į socialinių tyrimų skaitmeniniame amžiuje, svarbu, kad du skirtingi vertinimai: 1) kaip gerai tai veikia dabar ir 2) kaip gerai jūs manote, kad tai gali dirbti ir ateityje duomenų kraštovaizdžio pokyčiai ir tyrėjais skirti daugiau dėmesio į šią problemą. Nors mokslininkai yra apmokyti atlikti pirmą natūra įvertinimo (kaip gera tai ypač gabalas mokslinių tyrimų), antroje vietoje yra dažnai svarbesnis.