Linkittämällä kyselyn digitaalisia jälkiä voi olla kuin pyytää kaikkia kysymyksiä kaikkina aikoina.
Kysymysten tulee yleensä kahteen pääryhmään: otantatutkimusten ja laskentoja. Otantatutkimukset, jossa voit käyttää pieni joukko ihmisiä, voi olla joustava, ajankohtainen, ja suhteellisen halpaa. Kuitenkin otantatutkimuksia, koska ne perustuvat otokseen, ovat usein rajoitettuja niiden ratkaiseminen; jossa on otantatutkimus, se on usein vaikea tehdä arvioita siitä, tietyillä alueilla tai tietyille väestöryhmille. Laskentojen, toisaalta yrittää haastatella kaikille väestöstä. Niillä on suuri resoluutio, mutta ne ovat yleensä kalliita, kapea tarkentunut (ne sisältyvät vain pieni määrä kysymyksiä), ja ei ajoissa (ne tapahtuvat kiinteän aikataulun, kuten 10 vuoden välein) (Kish 1979) . Nyt kuvitella jos tutkijat voisivat yhdistää parhaat ominaisuudet otantatutkimusten ja laskennat; kuvitella, jos tutkijat voivat pyytää jokaista kysymystä kaikille päivittäin.
Ilmeisesti tämä jatkuva, kaikkialla, aina päällä tutkimus on eräänlainen yhteiskuntatieteissä fantasia. Mutta näyttää siltä, että voimme alkaa lähentää tämän yhdistämällä kyselyn kysymyksiin pieni joukko ihmisiä digitaalisten jälkiä monien ihmisten. Kutsun tätä tyyppinen yhdistelmä monistaa kysyy. Jos se on tehty hyvin, se voisi auttaa meitä säädetään arvion jotka ovat paikallisia (pienemmille maantieteellisille alueille), tarkempia (tiettyjen väestöryhmien), ja nopeammin.
Yksi esimerkki monistettu pyytämällä tulee työn Joshua Blumenstock, jotka halusivat kerätä tietoja, jotka auttaisivat opas kehitystä köyhissä maissa. Tarkemmin sanottuna Blumenstock halusi luoda järjestelmän, jolla mitataan vaurautta ja hyvinvointia, jotka yhdistetään täydellisyyden väestönlaskenta joustavuuteen ja taajuuden kyselyn (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . Itse olen jo kuvattu Blumenstock työtä lyhyesti luvussa 1.
Aloita Blumenstock yhteistyötä suurin matkapuhelinten tarjoaja Ruandassa. Yritys toimitti hänelle nimettömiksi tilitietoja noin 1,5 miljoonaa asiakasta kattaa käyttäytyminen vuodesta 2005 ja 2009. lokit sisältävät tietoa kunkin puhelun ja tekstiviestin kuten alkamisaika, kesto, ja maantieteellinen alue soittajan ja vastaanotin. Ennen kuin alkaa puhua tilastollisesta asioista, on syytä huomauttaa, että tämä ensimmäinen vaihe voi olla yksi vaikeimmista. Kuten luvussa 2, useimmat digitaalinen jälki data on saavuttamattomissa tutkijoille. Ja monet yritykset ovat oikeutetusti haluttomia jakamaan tietoa, koska se on yksityinen; että on niiden asiakkaat luultavasti ei odota, että niiden kirjanpito jaetaan-irtotavarana-tutkijoiden kanssa. Tällöin tutkijat ottivat varovaisia toimenpiteisiin anonyymiseksi tiedot ja heidän työnsä valvoi kolmannen osapuolen (eli niiden IRB). Mutta huolimatta nämä ponnistelut, nämä tiedot ovat todennäköisesti edelleen tunnistettavissa ja ne todennäköisesti sisältävät arkaluonteisia tietoja (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Palaan näihin eettinen kysymys 6 luvussa.
Muista, että Blumenstock oli kiinnostunut mittaamaan vaurautta ja hyvinvointia. Mutta nämä piirteet eivät ole suoraan puhelun kirjaa. Toisin sanoen, nämä puhelun tiedot ovat puutteellisia tätä tutkimusta varten, yhteinen piirre digitaalisten jälkiä jotka keskusteltiin yksityiskohtaisesti luvussa 2. Mutta, vaikuttaa todennäköiseltä, että puhelutietoihin todennäköisesti joitakin tietoja rikkaus ja hyvinvointia. Joten, yksi tapa kysyä Blumenstock kysymykseen voisi olla: on mahdollista ennustaa, miten joku vastata kyselyyn perustuva digitaalisten jäljittää tietoja? Jos näin on, niin kysymällä muutamia ihmisiä voimme arvata vastaukset muutkin.
Arvioida empiirisesti, Blumenstock ja tutkimuksen avustajien Kigali Institute of Science and Technology kutsutaan näyte noin tuhat matkapuhelinasiakkaille. Tutkijat selitti projektin tavoitteet osallistujille, pyydetty suostumus liittää kyselyn vastaukset puhelun kirjaa, ja sitten pyysi heitä joukon kysymyksiä mitata vaurautta ja hyvinvointia, kuten "Onko sinulla oma radio? "ja" Omistatko polkupyörän? "(katso kuva 3.11 varten osittainen luettelo). Kaikki osallistujat kyselyyn kompensoitiin taloudellisesti.
Seuraavaksi Blumenstock käytetään kaksivaiheista menettelyä yleisiä tietoja science: ominaisuus tekniikan seuraa ohjattu oppiminen. Ensinnäkin ominaisuus tekniikan vaihe, kaikille jotka haastateltiin, Blumenstock muunnetaan puhelutietoihin joukoksi ominaisuuksista noin jokainen; data tiedemiehet voisi kutsua nämä ominaisuudet "ominaisuudet" ja yhteiskuntatieteilijät voisi kutsua niitä "muuttujia." Esimerkiksi jokaiselle henkilölle, Blumenstock lasketaan päivien kokonaismäärä kanssa aktiivisuuden määrä erillisiä ihmisiä henkilö on ollut yhteydessä, summa käytetyn rahan puheaikaa, ja niin edelleen. Kriittisesti, hyvä ominaisuus suunnittelu edellyttää tietämystä tutkimuksen ympäristössä. Esimerkiksi, jos se on tärkeää erottaa toisistaan ja kansainväliset puhelut (voisimme odottaa, että ihmiset, jotka kutsuvat kansainvälisesti varakkaampia), niin tämä on tehty ominaisuus engineering vaihe. Tutkija juurikaan ymmärrä Ruandan ehkä ole tätä ominaisuutta, ja sitten ennustearvo suorituskyky malli kärsii.
Seuraavaksi ohjattu oppiminen vaiheessa Blumenstock rakennettu tilastollinen malli ennustaa kyselyn vastaus jokaiselle henkilölle, joka perustuu niiden ominaisuuksia. Tällöin Blumenstock käytetään logistinen regressio 10-kertainen ristivalidointi, mutta hän olisi voinut käyttää erilaisia muita tilastollisia tai koneoppimista lähestymistapoja.
Joten, miten hyvin se toimi? Oli Blumenstock voi ennustaa vastauksia kyselyihin, kuten "Onko sinulla oma radio?" Ja "Onko sinulla oma polkupyörä?" Ominaisuuksia käyttäen johdettu puhelutiedot? Tavallaan. Tarkkuus ennustukset olivat korkeat joidenkin ominaisuuksien (Kuva 3.11). Mutta se on aina tärkeää verrata kompleksin ennustusmenetelmä vastaan yksinkertainen vaihtoehto. Tässä tapauksessa yksinkertainen vaihtoehto on ennustaa, että jokainen antaa yleisin vastaus. Esimerkiksi 97,3% ilmoitti omistavan radio joten jos Blumenstock oli ennustanut, että jokainen raportoi omistava radio hänellä olisi ollut tarkkuus 97,3%, mikä on yllättävän samankaltainen hänen suorittaessaan monimutkaisemman menettelyn (97,6% tarkkuudella). Toisin sanoen, kaikki fancy data ja mallintaminen lisäsi tarkkuutta ennusteen välillä 97,3%: sta 97,6%. Kuitenkin muita kysymyksiä, kuten "Omistatko polkupyörän?", Ennusteet parani 54,4%: sta 67,6%. Yleisemmin Kuva 3.12 esittää joitakin ominaisuuksia Blumenstock ei parantunut paljon pidemmälle vain tehdä yksinkertaisia perustason ennustus, vaan että muita ominaisuuksia oli jonkin verran parannusta.
Tässä vaiheessa saatat ajatella, että nämä tulokset ovat hieman pettymys, mutta vain vuotta myöhemmin, Blumenstock ja kaksi kollegaa-Gabriel Cadamuro ja Robert On-julkaisi paperin Science olennaisesti parempia tuloksia (Blumenstock, Cadamuro, and On 2015) . Oli kaksi teknisistä syistä parantamista: 1) niitä käytetään kehittyneempiä menetelmiä (eli uutta lähestymistapaa ominaisuus suunnittelu ja kehittyneempiä koneoppimisen malli) ja 2) asemesta päätellä vastauksia yksittäisiin kyselyihin (esim "Onko sinulla oma radio?"), he yrittivät päätellä komposiitti runsaasti indeksi.
Blumenstock ja kollegat osoittivat hoitavat lähestymistapaa kahdella tavalla. Ensinnäkin, he huomasivat, että ihmisille heidän näytteessä, he voisivat tehdä melko hyvää työtä ennustaa niiden varallisuus puhelutiedot (kuva 3.14). Toiseksi, ja yhä tärkeämpää, Blumenstock ja kollegat osoittivat, että niiden menettely voi tuottaa laadukkaita arvioita maantieteellinen jakautuminen varallisuuden Ruandassa. Tarkemmin sanottuna he käyttivät koneen oppimisen malli, joka oli koulutettu niiden otokseen noin 1000 ihmistä, ennustaa runsaasti kaikkien 1,5 miljoonaa ihmistä puhelun kirjaa. Edelleen, jossa paikkatietoja upotettu puhelun tiedot (muistaa, että puhelun tiedot sisältävät sijainti lähimmän solu torni kunkin puhelun), tutkijat pystyivät arvioimaan suunnilleen asuinpaikan kunkin henkilön. Operaattorin nämä kaksi arviota yhdessä, tutkimus tuotti arvio maantieteellisestä jakaumasta tilaajan vaurauden äärimmäisen hieno paikkatietojen rakeisuus. Esimerkiksi ne voivat arvioida keskimääräinen varallisuus kussakin Ruandan 2148 soluja (pienimmän hallinnollisen maassa). Näitä ennustettuja rikkaus arvot olivat niin rakeinen niitä on ollut vaikea tarkistaa. Joten, tutkijat yhteen niiden tulokset tuottaa arvioita keskimääräisestä runsaasti Ruandan 30 piirit. Nämä piiritason arviot olivat yhteydessä saadut arviot kultakantaan perinteinen tutkimus, Ruandan Demografiset ja Health Survey (kuva 3.14). Vaikka arviot peräisin kahdesta lähteestä olivat samankaltaisia, arvioiden Blumenstock ja kollegat olivat noin 50 kertaa halvempaa ja 10 kertaa nopeampi (jolloin kustannukset mitattuna muuttuvien kustannusten). Tämä dramaattinen lasku kustannus tarkoittaa, että sen sijaan, että kulkevat muutaman vuoden välein-as on vakiona Demografiset ja terveysministeriön Surveys-hybridi pienten tutkimus yhdistettynä iso digitaalinen jälki tietoja voitaisiin käyttää kuukausittain.
Lopuksi Blumenstock n monistettiin kysyy lähestymistapa yhdistettynä tutkimustietoja digitaalisella jäljittää datan tuottamiseksi arvioiden verrattavissa kulta-standardin kyselyyn arvioita. Tämä erityisesti esimerkki selventää myös joitakin kompromisseja monistetaan kysyy ja perinteisiä tutkimusmenetelmiä. Ensinnäkin monistettu kysyy arviot olivat nopeammin, merkittävästi halvempaa, ja rakeinen. Mutta toisaalta, tällä hetkellä ei ole vahva teoreettinen perusta tällaisen monistetun pyytää. Eli tämä esimerkki ei näytä, kun se toimii ja kun se ei ole. Edelleen monistettu kysyy lähestymistapa ei vielä ole hyviä tapoja mitata epävarmuus arvioitaan. Kuitenkin monistettu kysyy on syvät yhteydet kolme suurta alueilla tilastoihin-mallipohjaisia jälkiositukseen (Little 1993) , syyksi (Rubin 2004) , ja pienen alueen arviointi (Rao and Molina 2015) -ja niin odotan, että edistyminen olla nopea.
Amplified kysyä seuraa perustiedot resepti, joka voidaan räätälöidä teidän tilanteeseen. On olemassa kaksi ainesosat ja kahdessa vaiheessa. Molemmat aineet ovat 1) digitaalisen jälki aineisto, joka on laaja mutta ohut (eli se on paljon ihmisiä, mutta ei tietoja, joita tarvitset jokaisesta henkilöä) ja 2) katsaus, joka on kapea, mutta paksu (eli se on vain harvat, mutta sillä on tietoja, joita tarvitset noin niitä ihmisiä). Sitten, on kaksi vaihetta. Ensinnäkin, että ihmiset molemmissa tietolähteitä, rakentaa kone oppimisen malli, joka käyttää digitaalista jäljittää datan ennustaa vastaukset kyselyihin. Seuraavaksi käytä että kone oppimisen malli kohdistaa kyselyn vastaukset kaikille digitaalisen jäljittää tietoja. Niinpä, jos on joitakin kysymyksiä, jotka haluat kysyä paljon ihmisiä, etsiä digitaalista jäljittää tietoja niistä ihmisistä, joita voidaan käyttää ennustamaan heidän vastauksensa.
Verrattaessa Blumenstock ensimmäinen ja toinen yritys ongelmaa kuvaa myös tärkeän oppitunnin siirtymistä toisen sukupolven kolmannen aikakauden lähestymistapoja kartoittaa tutkimus: alku ei ole loppua. Eli monta kertaa, ensimmäinen lähestymistapa ole paras, mutta jos tutkijat jatkuva työskentely, asiat voivat saada paremmin. Yleisemmin, kun arvioidaan uusia lähestymistapoja yhteiskunnan tutkimuksen digitaaliaikana on tärkeää tehdä kaksi erillistä arvioinnit: 1) kuinka hyvin tämä toimii nyt ja 2) miten hyvin luulet tämä voisi toimia tulevaisuudessa tietojen maisemaa muutokset ja tutkijat kiinnittämään enemmän huomiota ongelmaan. Vaikka tutkijat koulutetaan tehdä ensimmäinen sellainen arviointi (kuinka hyvä on tässä pala tutkimus), toinen on usein tärkeämpää.