Vaikka se voi olla sotkuinen, rikastettu kysyy voivat olla tehokkaita.
Erilainen tapa käsitellä epätäydellisyydestä digitaalinen jälki data on rikastuttaa sitä suoraan tutkimustietoja, prosessi, joka Soitan rikastunut pyytää. Yksi esimerkki rikastettua pyytämällä on tutkimus Burke and Kraut (2014) , jota on kuvattu aikaisemmin luvussa (kohta 3.2), siitä vuorovaikutuksessa Facebookissa kasvaa ystävyys lujuutta. Siinä tapauksessa, Burke ja Kraut yhdistettynä tutkimustiedot Facebook lokitietoja.
Asetus, joka Burke ja Kraut työskenteli kuitenkin merkinnyt sitä, että ne eivät tarvitse käsitellä kaksi suuria ongelmia, että tutkijat tekevät rikastettu kysyy kasvot. Ensinnäkin, itse asiassa yhdistää toisiinsa aineistoja-prosessia kutsutaan tiedostojen yhdistämistä, sovitus kirjaa yhdessä aineisto kanssa asianmukainen osoitus muissa aineisto-voi olla vaikeaa ja virhealtista (näemme esimerkin tästä ongelmasta alla ). Toinen keskeinen ongelma rikastettua pyytämällä on, että laatu digitaalisten jälkiä usein on vaikea tutkijoille arvioida. Esimerkiksi joskus prosessi, jossa ne on kerätty on oma ja voi olla altis monille ongelmia luvussa 2. Toisin sanoen, rikastettua kysyy tulee usein liittyy virhealtista sitominen keruusta musta laatikko tietolähteet tuntemattomia laatu. Huolimatta huoli siitä, että nämä kaksi ongelmaa esitellä, on mahdollista tehdä tärkeä tutkimusta tällä strategian osoitettiin Stephen Ansolabehere ja Eitan Hersh (2012) heidän tutkimuksissaan äänestyskäyttäytymistä Yhdysvalloissa. Kannattaa mennä yli tämän tutkimuksen yksityiskohtaisesti, koska monet strategioita, Ansolabehere ja Hersh kehitetty ovat hyödyllisiä muissa sovelluksissa rikastetun pyytää.
Äänestysaktiivisuus tehty laajoja tutkimuksia valtiotieteen, ja aikaisemmin, tutkijoiden ymmärrystä kuka äänestää ja miksi on yleensä perustunut analyysiin tutkimustietojen. Äänestäminen Yhdysvalloissa on kuitenkin epätavallinen käyttäytyminen, että viranomaisten rekistereihin onko kukin kansalainen on äänestänyt (tietenkin, hallitus ei tallenna jotka jokaisen kansalaisen ääntä). Useiden vuosien ajan, nämä riippumattomat äänestysrekistereistä olivat saatavilla paperilomakkeella, hajallaan eri kuntien toimistoja eri puolilla maata. Tästä syystä oli vaikea, mutta ei mahdotonta, politiikan tutkijat saada täydellinen kuva äänestäjien ja vertailla, mitä ihmiset sanovat tutkimuksissa noin äänestävät niiden todellista äänestyskäyttäytymistä (Ansolabehere and Hersh 2012) .
Mutta nyt nämä äänestysrekistereistä on digitoitu, ja useat yksityiset yritykset ovat järjestelmällisesti kerännyt ja yhdistyivät nämä äänestysrekistereistä tuottaa kattava master äänet tiedostoja, tallentaa äänestyskäyttäytyminen amerikkalaisista. Ansolabehere ja Hersh yhteistyötä yksi näistä yrityksistä-catalist LCC-voidakseen käyttää isäntäänsä äänestykseen tiedosto auttaa kehittämään paremman kuvan äänestäjien. Edelleen, koska se tukeutui digitaalista kirjaa kerätään ja kuratoinut yritys, se tarjosi useita etuja aikaisempiin ponnisteluja tutkijoiden, jotka oli tehty ilman tukea yritysten ja analogisen kirjaa.
Kuten monet digitaalisen jäljittää lähteistä luvun 2 catalist päätiedostotaulukkoa ei sisältänyt paljon demografisen, asenteellisia ja käyttäytymiseen tietoa, joka Ansolabehere ja Hersh tarvitaan. Tämän lisäksi tietoja, Ansolabehere ja Hersh olivat erityisen kiinnostuneita vertailtaessa raportoitu äänestyskäyttäytyminen on validoitu äänestyskäyttäytymisestä (eli tiedot catalist tietokannassa). Joten, tutkijat kerätään tietoja, joita he halusivat osana osuuskunnan Kongressin Election Study (CCES), suuri sosiaalinen tutkimus. Seuraavaksi tutkijat antoivat tätä tietoa catalist, ja catalist antoi tutkijat takaisin sulautuneen tiedosto että mukana validoitu äänestyskäyttäytyminen (maasta catalist), itse raportoitu äänestyskäyttäytymisestä (maasta CCES) sekä demografiset ja asenteet vastaajista (maasta CCES ). Toisin sanoen, Ansolabehere ja Hersh rikastettu äänestys tietoja tutkimustietoja, ja tuloksena yhdistetyn tiedoston avulla ne voivat tehdä jotain, ettei tiedostoa käytössä yksitellen.
Vuoteen rikastuttaa catalist master tiedostoa, tutkimustietoja, Ansolabehere ja Hersh tuli kolme tärkeää johtopäätöksiä. Ensinnäkin, yli-raportointi äänestys rehottaa: lähes puolet ei-äänestäjien raportoitu äänestyksen. Tai toinen tapa tarkastella on, jos joku raportoitu äänestys, on vain 80% mahdollisuus, että ne todella äänestänyt. Toiseksi, liiallinen raportointi ei ole satunnainen; Yli-raportointi on yleisempää korkean tulotason, hyvin koulutettuja, partisaanit jotka harjoittavat julkisten asioiden. Toisin sanoen, ihmiset, jotka ovat todennäköisimmin äänestävät ovat myös todennäköisesti valehdella äänestykseen. Kolmanneksi, ja useimmat kriittisesti, koska systemaattinen luonne yli-raportoinnin todellinen erot äänestäjien ja ei-äänestäjät ovat pienempiä kuin ne näkyvät vain tutkimuksista. Esimerkiksi ne, joilla on alemman korkeakoulututkinnon ovat noin 22 prosenttiyksikköä todennäköisesti ilmoittavat äänestykseen, mutta ovat vain 10 prosenttiyksikköä todennäköisemmin todellinen ääni. Lisäksi nykyiset luonnonvaroihin perustuva teoriat äänestäminen ovat paljon paremmin ennustamaan joka raportoi äänestyksen kuin jotka todella ääntä, empiirinen havainto, joka vaatii uusia teorioita ymmärtää ja ennustaa äänestyksen.
Mutta, kuinka paljon meidän pitäisi luottaa nämä tulokset? Muista nämä tulokset riippuvat virhealtista linkitys musta laatikko tietoja tuntematon määrä virhe. Tarkemmin sanottuna tulokset riippua kaksi keskeistä vaihetta: 1) kyky catalist yhdistää monia erilaisia tietolähteitä luomaan tarkan master datafile ja 2) kykyä catalist yhdistää tutkimustietojen sen master datafile. Kummassakin vaiheessa on melko vaikeaa ja virheet joko askel voisi johtaa tutkijoita vääriä johtopäätöksiä. Kuitenkin sekä tietojenkäsittely- ja matching ovat kriittisiä säilyminen catalist yrityksenä, jotta se voi panostaa näiden ongelmien ratkaisemisessa, usein asteikolla, ettei yksittäisten tutkijoiden tutkija tai tutkijaryhmä pärjäisi. Vuonna jatkolukemista lopussa luvun, I kuvata näitä ongelmia tarkemmin ja miten Ansolabehere ja Hersh luottamusta niiden tuloksia. Vaikka nämä tiedot ovat ominaisia tämän tutkimuksen, samanlaisia asioita nämä syntyy muille tutkijoille, jotka haluavat linkittää musta laatikko digitaalinen jälki tietolähteitä.
Mitkä ovat yleiset opetukset tutkijat voivat tehdä tästä tutkimuksesta? Ensinnäkin on valtava arvo rikastamista digitaalinen jälkiä kanssa tutkimustietoja. Toiseksi, vaikka nämä yhteen, kaupallinen tietolähteitä ei pitäisi pitää "kentällä totuus", joissakin tapauksissa ne voivat olla hyödyllisiä. Itse asiassa, se on parasta verrata näitä tietolähteitä ei absoluuttiseen Truth (josta ne aina jäävän). Pikemminkin se on parempi verrata niitä muihin käytettävissä oleviin tietolähteisiin, joka poikkeuksetta on virheitä samoin.