Kun rikastut kyselyt, kyselytutkimukset rakentavat kontekstin suuren tietolähteen ympärille, joka sisältää joitain tärkeitä mittauksia, mutta niissä ei ole muita.
Yksi tapa yhdistää kyselytutkimustiedot ja suuret tietolähteet on prosessi, jota kutsun rikastetuksi kyselemiseksi . Richly-kyselyssä suuri tietolähde sisältää joitain tärkeitä mittauksia, mutta puuttuu muita mittauksia, joten tutkija kerää nämä puuttuvat mittaukset kyselyyn ja yhdistää sitten kaksi tietolähdettä yhdessä. Eräs esimerkki rikastetusta kyselystä on Burke and Kraut (2014) siitä, onko Facebookissa vuorovaikutuksessa kasvava ystävyyslujuus, jota kuvasin kohdassa 3.2). Tällöin Burke ja Kraut yhdistivät kyselytiedot Facebookin lokitietoihin.
Burke ja Kraut työskentelivät kuitenkin sen vuoksi, että heidän ei tarvinnut käsitellä kahta suurta ongelmaa, joita tutkijat rikastuttavat ja vaativat tyypillisesti kasvot. Ensinnäkin tosiasiallisesti yhdistävien yksittäisten tason tietueiden yhdistäminen voi olla vaikeaa, jos kummassakin tietolähteessä ei ole yksilöllistä tunnistetta, jota voidaan käyttää varmistamaan, että tietyssä tietueessa oleva oikea tietue vastaa oikeaa tietuetta muussa tietokokonaisuudessa. Toinen tärkein ongelma rikastetulla kyselemällä on, että suuren tietolähteen laatu on usein vaikea arvioida tutkijoiden keskuudessa, koska prosessi, jonka kautta tiedot luodaan, voi olla omaperäinen ja saattaa olla altis moniin lukuihin 2 kuvattuihin ongelmiin. Toisin sanoen, rikastut kyselyihin liittyy usein virheellisiä linkittämisiä kyselyihin mustan laatikon tietolähteille, jotka ovat tuntemattomia. Näistä ongelmista huolimatta rikastut kyselyt voidaan kuitenkin käyttää tärkeän tutkimuksen tekemiseen, kuten Stephen Ansolabehere ja Eitan Hersh (2012) osoittivat heidän äänestyskäyttäytymistään Yhdysvalloissa.
Äänestysaktiivisuus on ollut laaja poliittisen tutkimuksen tutkimus ja aiemmin tutkijoiden käsitys siitä, kuka äänestää ja miksi se on yleensä perustunut kyselytietojen analysointiin. Äänestäminen Yhdysvalloissa on kuitenkin epätavallinen käyttäytyminen siinä, että hallitus kirjaa, onko jokainen kansalainen äänestänyt (tietysti hallitus ei kirjaa jokaista kansalaista äänestäen). Monien vuosien ajan nämä hallitusten äänestysrekisterit olivat saatavilla paperimuodossa, hajallaan eri paikallishallinnon toimistoissa ympäri maata. Tämä teki hyvin vaikeaksi, mutta ei mahdottomaksi poliittisten tutkijoiden täydellisen kuvan äänestäjistä ja verrata niitä, joita ihmiset sanovat mielipidemittauksista äänestyksiinsä (Ansolabehere and Hersh 2012) .
Nämä äänestysrekisterit on nyt digitoitu, ja useat yksityiset yritykset ovat järjestelmällisesti keränneet ja yhdistäneet ne tuottamaan kattavia äänestyskansioita, jotka sisältävät kaikkien amerikkalaisten äänestyskäyttäytymisen. Ansolabehere ja Hersh sopivat yhteen näistä yrityksistä - Catalist LCC -, jotta he voisivat käyttää isoja äänestystiedostojaan kehittääkseen paremman kuvan äänestäjistä. Lisäksi, koska niiden tutkimus perustui digitaaliseen kirjanpitoon, joka keräsi ja suunnitteli yritystä, joka oli panostanut huomattavasti resursseja tiedonkeruun ja yhdenmukaistamisen alalla, tarjosi useita etuja verrattuna aikaisempaan ponnistukseen, joka oli tehty ilman yritysten avustusta ja analogisten tietueiden avulla.
Kuten monet suuret tietolähteet, luvussa 2, Catalistin päätiedosto ei sisältänyt paljon Ansolabehere ja Hershin väestö-, asenne- ja käyttäytymistietoja. Itse asiassa he olivat erityisen kiinnostuneita vertailemasta raportoitua äänestyskäyttäytymistä tutkimuksissa, joilla oli validoitu äänestyskäyttäytyminen (eli tiedot Catalist-tietokannasta). Siksi Ansolabehere ja Hersh keräsivät haluamansa tiedot suurena sosiaalikyselynä, CCES: ssä, jota tässä luvussa mainittiin. Sitten he antoivat tiedot Catalistille, ja Catalist antoi heille takaisin yhdistetyn datatiedoston, joka sisälsi validoitu äänestyskäyttäytyminen (Catalistista), CCES: n ilmoittama äänestyskäyttäytyminen ja vastaajien demografiset ja asenteet (CCES: stä) (kuva 3.13). Toisin sanoen Ansolabehere ja Hersh yhdistivät äänestystulokset tutkimustietoihin, jotta tutkimusta ei ollut mahdollista joko tietolähteellä erikseen.
Ansolabehere ja Hersh yhdistivät datatiedostoaan kolme tärkeää päätelmää. Ensinnäkin äänestyksen yliarviointi on runsaasti: lähes puolet ei-vastaajista ilmoitti äänestämästä ja jos joku ilmoitti äänestämästä, on vain 80 prosentin mahdollisuus, että he todella äänestivät. Toiseksi, yli-raportointi ei ole satunnaista: yli-raportointi on yleisempi korkean tulotason, hyvin koulutettujen, julkisten asioiden parissa työskentelevien osapuolten keskuudessa. Toisin sanoen ihmiset, jotka todennäköisimmin äänestävät, ovat myös todennäköisesti valehtelijoita äänestämisestä. Kolmanneksi ja kaikkein kriittisimmäksi, ylituotannon järjestelmällisen luonteen vuoksi äänestäjien ja ei-ikäisten väliset todelliset erot ovat pienemmät kuin ne näyttävät vain kyselyistä. Esimerkiksi kandidaatin tutkinnon suorittaneet ovat noin 22 prosenttiyksikköä todennäköisemmin raportoimaan äänestyksestä, mutta vain 10 prosenttiyksikköä todennäköisemmin äänestävät. Ei ehkä yllättävää, että nykyiset äänestyspohjaiset äänestyssanat ovat paljon parempia ennustamaan, kuka raportoi äänestyksestä (joka on tietoja, joita tutkijat ovat käyttäneet aiemmin) kuin he ennustavat, kuka todella äänestää. Näin ollen Ansolabehere and Hersh (2012) empiirinen havainto vaativat uusia teorioita ymmärtämään ja ennustamaan äänestystä.
Mutta kuinka paljon meidän pitäisi luottaa näihin tuloksiin? Muista, että nämä tulokset riippuvat virheellisestä linkittämisestä mustan laatikon tietoihin, joissa on tuntemattomia virheitä. Tarkemmin sanottuna tuloksia saranoidaan kahdella avainvaiheella: (1) Catalistin kyky yhdistää monta eri tietolähdettä tarkan master-datatiedoston tuottamiseksi ja (2) Catalistin kyky linkittää kyselyn tiedot sen päädatatiedostoon. Jokainen näistä vaiheista on vaikeaa, ja molempien vaiheiden virheet voivat johtaa tutkijoiden tekemään väärät johtopäätökset. Sekä tietojenkäsittely että linkittäminen ovat kriittisiä katalistin jatkuessa olemassaolona yrityksessä, joten se voi sijoittaa resursseja näiden ongelmien ratkaisemiseen, usein sellaisessa määrin, ettei akateeminen tutkija pysty vastaamaan. Ansolabehere ja Hersh tekevät paperissaan useita vaiheita näiden kahden vaiheen tulosten tarkastamiseksi - vaikka jotkut niistä ovatkin omia - ja nämä tarkistukset saattavat olla hyödyllisiä muille tutkijoille, jotka haluavat yhdistää kyselyn tiedot mustan laatikon suurille tiedoille lähteet.
Mitkä ovat opinnot, jotka tutkijat voivat tehdä tästä tutkimuksesta? Ensinnäkin on valtavaa arvoa sekä rikastuttaessa suuria tietolähteitä, joissa on kyselytutkimuksia ja rikastuttu tutkimustietoja suurilla tietolähteillä (näet tämän tutkimuksen joko tavalla). Yhdistämällä nämä kaksi tietolähdettä tutkijat pystyivät tekemään jotain, joka oli mahdotonta joko erikseen. Toinen yleinen oppitunti on, että vaikka yhdistettyjä kaupallisia tietolähteitä, kuten Catalistin tietoja, ei pidä pitää "totuuden totena", joissakin tapauksissa ne voivat olla hyödyllisiä. Skeptikot joskus vertaavat näitä aggregoituja, kaupallisia tietolähteitä absoluuttisen totuuden kanssa ja huomauttavat, että nämä tietolähteet ovat lyhyitä. Tässä tapauksessa skeptikot kuitenkin tekevät vääriä vertailuja: kaikki tutkijoiden käyttämä tieto jää alle absoluuttisen totuuden. Sen sijaan on parempi vertailla aggregoituja kaupallisia tietolähteitä muiden saatavilla olevien tietolähteiden kanssa (esim. Itse ilmoitettu äänestyskäyttäytyminen), jolla on aina myös virheitä. Lopuksi Ansolabeheren ja Hershin tutkimuksen kolmas yleiskatsaus on se, että tietyissä tilanteissa tutkijat voivat hyötyä valtavista investoinneista, joita monet yksityiset yritykset tekevät keräämään ja yhdenmukaistamaan monimutkaisia sosiaalisia tietojoukkoja.