Nors ji gali būti nepatogus, praturtintas klausia, gali būti galingas.
Kitoks požiūris į susijusius su skaitmeninių pėdsakų duomenų netikslumai yra praturtinti jį tiesiogiai su tyrimo duomenimis, procesas, kad aš kviesiu praturtintą paklausti. Vienas iš pavyzdžių prisodrinto klausia studijų Burke and Kraut (2014) , kuri aprašiau anksčiau skyriuje (3.2 skirsnis), apie tai, ar bendrauja "Facebook" didina draugystės stiprumą. Tokiu atveju, Burke ir Kraut kartu apklausos duomenis su Facebook Prisijungti duomenis.
Nustatymas, kad Burke ir Kraut dirbo, tačiau tai reiškia, kad jie neturėjo elgtis su dviejų didelių problemų, mokslininkai daro praturtintą prašydamas veidą. Pirma, iš tikrųjų sujungiant duomenų rinkinių-procesas vadinamas rekordinį ryšį, apskaitos žurnalą suderinti vienoje rinkinį su atitinkamu įrašu Kita rinkinys-gali būti sunku ir klaidų tikimybė (mes pamatyti žemiau šios problemos pavyzdys ). Antroji pagrindinė problema prisodrinto klausia, kad skaitmeninių pėdsakų kokybė dažnai būti sunku tyrėjai įvertinti. Pavyzdžiui, kartais procesas, kurio metu buvo renkami yra patentuota ir gali būti jautrūs daugelis aprašytų 2 skyriuje Kitaip tariant problemų, praturtintas klausia bus dažnai dalyvauja klaidos tikimybė susiejimas apklausomis, juoda dėžė duomenų šaltinių nežinomas kokybės. Nepaisant susirūpinimą, kad šios dvi problemos įvesti, tai galima atlikti svarbų tyrimus su šia strategija, kaip buvo įrodyta Stephen Ansolabehere ir Eitan Hersh (2012) savo mokslinių tyrimų apie balsavimo modelius JAV. Tai verta eiti per šį tyrimą gana išsamiai, nes daugelis iš strategijų, kad Ansolabehere ir Hersh išsivysčiusių bus naudinga kitų programų prisodrinto paklausti.
Rinkėjų aktyvumas buvo apie išsamių tyrimų politikos mokslų objektas, ir praeityje, mokslininkų supratimas, kas balsuoja ir kodėl dažniausiai buvo grindžiami apklausos duomenų analize. Balsavimas JAV, tačiau yra neįprastas elgesys, kad Vyriausybė įrašų ar kiekvienas pilietis balsavo (žinoma, Vyriausybė neįrašo Kas kiekvieno piliečio balsai). Jau daugelį metų, šie nevyriausybinių balsavimo įrašų buvo galima ant popierinių formų, išsibarstę įvairiose savivaldybių biuruose visoje šalyje. Tai buvo sunku, bet neįmanoma, politologai turėti išsamų vaizdą apie rinkėjų ir palyginti tai, ką žmonės sako apklausose apie balsavimo faktinį jų balsavimo elgesiu (Ansolabehere and Hersh 2012) .
Bet dabar šios balsavimo įrašai buvo suskaitmeninta ir sistemingai surinkti iš privačių bendrovių skaičius ir susijungė šiomis balsavimo įrašus gaminti kompleksinius meistras balsavimo failų, kurie rodo, jog balsavimo elgesiu visų amerikiečių. Ansolabehere ir Hersh bendradarbiaujame su viena iš šių įmonių-CATALIST LCC-norint naudotis jų Mokytojas balsavimo failą padėti kurti geresnį vaizdą apie rinkėjų. Be to, nes ji rėmėsi skaitmeninių įrašų surinktų ir kuravo bendrovei, jis pasiūlė privalumų nei ankstesnių pastangų mokslininkai, kad buvo padaryta be įmonių paramos ir naudojant analoginius įrašus, skaičių.
Kaip ir daugelis skaitmeninių pėdsakų šaltinių 2 skyriuje, CATALIST pagrindinė byla nebuvo įtraukta daug demografinių, požiūrį į juos, ir informaciją apie elgseną, kad Ansolabehere ir Hersh reikia. Be šios informacijos, Ansolabehere ir Hersh buvo ypač domina lyginant pranešė balsavimo elgesiu į patvirtintą balsavimo elgesiu (ty į CATALIST duomenų bazės informacija). Taigi, mokslininkai surinko duomenis, kad jie norėjo kaip dalis kooperatinės Kongreso rinkimų studijos (CCES), didelis socialinės apklausos. Be to, tyrėjai davė šiuos duomenis į CATALIST ir CATALIST davė tyrėjai atgal susijungęs duomenų failą, kad įtraukti patvirtintą balsavimo elgesiu (nuo CATALIST), savarankiškai pranešė balsavimo elgesiu (nuo CCES) ir demografinius ir požiūrius respondentų (nuo CCES ). Kitaip tariant, Ansolabehere ir Hersh praturtino balsavimo duomenis su apklausos duomenimis, ir dėl to susijungęs failas leidžia jiems kažką daryti, kad nei bylos leido atskirai.
Iki praturtinti CATALIST Master Data failą su apklausos duomenimis, Ansolabehere ir Hersh atvyko į trijų svarbių išvadų. Pirma, per atskaitomybės balsavimo yra siaučiantis: beveik pusė ne rinkėjų pranešė balsavimą. Arba dar vienas žiūri į jį kelias yra, jei kas nors pranešė balsavimą, yra tik 80% tikimybė, kad jie iš tikrųjų balsavo. Antra, per atskaitomybės nėra atsitiktinis; per ataskaitos yra labiau paplitęs tarp aukštas pajamas, gerai išsilavinę, partizanams, kurie užsiima viešųjų reikalų. Kitaip tariant, žmonės, kurie yra labiausiai tikėtina, kad balsuoti taip pat greičiausiai meluoti apie balsavimo. Trečia, ir dauguma kritiškai, nes sistemingai pobūdžio per ataskaitas, tikrieji skirtumai tarp rinkėjų ir ne rinkėjų yra mažesnės nei jie atrodo tiesiog iš apklausose. Pavyzdžiui, tie, su bakalauro laipsnį, yra apie 22 procentinių punktų didesnė tikimybė, kad pranešti apie balsavimo, bet yra tik 10 procentinių punktų didesnė tikimybė, kad faktinės balsavimu. Be to, esamos išteklių pagrindu teorijos balsavimo yra daug geriau prognozuoti kas bus pranešti balsuoti už, kas iš tikrųjų balsų, empiriniu išvada, kad reikia naujų teorijų suprasti ir prognozuoti balsavimo.
Bet, kiek mes turėtume pasitikėti šiuos rezultatus? Įsiminti šie rezultatai priklauso nuo klaidos tikimybė susiejimu juoda dėžė duomenimis su nežinomais sumas klaidų. Tiksliau, rezultatai priklausys nuo dviejų pagrindinių etapų: 1) CATALIST gebėjimas derinti daug skirtingi duomenų šaltiniai gaminti tikslią meistras datafile ir 2) CATALIST gebėjimą susieti apklausų duomenis jos kapitonas datafile. Kiekvienas iš šių etapų yra gana sudėtinga ir klaidų arba žingsnis gali sukelti mokslininkus į klaidingas išvadas. Tačiau ir duomenų apdorojimas ir atitikimas yra labai svarbūs tolesnio egzistavimo CATALIST kaip įmonės, todėl ji gali investuoti išteklius sprendžiant šias problemas, dažnai masto, kad jokia atskira akademinė tyrėjas ar grupė mokslininkų gali sutapti. Be tolesnio svarstymo dėl skyriaus pabaigoje, aš apibūdinti šias problemas išsamiau ir kaip Ansolabehere ir Hersh kurti pasitikėjimą savo rezultatus. Nors šie duomenys yra būdingi šio tyrimo klausimai, panašūs į jų iškils kitų tyrėjų, norintiems susieti su juoda dėžė skaitmeninis pėdsakų duomenų šaltiniais.
Kokie yra bendrieji pamokos tyrėjai gali gauti iš šios studijos? Pirma, yra didžiulė vertė nuo praturtinti skaitmeninius pėdsakus su apklausos duomenimis. Antra, nors jie sudedami, komercinių duomenų šaltiniai neturėtų būti laikomas "žemės tiesa", kai kuriais atvejais jie gali būti naudingi. Tiesą sakant, ji yra geriausia lyginti šiuos duomenų šaltinius ne absoliučios tiesos (iš kurių jie visada nepasieks). Atvirkščiai, tai geriau lyginti juos su kitais turimais duomenų šaltiniais, kurie visada yra klaidų, taip pat.