Bei Berechnungen, déi bereet sinn, baut d'Ëmfragendaten Kontext ëm eng grouss Datenquelle, déi e puer wichteg Mesure enthalen, awer och aner.
Een Wee fir Miessdaten a grousse Datenquellen ze kombinéieren ass e Prozess deen ech Angscht wëllt stellen . A bereet fir eng grouss Datenquelle enthält e puer wichteg Mesuren, awer keng aner Moossnamen, sou datt de Fuerscher dës fehlend Miessungen an enger Ëmfuederung sammelt an dann déi zwee Datenquellen zesummen verbonne sinn. Ee Beispill vu Berechnunge fir Angscht ass d'Studie vu Burke and Kraut (2014) iwwer d'Interaktioun op Facebook erhéijen d'Frëndschaft Stäerkt, déi ech am Abschnitt 3.2 beschreift). Duerno huet Burke an Kraut Ëmfroossdaten mat Facebook Log-Daten kombinéiert.
D'Ëmfeld, woubäi d'Burke a Kraut funktionnéieren, hunn awer geduecht, datt se net mat zwee grousse Problemer beschäftegt hunn, déi Forscher déi bereet sinn, normalerweis Gesiicht ze maachen. Eischtens, zesummen mat den eenzelne Datebanksets, engem Prozess genannt Linkverbindung , kann schwiereg sinn, wann et keen eenzegen Identifizéierer an deenen zwee Datenquellen gëtt, déi benotzt kënne fir sécherzestellen, datt déi richteg Rekord an engem Dataset mat der korrekt Plack an den aneren Dataset. Déi zweet Haaptproblemer mat Angscht ofleeën ass datt d'Qualitéit vun der grousser Datenquelle schwiereg fir d'Fuerscher schwätzen ze bemierken well de Prozess, duerch deen d'Donnéeën erstallt ginn, propriétaire sinn a kënnen souvill vun de Problemer am Kapitel 2 beschriwwe ginn. An anere Wierder, angoettlech Erlaabnes gëtt vill Fehlversuch mat Verknëppung vun Ëmfroen zu Schachkëschendaten aus onbekannter Qualitéit. Trotz dëser Fro ass et awer bereet fir eng wichteg Analyse ze maachen, wéi et dem Stephen Ansolabehere an dem Eitan Hersh (2012) an hirem Research iwwer Wahlmuster an den USA bewisen huet.
D'Auswiel vun der Wahle war Thema vum ausgedehnte Fuerschungswëssen an der Politescher Wëssenschaft, an an der Vergaangenheet ass d'Fuerscher d'Verstoe vu Stëmmen a firwat all Mount op d'Analyse vun den Umeldungsdaten baséiert. D'Stëmmung an de Vereenegte Staaten ass awer e ongewéinlech Verhalen datt d'Regierung iwwerpréift ob jiddfereen huet gewielt (natierlech, d'Regierung erënnert net, wéi jidderee säi Bierger huet Stëmmen). Zënter ville Joren hunn déi Regierungsrotschef op Papiergesformen opgestallt, opgestallt an verschiddene lokale Regierungsbüroen ronderëm d'Land. Dëst huet et schwéier, awer net onméiglech, fir politesch Wëssenschaftler eng komplett Biller vun der Wahllëscht ze hunn an ze vergläichen wat d'Leit an Ëmfroen iwwert hir Stëmme féieren mat hirem aktuellen Vote Verhalen (Ansolabehere and Hersh 2012) .
Awer dës Stëmmeres sinn aktuell digitaliséiert ginn, a verschidden Entreprisen hunn systematesch gesammelt a fusionéiert datt se komplett iwwerdimensionnel Stierfbezeechnunge produzéieren, déi de Wahleverhalen vun alle Amerikaner hunn. D'Ansolabehere an d'Hersh hunn mat engem vun dëse Firmen-Katalanen LCC-Partner geschafft fir hir Meeschtertotot ze benotze fir eng besser Bild vun der Wahllécker ze entwéckelen. Ausserdeem, well hir Studie op digitale Rekord gesammelt a gesammelt gouf vun enger Firma, déi substantiell Ressourcen an der Datenerfassung an der Harmoniséierung investéiert huet, huet se e puer Virdeeler iwwer eelsten Efforten gemaach, déi ouni d'Hëllef vun Entreprisen gemaach goufen an duerch d'Analog-Akten ze maachen.
Wéi vill vun de groussen Datenquellen am Kapitels 2 huet d'katalistesch Meeschterschaft net vill vun der demographescher, attitudinaler a Verhalensinformatioun bezeechent datt d'Ansolabehere an Hersh néideg waren. Tatsächlech sinn se besonnesch interesséiert am Verglach mat engem gemoossene Votingverhalen an Ëmfroen mat validéierte Stëmmverhalen (dh d'Informatioun an der Catalist Datenbank). Also huet d'Ansolabehere an d'Hersh d'Daten gesammelt, déi se als grouss sozialen Ëmfro, de CCES, déi virdrun an dësem Kapitel erwähnt hunn, wollten. Duerno hunn se mat Daten zu Catalist geännert, an de Katalisten huet se eng fusionnéierte Datebank zréckgezunn, déi de validéierte Stëmmungsverhalen (vu Katalisten), d'Selbstberechtegten Ofwiesselungsvoting (vu CCES) an d'Demografie an d'Haltung vun den Interviewten (vun CCES) 3.13). An anere Wierder, d'Ansolabehere an d'Hersh kombinéiert d'Datumer fir Stëmmen Datebank mat Survey Daten fir d'Fuerschung ze maachen, déi net mat enger Datenquell individuell ass.
Mat hirem kombinéierte Datendatei huet d'Ansolabehere an d'Hersh bei dräi wichteg Schlëss koum. Eischtens, d'Reportage vun der Ofstëmmung ass rampant: bal d'Halschent vun den Netvotéierer, déi rapportéiert sinn, a wann eng Persoun rapportéiert gëtt, gëtt et nëmmen eng 80% Chance, déi se gewielt hunn. Zweetens, iwwer-Reporting ass net zoufälleg: Iwwer-Reporting ass méi heefeg bei héichgeheechenen, gutt ausgebilten, Partisanen déi an ëffentlechen Affären engagéiert sinn. An anere Wierder, d'Leit, déi am héchstwahrscheinlechsten an der Stëmm sinn, sinn och wahrscheinlech zu der Wahl. Déi drëtt an déi kritesch, duerch déi systematesch Natur vum Over-Reporting, sinn d'tatsächlech Ënnerscheeder tëscht de Wieler an Netvoteren méi kleng, wéi se nëmmen aus Ëmfroen erscheinen. Zum Beispill, déi mat engem Bachelor-Ofschloss sinn ongeféier 22 Prozentpunkte méi wahrscheinlech fir d'Wahlen ze rapportéieren, awer nëmmen 10 Prozentpunkten méi e wichtegen ze wäschen. Et stellt sech eraus, datt et net iwwerraschend gëtt, datt existent Ressourcen-baséiert Theorië vun der Wahle méi besser sinn, fir datt en votéiert gëtt (wat d'Donnéeen déi d'Fuerscher hunn an der Vergaangenheet benotzt) wéi se virgoen, wien eigentlech stëmmen. Dofir Ansolabehere and Hersh (2012) d'empiresch Aarbecht vu Ansolabehere and Hersh (2012) fir nei Theorië ze verstoen an ofzeschwätzen.
Mä wéi vill misst mir dës Resultater vertrauen? Vergiesst net, datt dës Resultater dovun ofrange sinn datt d'Verknëppung mat Black Box Daten mat onbekannte Mounts vu Feeler. Méi genau ginn d'Resultater op zwee Schlësselen: (1) d'Kapazitéit vum Catalist fir vereent differenzéierten Datenquellen ze kombinéieren fir e genaue Meeschter-Dossier ze produzéieren an (2) d'Kapazitéit vum Katalanen fir d'Ëmfro vun Daten zu hirem Meeschtertafel ze verbannen. Jidd vun dësen Schrëtt ass schwéier, an de Feeler an e Stage kënnen d'Fuerscher op déi falsch Schlussfolger ze féieren. Mä datt d'Datenveraarbechtung an d'Verknëppung kritesch sinn fir d'Existenz vu Katalisten als Firma, sou datt et Ressourcen investéiere fir d'Problemer ze léisen, a vläit och an enger Skala déi keng akademesch Fuerscher matenee passen. An hirem Pabeier, d'Ansolabehere an d'Hersh ginn duerch eng Rei Schrëtt duerchgefouert fir d'Resultater vun dësen zwou Schrëtt ze iwwerpréiwen - obwuel e puer vun hinnen propriétaire sinn - an déi Kontrollen kënnen nëtzlech sinn fir aner Fuerscher déi d'Summervendelschrëften an d'Blackbox grouss Daten Quelle ginn.
Wat sinn d'Generalanlegeure Fuerscher aus dëser Etude ze huelen? Als Éischt gëtt et enorm vill wéi bei grousser Datenquelle mat Ëmfroendaten an der Angscht vun Ëmfroossdaten mat grousser Datenquelle (Dir kënnt dës Studie entweder erreechen). Duerch d'Kombinatioun vun dësen zwou Datenquellen konnten d'Fuerscher eppes maachen wat net mat eenzele kann onméiglech war. Déi zweet Allgemeng Lektioun ass datt, obwuel agagregéiert gëtt, kommerziellen Datenquellen, wéi d'Daten vum Katalisten, net als "Grondwäerter" gedeelt ginn, a ville Fäll kënnen se nëtzlech sinn. Skeptiker verdeelen d'Zäitexter déi aggregéiert, kommerziellen Datenquell mat absoluter Truth a vergläichen dat dës Datenquelle kleng sinn. An dësem Fall sinn d'Skeptiker déi falsch Verdeelung: All Daten déi d'Fuerscher verbrauchen mat der absoluter Wahrheit. Statt besser ass et aggregéiert, kommerziellen Datenquellen mat aneren verfügbaren Datenquellen (z. B. selwer berichtleche Stëmmungsverhalen), déi ëmmer fehlerhaft vergleichen. Endlech ass d'drëtt Generalstëmmung vun der Ansolabehere an der Hersh-Studie datt an verschiddene Situatiounen d'Fuerscher profitéieren vun deene riesegen Investitioune déi vill Privatfirmen eng Sammlung an Harmoniséierung vu komplexe soziale Dateschutz maachen.