Ek al is it kin wêze rommelich, ferrike freegje kin wêze krêftich.
In oare oanpak fan it omgean mei de incompleteness fan digitale spoare gegevens is te ferrykjen it direkt mei ûndersyk gegevens, in proses dat ik neame ferrike freegje. Ien foarbyld fan ferrike freget is de stúdzje fan Burke and Kraut (2014) , dêr't ik beskreaun earder yn it haadstik (paragraaf 3.2), oer de fraach oft interacting op Facebook ferheget freonskip krêft. Yn dat gefal, Burke en Kraut kombinearre ûndersyk gegevens mei Facebook log gegevens.
De ynstelling dy't Burke en Kraut waarden wurkjen yn, lykwols, betsjutte dat se net hawwe te krijen mei twa grutte problemen dy't ûndersikers dogge ferrike freegje gesicht. Earst, eins keppeling tegearre de gegevens sets-in proses neamd record linkage, de oerienkommende fan in rekôr yn ien dataset mei it passend rekord yn de oare dataset-kin wêze dreech en flater-gevoelig (wy sjogge in foarbyld fan dit probleem hjirûnder ). De twadde wichtichste probleem fan ferrike freget is dat de kwaliteit fan de digitale spoaren sille faak wêze dreech foar ûndersikers te beoardieljen. Bygelyks, soms it proses troch dat it wurdt sammele is kommersjele en koe wêze gefoelich foar in protte fan 'e problemen beskreaun yn haadstik 2. Yn oare wurden, ferrike freegje sil faak belûke error-gevoelig keppeling fan enkêtes om swart-box gegevens boarnen fan ûnbekende kwaliteit. Nettsjinsteande de soargen dy't dizze twa problemen yntrodusearje, is it mooglik om te fieren wichtich ûndersyk mei dizze strategy as waard bewiisd troch Stephen Ansolabehere en Eitan Hersh (2012) yn harren ûndersyk op stimmen patroanen yn 'e Amerikaanske. It is de muoite wurdich om te gean oer dit ûndersyk yn guon detail, omdat in protte fan de strategyen dy't Ansolabehere en Hersh ûntwikkele sil wêze handich yn oare tapassingen fan ferrike freegje.
Voter opkomst is it ûnderwerp fan wiidweidich ûndersyk yn politikology, en yn it ferline, ûndersikers 'begryp fan wa't stimmen en wêrom hat algemien is basearre op de analyze fan taalûndersiken. Stimme yn 'e Amerikaanske, lykwols, is in ûngewoane gedrach yn dat de oerheid records oft eltse boarger hat stimd (fansels, de oerheid net opnimme dy't eltse boarger stimmen foar). Foar in soad jierren, dizze bestjoerlike stimmen records wiene beskikber op papier foarmen, ferspraat yn ferskate lokale oerheid kantoaren om it lân. Dit makke it dreech, mar net ûnmooglik, om politike wittenskippers hawwe in folslein byld fan 'e Electorate en te ferlykjen wat minsken sizze yn ûndersiken oer stimming oan harren eigentlike stimgedrach (Ansolabehere and Hersh 2012) .
Mar, no dy stimming records binne digitalisearre, en in oantal fan partikuliere bedriuwen hawwe systematysk sammele en fusearre dy stimmen records te produsearjen wiidweidich master stimmen triemmen dy't opnimme it stimgedrach fan alle Amerikanen. Ansolabehere en Hersh partnered mei ien fan dizze bedriuwen-Catalist LCC-om te brûken harren hear stimmen triem te helpen ûntwikkeljen in better byld fan 'e Electorate. Fierder, omdat it steunde op digitale records sammele en curated troch in bedriuw, dat oanbean in oantal foardielen oer eardere ynspannings troch ûndersikers dat hie dien sûnder de help fan bedriuwen en help fan analoge records.
Lykas in protte fan 'e digitale spoare boarnen yn haadstik 2, it Catalist master triem net binne folle fan de demografyske, attitudinale, en gedrachsproblemen ynformaasje dy't Ansolabehere en Hersh nedich. Neist dizze ynformaasje, Ansolabehere en Hersh wienen benammen ynteressearre yn fergelykjen rapportearre stimgedrach nei falidearre stimgedrach (dat wol sizze, de ynformaasje yn 'e Catalist databank). Sa, de ûndersikers sammele de gegevens dy't se woe as part fan de Koöperative Congressional Election Study (CCES), in grutte sosjale ûndersyk. Folgjende, de ûndersikers joech dizze gegevens oan Catalist, en Catalist joech de ûndersikers werom in gearfoegde gegevens triem dat ek falidearre stimgedrach (út Catalist), it jinsels-rapportearre stimgedrach (út CCES) en de demografy en hâlding fan respondinten (út CCES ). Yn oare wurden, Ansolabehere en Hersh ferrike de stimmen gegevens mei ûndersyk gegevens, en de dêrút gearfoegde triem makket har te dwaan wat dat noch triem ynskeakele yndividueel.
Troch enriching de Catalist master gegevens triem mei ûndersyk gegevens, Ansolabehere en Hersh kaam nei trije wichtige konklúzjes. Earste, oer-melden fan stimmen is rampant: hast de helte fan de net-kiezers melde fan stimmen. Of, in oare wize fan sjen nei it is oft immen melde stimming, is der mar in 80% kâns dat se eins stimd. Twadde, over-rapportaazje is net samar; over-rapportaazje is faker ûnder hege-ynkomsten, goed-oplieding, Partisans dy't dwaande yn iepenbiere oangelegenheden. Yn oare wurden, de minsken dy't de measte kâns om te stimmen binne ek nei alle gedachten te lizzen oer it stimmen. Tredde, en meast kritysk, want fan it systematyske karakter fan over-ferslachjouwing, it werklike ferskillen tusken kiezer en net-kiezers binne lytser as se ferskine krekt út ûndersiken. Bygelyks, dy mei in bachelors graad binne oer 22 prosintpunten mear kâns te melden stimming, mar binne mar 10 prosintpunten mear kâns te eigentlike stimming. Fierder, besteande resource-basearre teoryen fan stimmen binne folle better op it foarsizzen fan wa sil rapportearje stimmen as dy't eins stimmen, in empiryske fynst dat ropt foar nije teoryen te begripen en foarsizze fan stimmen.
Mar, hoefolle moatte wy fertrouwe dizze resultaten? Unthâld dizze resultaten ôfhinklik op flater-gevoelig keppeling nei swart-box gegevens mei ûnbekende bedraggen fan flater. Mear spesifyk, de resultaten hinge op twa wichtige stappen: 1) de mooglikheid fan Catalist te kombinearjen protte disparate gegevens boarnen te produsearje in accurate master to update en 2) it fermogen fan Catalist te keppeljen it ûndersyk gegevens oan syn master to update. Elk fan dizze stappen is hiel dreech en flaters oan beide stap koe liede ûndersikers oan de ferkearde konklúzjes. Mar, beide gegevens ferwurkjen en oerienkommende binne kritysk foar it fuortbestean fan Catalist as in bedriuw dus it kin ynvestearje middels yn oplossen fan dizze problemen, faak op in skaal dy't gjin yndividuele akademyske ûndersiker of groep fan ûndersikers kinne oerien. Yn de fierder lêzen oan 'e ein fan it haadstik, ik beskriuwe dizze problemen yn mear detail en hoe't Ansolabehere en Hersh bouwen fertrouwen yn har resultaten. Hoewol't dizze details binne spesifyk foar dizze stúdzje, saken te ferlykjen mei dy sil ûntstean foar oare ûndersikers dy't keppele binne mei swart-box digitale spoare gegevens boarnen.
Wat binne de algemiene lessen ûndersikers kinne lûke út dit ûndersyk? Earste, is der grutte wearde fan enriching digitale spoaren mei taalûndersiken. Twadde, ek al dizze byinoar opteld, kommersjele gegevens boarnen moatte net beskôge wurde "grûn wierheid", yn guon gefallen se kin brûkber wêze. Yn feite is it bêste te ferlykjen dizze gegevens boarnen net nei absolute Truth (út dêr't se sille altyd falle koarte). Krektoarsom, it is better te ferlykjen se nei oare beskikber gegevens boarnen, dy't steefêst hawwe flaters as goed.