Yn ferrjochte fraach stelt sondersgegevens kontekst om in grutte gegevensboarne dy't inkele wichtige mjittingen befettet, mar oare oaren fiele.
Ien manier om gemoedingsgegevens te kombinearjen en grutte gegevensboarnen is in proses dat ik anrichde freegje om te freegjen . Yn fertroude fragen befettet in grutte gegevensboarne in pear wichtige mjittings, mar fiele oare maatregels wêrtroch't de ûndersiker dizze fereaske mjittings yn in oersicht sammelt en de twa gegevensboarnen byinoar keppelje. In foarbyld fan fergese fraach is de stúdzje fan Burke and Kraut (2014) oer hoe't ynteraktyf op Facebook de freonskip kriget, dy't ik yn paragraaf 3.2 beskreaun). Yn dat gefal kombine Burke en Kraut gegevensgegevens mei Facebook-loggegevens.
De ynstelling wêrby't Burke en Kraut wurken, betsjutte lykwols dat se net mei twa grutte problemen hannelje soene dat ûndersikers ferrotsje soene typysk gesicht freegje. Earst kinne jo de databesets yndividueel opnij ferpleatse, in proses dat opnij ferbining keppele kin swier wêze as der gjin unyk identifier is yn sawol gegevensboarnen dy't gebrûk meitsje kinne om te soargjen dat de korrekte opmaak yn ien dataset oerienkomt mei de juste opnaam yn 't oare dataset. It twadde haadprobleem mei oanfrege fraach is dat de kwaliteit fan 'e grutte gegevensboarne faak dreech wêze soe foar ûndersikers om te beoardielje omdat it proses troch hokker gegevens opnommen wurde kin proprietêr wêze en kin in soad wêze foar in protte fan de problemen yn haadstik 2 beskreaun. Mei oare wurden, befreone fraach sil faak in flater-oanbiede ferbining meitsje fan oersjoggen nei swarte-fêste data boarnen fan ûnbekende kwaliteit. Nettsjinsteande dizze problemen kinne lykwols ferrinnende fragen brûkt wurde om wichtige ûndersyks te dwaan, lykas troch Demos Ansolabehere en Eitan Hersh (2012) oanwêzich binne yn har ûndersyk nei stimmingsmuster yn 'e Feriene Steaten.
De kandidatelist is it ûnderwerp fan wiidweidich ûndersyk yn politike wittenskip en, yn it ferline, ûndersikers fan 'e ferstean fan wa't stimme en wêrom yn' t algemien basearre is op de analyse fan survey data. De stimming yn 'e Feriene Steaten is lykwols in ungewoante gedrach yn dat de regearing beslist oft elke boarger stie is (fansels is it regear net opslein wa't elke boarger stimme). Foar in protte jierren binne dizze regearingsstatistiken op papierfoarmen beskikber steld, ferspraat yn ferskillende lokale repositoaren om it lân hinne. Dit makken it tige swier, mar net ûnmooglik, om politike wittenskippers in folslein byld fan 'e elektroanate te hawwen en te fergelykjen hokker minsken sizze yn ûndersiken oer it stimulearjen mei har feitlik gedrach (Ansolabehere and Hersh 2012) .
Mar dizze stimmen binne no digitalisearre, en in oantal partikuliere bedriuwen hawwe systematysk sammele en fusearre har om kompleet masterbehearders te meitsjen dy't it stimulearjen fan alle Amerikanen befetsje. Ansolabehere en Hersh partneren mei ien fan dizze bedriuwen-kataliste LCC-yn om har master-stimmen triem te brûken om in bettere byld fan 'e wittenskip te ûntwikkeljen. Fierder, om't har stúdzje oanwiisde op digitale opsjes dy't sammele en koördineare waarden troch in bedriuw dat wichtige boarnen yn datasammeljen en harmonisaasje ynsetten hat, it in oantal foardielen oanbean oer eardere ynsetten dy't dien wurde sûnder de help fan bedriuwen en troch it brûken fan analog records.
Lykas in protte fan de grutte gegevensboarnen yn haadstik 2 hat de haadtekst fan Catalist gjin folle ynfloed fan 'e demografyske, attitudinale en gedrachsgegevens dy't Ansolabehere en Hersh nedich hawwe. Yn feite wiene hja benammen ynteressearre yn it fergelykjen fan rapportearre gedrachsgedrach yn oersjen mei gevalidearre stimulearjend gedrach (dat is de ynformaasje yn 'e Katalistyske databank). Sa sammele Ansolabehere en Hersh de gegevens dy't se wiene as in grutte sosjale survey, de CCES, earder neamd yn dit haadstik. Dêrnei joegen se harren gegevens oan Catalist, en Catalist joech har in ferdielde gegevensbestân werom, dy't befetsje folslein stimmingsgedrach (fan Catalist), it sels rapportearre ferkiezingsgedrach (fan CCES) en de demografy en hâlding fan respondinten (fan CCES) (figuer 3.13). Mei oare wurden, Ansolabehere en Hersh kombinearje de gegevens fan stimmberjochtingen mei ûndersiidsdata yn opdracht te dwaan ûndersyksjen dat net mei ien of kin kin wurde troch data gegevens.
Mei har kombinearre gegevensbestân kaam Ansolabehere en Hersh ta trije wichtige konklúzjes. Earst, it rapportearjen fan stimmen is rampant: hast de helte fan 'e non-voters rapportearre ferkiezingen, en as immen rapportearre is, is der mar in 80% kâns dat se feitlik stimme. Twadder, it rapportearjen is net willekeurich: it rapportearjen is meast foardieler by hege ynkomsten, goed-edulearre, partisanen dy't dwaande binne yn publike saken. Mei oare wurden, de minsken dy't it meast wierskynlik binne te stimmen, binne ek meastentiids oer it stim te ligen. Tredde, en meast kritysk, fanwege de systematyske aard fan it rapportearjen, binne de eigentlike ferskillen tusken kiezers en netvoters lytser as se gewoanwei út 'e ûndersiken ferskine. Bygelyks binne dejingen dy't mei in bachelorstudium sa'n 22 persint punten sa faker wierskynlik protestearje, mar wurde mar 10 persint punten mear wierskynlik fiele. It bliuwt, miskien net ferrassend, dat besteande resource-basearre teoryen fan stimmen folle better binne foar it foarigjen fan wa't rapport rapporteart (wat de gegevens dy't ûndersikers yn it ferline brûkt hawwe) as se prate wurde fan wa't echt stimme. Sa kin de empiryske fynst fan Ansolabehere and Hersh (2012) oproppe foar nije teoryen om te begripen en te praten.
Mar hoefolle moatte wy dizze resultaten fertrouwe? Tink derom dat dizze resultaten ôfhannelje fan flater-gefoelige keppeling nei swarte-gegevens mei ûnbekende mjittingen fan flater. Mear spesifyk slaan de resultaten op twa wichtige stappen: (1) de mooglikheid fan Catalist om in protte ferskate databele boarnen te kombinearjen om in krekte masterdatefile te meitsjen en (2) de mooglikheid fan Catalist om de ûndersyksgegevens te keppeljen nei har masterdatefile. Elk fan dizze stappen is dreech, en fouten yn elke stap kinne ûndersikers liede ta de ferkearde konklúzjes. De beide dataferwurking en keppeling binne lykwols kritysk foar it fierdere bestean fan Catalist as bedriuw, dus kin it ynvestearjen fan middels by it oplossen fan dizze problemen, faak op in skaal dy't gjin akademysk ûndersiker meidwaan kin. Yn har papier giet Ansolabehere en Hersh troch in oantal stappen om de resultaten fan dizze twa stappen te kontrolearjen - al binne guon fan har proprietarysk - en dizze kontrôles kinne helpt wêze foar oare ûndersikers dy't fergees befetsje ferwizingsgegevens nei swart-bôge grutte gegevens boarnen.
Wat binne de algemiene lessen dy't ûndersikers út dizze stúdzje litte kinne? Alderearst is der geweldige wearde as fan gruttere gegevensboarnen te berikken mei ûndersiikendaten en fan it befestigjen fan gegevensgegevens mei grutte gegevensboarnen (jo kinne dizze stúdzje yn elk wize sjen). Troch it kombinearjen fan dizze twa gegevensboarnen, kinne de ûndersikers wat dwaan koenen dat ûnmooglik wie mei yndividu. De twadde algemiene leste is dat alwer aggregearre binne, kommerzele gegevensboarnen, lykas de gegevens fan Catalist, moatte net beskôge wurde as "grûnwiziging", yn guon gefallen kinne se brûkber wêze. Skeptiken ferlykje dizze aggregearre, kommersjeel gegevensboarne mei absolute wierheid te ferlykjen en klikje dat dizze gegevensboarnen koarte falle. Lykwols, yn dit gefal meitsje de skeptisy de ferkearde ferliking: alle gegevens dy't ûndersikers brûke falle fan absolute wierheid. Ynstee dêrfan is it better om aggregearre, kommersjeel gegevensboarnen te fergelykjen mei oare beskikbere gegevensboarnen (bgl. Sels-rapportearre stimmingsgedrach), dy't allinich flater hawwe. Uteinlik is de tredde algemiene lesioade fan Ansolabehere en Hersh's stúdzje dat yn guon situaasjes de ûndersikers profitearje kinne fan 'e grutte ynvestearrings dy't in soad partikuliere bedriuwen meitsje yn it sammeljen en harmonisearjen fan komplekse sosjale datafets.