Sa gipangandoy nga pagpangayo, ang datos sa surbeyyo nagtukod sa konteksto sa palibot sa usa ka dako nga tinubdan sa datos nga naglangkob sa pipila ka importanting mga pagsukod apan kulang sa uban
Usa ka paagi sa pagsagup sa datos sa surbey ug dagkong mga tinubdan sa datos usa ka proseso nga akong tawagon nga gipangayo nga maayo . Sa gipangandoy nga pagpangayo, ang usa ka dako nga tinubdan sa datos naglangkob sa pipila ka mahinungdanon nga pagsukod apan kulang sa ubang mga pagsukod aron ang tigdukiduki mangolekta niining mga nawala nga pagsukod sa usa ka surbey ug dayon magkonektar sa duha ka tinubdan sa datos. Ang usa ka pananglitan sa gipangayo nga gipangayo mao ang pagtuon ni Burke and Kraut (2014) mahitungod kon ang pagpakig-uban sa Facebook nagdugang sa panaghigalaay nga kalig-on, nga gihulagway nako sa seksyon 3.2). Niana nga kaso, ang Burke ug Kraut nagkahiusa nga datos sa surbey sa datos sa log sa Facebook.
Ang kahimtang diin ang Burke ug Kraut nagtrabaho, hinoon, nagpasabut nga dili kinahanglan nga atubangon ang duha ka dagkong mga problema nga gipadato sa mga tigdukiduki nga kasagarang gipangutana. Una, ang aktwal nga pag-link sa usa ka tagsa nga mga datos sa datos, usa ka proseso nga gitawag nga record linkage , mahimo nga malisud kung wala'y talagsaong identifier sa duha ka tinubdan sa datos nga magamit aron sa pagsiguro nga ang husto nga rekord sa usa ka dataset nahitugma sa husto nga rekord sa laing dataset. Ang ikaduha nga nag-unang problema sa gipanghingusgan nga pagpangutana mao nga ang kalidad sa dako nga tinubdan sa datos kanunay nga lisud alang sa mga tigdukiduki nga masusi tungod kay ang proseso diin ang datos gimugna mahimo nga proprietary ug mahimong daling mahitabo sa daghang mga problema nga gihulagway sa kapitulo 2. Sa laing pagkasulti, ang mapuslanon nga pagpangutana sagad nga maglakip sa sayup nga pag-link sa mga surbey sa mga tinubdan sa datos sa itom nga kahon nga wala mahibal-i ang kalidad. Bisan pa niini nga mga problema, ang gipanghingusgan nga pagpangutana mahimong gamiton sa pagpahigayon sa hinungdanong panukiduki, sumala sa gipakita ni Stephen Ansolabehere ug Eitan Hersh (2012) sa ilang panukiduki sa mga sumbanan sa pagboto sa Estados Unidos.
Ang pagbotar sa botante mao ang hilisgutan sa halapad nga panukiduki sa siyensiya sa politika, ug, kaniadto, ang pagsabut sa mga tigdukiduki kung kinsa ang mga boto ug nganong sa kasagaran gibase sa pag-analisar sa datos sa surbey. Ang pagboto sa Estados Unidos, bisan pa, usa ka talagsaon nga kinaiya nga ang gobyerno nagrekord kung ang matag lungsuranon nagboto (siyempre, ang gobyerno wala magrekord kung kinsa ang matag lungsuranong boto alang). Sulod sa daghang katuigan, kini nga mga rekord sa pagbotar sa gobyerno anaa sa mga porma sa papel, nga nagkatag sa nagkalainlaing mga buhatan sa gobyerno sa tibuok nasud. Kini nakapalisud, apan dili imposible, alang sa politikanhong mga siyentipiko nga adunay hingpit nga hulagway sa mga botante ug sa pagtandi kung unsa ang gisulti sa mga tawo sa mga survey mahitungod sa pagbotar sa ilang aktwal nga pagbotar sa pagboto (Ansolabehere and Hersh 2012) .
Apan kini nga mga rekord sa pagbotohan gi-digitize na karon, ug ubay-ubay nga mga pribadong kompaniya ang sistematikong nakolekta ug gitapo sila aron makahimo og komprehensibo nga mga file sa master voting nga naglangkob sa pag-angkon sa pagboto sa tanan nga mga Amerikano. Nakig-uban ang Ansolabehere ug Hersh sa usa niini nga mga kompaniya-Catalist LCC-aron gamiton ang ilang master voting file aron makatabang sa pagpalambo sa mas maayo nga hulagway sa mga botante. Dugang pa, tungod kay ang ilang pagtuon nagsalig sa mga digital nga mga rekord nga nakolekta ug gimugna sa usa ka kompaniya nga namuhunan og igo nga mga kahinguhaan sa pagkolekta sa datos ug pagharmonya, naghatag kini og daghang mga bentaha sa mga nangaging mga paningkamot nga gihimo nga wala ang tabang sa mga kompaniya ug pinaagi sa paggamit sa mga rekord nga analog.
Sama sa daghang dagkong mga tinubdan sa datos sa kapitulo 2, ang Catalist master file wala maglakip sa kadaghanan sa mga impormasyon nga demographic, attitudinal, ug kinaiya nga gikinahanglan ni Ansolabehere ug Hersh. Sa pagkatinuod, sila ilabi na nga interesado sa pagtandi sa gitaho nga pagbotar sa boto sa mga survey nga adunay balido nga kinaiya sa pagbotohan (ie, ang impormasyon sa Catalist database). Busa ang Ansolabehere ug Hersh nakolekta ang datos nga gusto nila ingon nga usa ka dako nga sosyal nga pagsusi, ang CCES, nga gihisgotan sa sayo pa niini nga kapitulo. Dayon ilang gihatag ang ilang datos ngadto sa Catalist, ug ang Catalist mihatag kanila balik sa usa ka giusa nga data file nga naglakip sa validated voting behavior (gikan sa Catalist), ang self-report voting nga kinaiya (gikan sa CCES) ug ang demographics ug mga kinaiya sa mga respondents (gikan sa CCES) 3.13). Sa laing pagkasulti, ang Ansolabehere ug Hersh nagkombinar sa datos sa mga rekord sa pagboto nga adunay datos sa pagsurbi aron ang panukiduki nga dili posible sa tinagsa nga tinubdan sa tinagsa nga impormasyon.
Sa ilang kombinasyon nga data file, si Ansolabehere ug Hersh miabot sa tulo ka importante nga konklusyon. Una, ang sobra nga pagreport sa pagbotar kaylap: hapit sa katunga sa mga nonvoters ang nagtahu sa pagboto, ug kung ang usa ka tawo nagtahu sa pagboto, adunay 80% nga kahigayunan nga sila miboto. Ikaduha, ang sobra nga pagtaho dili sulagma: ang sobrang pagreport mas komon taliwala sa taas nga kinitaan, edukado, partisans nga nakigbahin sa public affairs. Sa laing pagkasulti, ang mga tawo nga tingali mobotar mahimo usab nga mamakak mahitungod sa pagboto. Ikatulo, ug labing mahinungdanon, tungod sa sistematikong kinaiya sa over-reporting, ang aktwal nga mga kalainan tali sa mga botante ug mga dili botante mas gamay kaysa kini makita gikan sa mga survey. Pananglitan, kadtong adunay bachelor's degree adunay 22 ka porsyento nga punto nga lagmit nga magreport sa pagbotar, apan 10 porsyento lamang nga mga punto ang lagmit nga moboto. Mahimo nga dili katingad-an nga ang mga anaa nga mga teyoriya sa pagbotar sa kahinguhaan mas maayo sa pagtagna kon kinsa ang moreport sa pagboto (nga mao ang datos nga gigamit sa mga tigdukiduki sa nangagi) kay sa ilang gipanagna nga tinuod nga mga boto. Busa, ang empirikal nga pagpangita ni Ansolabehere and Hersh (2012) nanawagan sa mga bag-ong teoriya nga makasabut ug makatagna sa pagboto.
Apan unsa ang atong pagsalig niini nga mga resulta? Hinumdomi, kini nga mga resulta nagdepende sa pagkasayup nga sayup nga nagkonekta sa mga datos sa itom nga kahon nga walay nahibal-an nga sayop. Labing espesipiko, ang mga resulta naglakip sa duha ka mahinungdanong mga lakang: (1) ang katakus sa Catalist nga makombinar ang daghang mga tinubdan sa datos sa datus aron makagama ang tukma nga master datafile ug (2) ang katakos sa Catalist nga i-link ang data sa survey sa iyang master datafile. Ang matag usa niini nga mga lakang lisud, ug ang mga sayup sa bisan hain nga lakang mahimong modala sa mga tigdukiduki ngadto sa sayop nga mga konklusyon. Bisan pa, ang pagproseso ug pag-link sa datos mahinungdanon sa padayon nga paglungtad sa Catalist isip usa ka kompaniya, busa kini makahatag og mga kapanguhaan sa pagsulbad niini nga mga problema, kasagaran sa usa ka sukdanan nga walay katugbang nga tigdukiduki sa akademiko. Diha sa ilang papel, si Ansolabehere ug Hersh nag-agi sa daghang mga lakang aron masusi ang mga resulta niining duha ka mga lakang-bisan pa nga ang pipila niini mga proprietary-ug kini nga mga tseke mahimo nga makatabang alang sa uban nga mga tigdukiduki nga nagtinguha nga mag-link sa datos sa survey sa itom nga kahon nga daku nga datos mga tinubdan.
Unsa ang kinatibuk-ang mga leksyon nga mahimong makuha sa mga tigtuon gikan niini nga pagtuon? Una, dunay dako nga bili gikan sa pagpalambo sa dagkong tinubdan sa datos sa datos sa surbey ug gikan sa pagpadaghan sa datos sa surbey nga adunay dagkong mga tinubdan sa datos (mahimo nimong tan-awon kining pagtuon bisan asa). Pinaagi sa paghiusa niining duha ka mga tinubdan sa datos, ang mga tigdukiduki nakahimo sa usa ka butang nga imposible sa indibidwal. Ang ikaduha nga kinatibuk-ang pagtulon-an mao nga bisan ang nagkahiusa, ang mga tinubdan sa komersyo nga datos, sama sa datos gikan sa Catalist, dili isipa nga "kamatuoran", sa pipila ka mga kaso, mahimong mapuslanon kini. Ang mga nagduhaduha usahay motandi niini nga mga aggregated, komersyal nga tinubdan sa datos nga adunay hingpit nga Kamatuoran ug itudlo nga kining mga tinubdan sa kasayuran nagkulang. Apan, niining kahimtanga, ang mga maduhaduhaon naghimo sa sayup nga pagtandi: ang tanan nga datos nga gigamit sa mga tigdukiduki dili hamubo sa Kamatuoran. Hinunoa, mas maayo nga itandi ang aggregated, komersyal nga mga tinubdan sa datos sa ubang mga kasayuran nga anaa sa datos (pananglitan, sa kaugalingon nga pagreport nga kinaiya sa pagboto), nga sa kanunay adunay mga sayup usab. Sa katapusan, ang ikatulo nga kinatibuk-ang pagtulon-an sa pagtuon ni Ansolabehere ug Hersh mao nga sa pipila ka mga sitwasyon, ang mga tigdukiduki mahimo nga makabenepisyo gikan sa dako nga pamuhunan nga gihimo sa daghang mga pribadong kompaniya sa pagkolekta ug pagharmonya sa mga komplikadong mga social data set.