Kahit na maaari itong maging makalat, enriched asking ay maaaring maging malakas.
Ang isang iba't ibang mga diskarte sa pakikitungo sa mga incompleteness ng mga digital na trace data ay upang pagyamanin ito nang direkta sa data ng survey, isang proseso na Tatawag ako enriched pagtatanong. Ang isang halimbawa ng enriched asking ay ang pag-aaral ng Burke and Kraut (2014) , na kung saan ko na inilarawan mas maaga sa kabanata (Section 3.2), tungkol sa kung nakikipag-ugnayan sa Facebook pinatataas friendship lakas. Sa kasong iyon, Burke at Kraut pinagsama data survey sa Facebook data log.
Ang setting na Burke at Kraut ay nagtatrabaho sa, gayunpaman, sinadya na hindi nila kailangang harapin ang dalawang malaking problema na ang mga mananaliksik ginagawa enriched humihingi mukha. Una, talagang pag-link nang sama-sama ang data set-isang proseso na tinatawag record linkage, ang pagtutugma ng isang talaan sa isang dataset sa naaangkop na record sa iba pang mga dataset-ay maaaring maging mahirap at error-makiling (kami makita ang isang halimbawa ng mga problemang ito sa ibaba ). Ang ikalawang pangunahing problema ng enriched asking ay na ang kalidad ng mga digital na bakas ay madalas maging mahirap para sa mga mananaliksik upang masuri. Halimbawa, kung minsan ang proseso sa pamamagitan ng kung saan ito ay nakolekta ay pagmamay-ari at maaaring maging madaling kapitan sa marami sa mga problema na inilarawan sa Kabanata 2. Sa ibang salita, enriched asking ay mapipilitan ang mga tsansa ng error sa pag-link ng mga survey sa itim-box data pinagkukunan ng unknown kalidad. Sa kabila ng mga alalahanin na ang dalawang mga problema ipakilala, ito ay posible upang magsagawa ng mahalagang pananaliksik sa mga ito diskarte bilang ay ipinapakita sa pamamagitan ng Stephen Ansolabehere at Eitan Hersh (2012) sa kanilang mga pananaliksik sa mga pattern sa pagboto sa US. Ito ay kapaki-pakinabang upang pumunta sa paglipas ng pag-aaral na ito sa ilang mga detalye dahil marami sa mga estratehiya na Ansolabehere at Hersh binuo ay magiging kapaki-pakinabang sa iba pang mga application ng enriched pagtatanong.
turnout Botante ay naging paksa ng malawak na pananaliksik sa agham pampolitika, at sa nakaraan, mga mananaliksik 'unawa sa kung sino Binoboto at kung bakit ay sa pangkalahatan ay batay sa mga pagsusuri ng data survey. Ang pagboto sa US, gayunpaman, ay isang di-pangkaraniwang pag-uugali sa na ang mga talaan ng pamahalaan kung ang bawat mamamayan ay bumoto (siyempre, ang pamahalaan ay hindi-record kung sino ang bawat mamamayan votes para sa). Para sa maraming taon, ang mga pamahalaan talaan ng pagboto ay magagamit sa mga form papel, nakakalat sa iba't-ibang mga tanggapan ng lokal na pamahalaan sa buong bansa. Ito ginawa ito mahirap, ngunit hindi imposible, para sa mga siyentipikong pampolitika na magkaroon ng isang kumpletong larawan ng mga manghahalal at upang ihambing kung ano ang mga tao sabihin sa mga survey tungkol sa pagboto sa kanilang aktwal na pag-uugali ng pagboto (Ansolabehere and Hersh 2012) .
Subalit, ngayon ang mga talang ito ng pagboto ay digitize, at isang bilang ng mga pribadong mga kumpanya ay may systematically tinipon at ipinagsama ang mga talang ito sa pagboto upang makabuo ng komprehensibong mga file master pagboto na i-record ang pag-uugali ng pagboto ng lahat ng mga Amerikano. Ansolabehere at Hersh nakipagtulungan sa isa sa mga kumpanya-Catalist LCC-in upang gamitin ang kanilang mga master file pagboto upang makatulong na bumuo ng isang mas mahusay na larawan ng mga manghahalal. Dagdag dito, dahil ito ay umaasa sa mga digital na mga talaan nakolekta at curate ng isang kumpanya, ito inaalok ng isang bilang ng mga pakinabang sa paglipas ng nakaraang mga pagsisikap ng mga mananaliksik na ay tapos nang walang tulong ng mga kompanya at gamit analog talaan.
Tulad ng marami sa mga digital na mga mapagkukunan trace sa Kabanata 2, ang Catalist master file ay hindi isama ang marami sa mga demographic, attitudinal, at pang-asal impormasyon na Ansolabehere at Hersh kinakailangan. Bilang karagdagan sa ang impormasyong ito, Ansolabehere at Hersh ay lalo na interesado sa paghahambing iniulat uugali pagboto upang validated uugali voting (ibig sabihin, ang impormasyon sa Catalist database). Kaya, ang mga mananaliksik na nakolekta ang data na nais nila bilang bahagi ng Cooperative Congressional Election Study (CCES), ang isang malaking panlipunan survey. Sunod, ang mga mananaliksik ay nagbigay ang data na ito Catalist, at Catalist nagbigay ang mga mananaliksik-back ng isang merged data file na kasama validated uugali voting (mula Catalist), ang self-iniulat uugali voting (mula CCES) at ang mga demograpiko at attitudes ng mga respondents (mula CCES ). Sa ibang salita, Ansolabehere at Hersh enriched ang data pagboto sa data ng survey, at nagbibigay-daan ang mga nagresultang merged file sa kanila na gawin ang isang bagay na hindi file pinagana paisa-isa.
Sa pamamagitan ng enriching ang Catalist master data file na may survey data, Ansolabehere at Hersh ay dumating sa tatlong mahalagang mga konklusyon. Una, over-pag-uulat ng pagboto ay laganap: halos kalahati ng mga non-botante iniulat pagboto. O kaya naman, isa pang paraan ng pagtingin sa mga ito ay kapag ang isang tao mga iniulat voting, mayroon lamang isang 80% na posibilidad na sila talaga bumoto. Pangalawa, over-pag-uulat ay hindi random; over-pag-uulat ay mas karaniwan sa mataas na kita, well-aralan, partisans na nakatuon sa mga pampublikong affairs. Sa ibang salita, ang mga tao na pinaka-malamang na bumoto ding pinaka-malamang na hindi nagsasabi ng totoo tungkol sa pagboto. Third, at pinaka-critically, dahil sa karami sistematikong kalikasan ng over-pag-uulat, ang aktwal na pagkakaiba sa pagitan ng mga botante at non-botante ay mas maliit kaysa sa mga ito ay lilitaw lamang mula sa mga survey. Halimbawa, ang mga may isang bachelors degree ay tungkol sa 22 porsyento puntos mas malamang isumbong pagboto, ngunit lamang ng 10 porsyento puntos mas malamang na aktwal na boto. Dagdag dito, umiiral na mapagkukunan-based theories ng pagboto ay marami mas mahusay sa predicting na mag-uulat ng pagboto sa na aktwal na boto, isang mula sa obserbasyon paghahanap na tawag para sa mga bagong theories upang maunawaan at hulaan pagboto.
Ngunit, kung magkano ang dapat naming pinagkakatiwalaan ang mga resultang ito? Tandaan ang mga resulta ay depende sa tsansa ng error sa pag-link sa data black-box na may hindi kilalang halaga ng error. Higit pang mga partikular, ang mga resulta bisagra sa dalawang pangunahing mga hakbang: 1) ang kakayahan ng Catalist upang pagsamahin maraming disparate pinagmumulan ng data upang makagawa ng isang tumpak na master datafile at 2) ang kakayahan ng Catalist i-link ang data survey sa kanyang master datafile. Ang bawat isa sa mga hakbang na ito ay lubos na mahirap at mga error sa alinman hakbang ay maaaring humantong mga mananaliksik sa maling konklusyon. Gayunman, ang parehong data processing at pagtutugma ay kritikal sa patuloy na pagkakaroon ng Catalist bilang isang kumpanya upang maaari itong mamuhunan resources sa pag-solve ang mga problemang ito, madalas sa isang scale walang tao ang akademikong researcher o grupo ng mga mananaliksik ay maaaring tumutugma. Sa karagdagang pagbabasa sa dulo ng kabanata, ilarawan ko ang mga problemang ito sa mas maraming mga detalye at kung paano Ansolabehere at Hersh bumuo ng pagtitiwala sa kanilang mga resulta. Kahit na ang mga detalye ay tiyak sa ganitong pag-aaral, mga isyu katulad ng mga lumabas dahil para sa iba pang mga mananaliksik na nagnanais na mag-link sa black-box digital trace pinagkukunan ng data.
Anu-ano ang pangkalahatang mga aralin mga mananaliksik ay maaaring kunin sa pag-aaral na ito? Una, mayroong napakalaking halaga mula sa enriching digital traces sa survey data. Pangalawa, kahit na ang mga pinagsama-samang, commercial pinagkukunan ng data ay hindi dapat itinuturing na "ground katotohanan", sa ilang mga kaso sila ay maaaring maging kapaki-pakinabang. Sa katunayan, ito ay pinakamahusay na upang ihambing ang mga pinagkukunan ng data na hindi absolute Truth (mula sa kung saan sila ay palaging kapusin). Sa halip, ito ay mas mahusay na ihambing ang mga ito sa iba pang magagamit na mga pinagkukunan ng data, na kung saan ay walang paltos magkaroon ng mga error pati na rin.