Hyd yn oed er y gall fod yn flêr, gall gofyn cyfoethogi fod yn bwerus.
Mae dull gwahanol o ymdrin â'r anghyflawnder o ddata olrhain digidol yw cyfoethogi yn uniongyrchol â data arolygon, proses y byddaf yn galw gofyn cyfoethogi. Un enghraifft o ofyn cyfoethocach yw'r astudiaeth o Burke and Kraut (2014) , a ddisgrifiais yn gynharach yn y bennod (Adran 3.2), ynghylch a rhyngweithio ar Facebook yn cynyddu cryfder cyfeillgarwch. Yn yr achos hwnnw, Burke a Kraut cyfuno data o arolygon â data log Facebook.
Mae'r lleoliad sy'n Burke a Kraut yn gweithio mewn, fodd bynnag, yn golygu nad oedd yn rhaid iddynt ddelio â dwy broblem fawr bod ymchwilwyr yn ei wneud cyfoethogi wyneb gofyn. Yn gyntaf, mewn gwirionedd yn cysylltu ynghyd y setiau-a data proses a elwir yn cysylltu cofnodion, cyfateb cofnod mewn un set ddata gyda'r cofnod priodol yn y llall set ddata-fod yn anodd a chamgymeriadau-dueddol (byddwn yn gweld enghraifft o broblem hon isod ). Yr ail brif broblem o ofyn cyfoethocach yw y bydd ansawdd y olion digidol yn aml yn anodd i ymchwilwyr asesu. Er enghraifft, weithiau y broses ble bydd yn cael ei gasglu yn berchnogol a allai fod yn agored i lawer o'r problemau a ddisgrifir ym Mhennod 2. Mewn geiriau eraill, bydd gofyn cyfoethogi yn aml yn cynnwys cysylltu wall-dueddol o arolygon i ffynonellau data du-bocs o anhysbys ansawdd. Er gwaethaf y pryderon bod y ddau problemau gyflwyno, mae'n bosibl cynnal ymchwil pwysig â'r strategaeth hon fel y dangoswyd gan Stephen Ansolabehere a Eitan Hersh (2012) yn eu hymchwil ar batrymau pleidleisio yn yr Unol Daleithiau. Mae'n werth mynd dros yr astudiaeth hon yn bur fanwl gan fod llawer o'r strategaethau a ddatblygwyd Ansolabehere a Hersh yn ddefnyddiol mewn ceisiadau eraill o ofyn gyfoethogi.
ganran sy'n pleidleisio wedi bod yn destun ymchwil helaeth mewn gwyddoniaeth wleidyddol, ac yn y gorffennol, mae dealltwriaeth ymchwilwyr 'o bwy pleidleisio a pham yn gyffredinol wedi bod yn seiliedig ar y dadansoddiad o ddata'r arolwg. Pleidleisio yn yr Unol Daleithiau, fodd bynnag, yn ymddygiad anarferol yn bod cofnodion y llywodraeth a yw pob dinesydd wedi pleidleisio (wrth gwrs, nad yw'r llywodraeth yn cofnodi pwy pob pleidleisiau dinasyddion i). Am flynyddoedd lawer, mae'r rhain cofnodion pleidleisio lywodraethol ar gael ar ffurflenni papur, gwasgaredig mewn swyddfeydd llywodraeth leol amrywiol o gwmpas y wlad. Mae hyn yn ei gwneud yn anodd, ond nid yn amhosibl, i wyddonwyr gwleidyddol i gael darlun cyflawn o'r etholwyr ac i gymharu beth mae pobl yn ei ddweud mewn arolygon am bleidleisio â'u patrwm pleidleisio gwirioneddol (Ansolabehere and Hersh 2012) .
Ond, erbyn hyn mae'r rhain cofnodion pleidleisio wedi cael eu digideiddio, ac mae nifer o gwmnïau preifat wedi casglu yn systematig ac yn cyfuno cofnodion pleidleisio hyn i gynhyrchu ffeiliau meistr pleidleisio cynhwysfawr sy'n cofnodi ymddygiad pleidleisio'r holl Americanwyr. Ansolabehere a Hersh partneriaeth gydag un o gwmnïau-Catalist hyn LCC-er mwyn defnyddio eu ffeil pleidleisio meistr i helpu i ddatblygu gwell darlun o'r etholaeth. Ymhellach, gan ei fod yn dibynnu ar gofnodion digidol a gasglwyd ac a guradwyd gan gwmni, mae'n cynnig nifer o fanteision dros ymdrechion blaenorol gan ymchwilwyr a oedd wedi cael ei wneud heb gymorth cwmnïau a defnyddio cofnodion analog.
Fel llawer o'r ffynonellau hybrin digidol ym Mhennod 2, nid y meistr ffeil Catalist yn cynnwys llawer o'r wybodaeth ddemograffig, agwedd, ac ymddygiad yr oedd angen Ansolabehere a Hersh. Yn ogystal â'r wybodaeth hon, roedd Ansolabehere a Hersh ddiddordeb arbennig mewn gymharu adroddwyd patrwm pleidleisio i ymddygiad pleidleisio a ddilyswyd (hy, y wybodaeth yn y gronfa ddata Catalist). Felly, mae'r ymchwilwyr a gasglwyd y data y maent eisiau fel rhan o'r Astudiaeth Cydweithredol Congressional Etholiad (CCES), arolwg cymdeithasol mawr. Nesaf, rhoddodd yr ymchwilwyr data hwn i Catalist, a rhoddodd Catalist mae'r ymchwilwyr yn ôl ffeil cyfunedig ddata oedd yn cynnwys ddilyswyd patrwm pleidleisio (o Catalist), yr ymddygiad pleidleisio hunan-adrodd (o CCES) a'r ddemograffeg ac agweddau o ymatebwyr (o CCES ). Mewn geiriau eraill, Ansolabehere a Hersh cyfoethogi data pleidleisio gyda data'r arolwg, ac y ffeil cyfunedig o ganlyniad yn eu galluogi i wneud rhywbeth nad ffeil alluogi yn unigol.
Drwy gyfoethogi'r ffeil ddata meistr Catalist gyda data arolygon, daeth Ansolabehere a Hersh i dri casgliadau pwysig. Yn gyntaf, gor-adrodd o bleidleisio yn rhemp: bron i hanner y di-bleidleiswyr Adroddodd bleidleisio. Neu, ffordd arall o edrych ar bethau yw os bydd rhywun adroddwyd pleidleisio, dim ond 80% yn debygol eu bod mewn gwirionedd wedi pleidleisio. Yn ail, gor-adrodd nid yn hap; dros-adrodd yn fwy cyffredin ymhlith incwm uchel, addysg dda, partisans sydd yn cymryd rhan mewn materion cyhoeddus. Mewn geiriau eraill, mae'r bobl sydd fwyaf tebygol o bleidleisio hefyd fwyaf yn debygol o ddweud celwydd am bleidleisio. Yn drydydd, ac mae'r rhan fwyaf yn feirniadol, oherwydd natur systematig o or-adrodd, y gwahaniaethau gwirioneddol rhwng pleidleiswyr a'r rhai nad ydynt pleidleiswyr yn llai nag y maent yn ymddangos yn unig o arolygon. Er enghraifft, y rhai sydd â gradd baglor yn tua 22 pwynt canran yn fwy tebygol o roi gwybod bleidleisio, ond dim ond 10 pwynt canran yn fwy tebygol o bleidleisio gwirioneddol. Bellach, damcaniaethau sy'n seiliedig ar adnoddau sydd eisoes yn bodoli o bleidleisio yn llawer gwell wrth ragfynegi a fydd yn adrodd pleidleisio nag sydd mewn gwirionedd yn bleidleisiau, mae canfyddiad empirig sy'n galw am damcaniaethau newydd i ddeall a rhagweld pleidleisio.
Ond, faint y dylem ymddiried yn y canlyniadau hyn? Cofiwch y canlyniadau hyn yn dibynnu ar gysylltu wall-dueddol i ddata du-blwch gyda symiau anhysbys o wallau. Yn fwy penodol, mae'r canlyniadau yn dibynnu ar ddau gam allweddol: 1) y gallu Catalist i gyfuno nifer o ffynonellau data gwahanol i gynhyrchu meistr ffeil ddata cywir a 2) y gallu Catalist i gysylltu'r data arolwg at ei feistr ffeil ddata. Mae pob un o'r camau hyn yn eithaf anodd ac y gallai gwallau ar y naill gam arwain ymchwilwyr at y casgliadau anghywir. Fodd bynnag, yn prosesu data a pharu yn hanfodol i fodolaeth barhaus Catalist fel cwmni fel y gellir ei fuddsoddi adnoddau wrth ddatrys y problemau hyn, yn aml ar raddfa na all unrhyw ymchwilydd academaidd unigol neu grŵp o ymchwilwyr yn cyd-fynd. Yn y darlleniad pellach ar ddiwedd y bennod, yr wyf yn disgrifio problemau hyn yn fanylach a sut Ansolabehere a Hersh adeiladu hyder yn eu canlyniadau. Er bod y manylion hyn yn benodol i astudiaeth hon, bydd materion tebyg i'r rhain yn codi ar gyfer ymchwilwyr eraill sy'n dymuno cysylltu â du-blwch ffynonellau data olrhain digidol.
Beth yw'r gwersi cyffredinol gall ymchwilwyr dynnu o'r astudiaeth hon? Yn gyntaf, mae gwerth aruthrol gan gyfoethogi olion digidol â data arolwg. Yn ail, er bod y rhain hagregu, ffynonellau data masnachol ni ddylid ystyried "gwir ddaear", mewn rhai achosion, gallant fod yn ddefnyddiol. Yn wir, mae'n well i gymharu'r rhain ffynonellau data beidio â Gwirionedd absoliwt (o ble byddant bob amser yn disgyn byr). Yn hytrach, mae'n well eu cymharu i ffynonellau data eraill sydd ar gael, sydd yn ddieithriad yn cael wallau yn ogystal.