Fiù 's ged a dh'fhaodadh e bhith bùrachail, shaidhbhreachadh faighneachd urrainn a bhith cumhachdach.
A dòigh eadar-dhealaichte airson dèiligeadh le na incompleteness didseatach sgeul dàta a neartachadh e dìreach le dàta an t-suirbhidh, a 'phròiseas gu bheil mi fòn shaidhbhreachadh faighneachd. Aon eisimpleir de saidhbhir faighneachd Tha an sgrùdadh Burke and Kraut (2014) , a tha mise a mhìneachadh na bu tràithe anns a 'chaibideil (Earrann 3.2), mu co-dhiù eadar-obrachadh air Facebook meudachadh càirdeas neart. Anns an t-suidheachadh sin, Burke agus Kraut còmhla ri dàta suirbhidh Facebook log dàta.
Tha an suidheachadh sin Burke agus Kraut bha ag obair ann, ge-tà, a 'ciallachadh nach robh iad a bhith a' dèiligeadh le dà trioblaidean mòra a tha a 'dèanamh rannsachaidh a shaidhbhreachadh ag iarraidh aodann. A 'chiad, an da-rìribh a' ceangal ri chèile na seataichean dàta-pròiseas ris an canar 'chlàr ceangal, an fhreagras air an de chlàr ann an aon sean ris a' chlàr iomchaidh eile anns na sean-Faodaidh e bhith doirbh agus mearachd buailteach (chì sinn eisimpleir de duilgheadas seo gu h-ìosal ). Tha an dàrna prìomh duilgheadas saidhbhir faighneachd gu bheil càileachd nan comharran didseatach a bhios gu tric a bhith doirbh do luchd-rannsachaidh gus measadh a dhèanamh. Mar eisimpleir, uaireannan a 'phròiseas tro bheil i air a chruinnich e agus dìlseanach a dh'fhaodadh a bhith buailteach gu mòran de na trioblaidean a tha air a mhìneachadh ann an Caibideil 2. Ann am briathran eile, shaidhbhreachadh faighneachd gu tric an sàs mearachd buailteach dèanamh ceangal eadar an suirbhidhean gu dubh-bogsa tobraichean dàta de unknown càileachd. A dh'aindeoin na draghan a sin dà duilgheadasan a thoirt a-steach, tha e comasach a dhèanamh rannsachaidh cudromach le ro-innleachd seo mar a chaidh a shealltainn le Stephen Ansolabehere agus Eitan Hersh (2012) ann an rannsachadh aca air bhòtadh pàtrain anns na Stàitean Aonaichte. 'S e' fhiach a dhol thairis air an rannsachadh seo gu mionaideach ann an cuid air sgàth mòran de na ro-innleachdan a Ansolabehere agus Hersh a leasachadh a bhios feumail ann an iarrtasan eile de saidhbhir faighneachd.
Àireamh Bhòtaidh air a bhith nan cuspair farsaing rannsachaidh poilitigeach ann an saidheans, agus san àm a dh'fhalbh, luchd-rannsachaidh a 'tuigse agus a' bhòtadh carson a tha sa bhitheantas stèidhichte air mion-sgrùdadh de dhàta suirbhidh. Bhòtadh anns na Stàitean Aonaichte, ge-tà, tha an giùlan neo-àbhaisteach ann gu bheil an riaghaltas clàran co-dhiù gach saoranach air bhòt (gu dearbh, tha an riaghaltas Chan eil clàradh a 'bhòt fhaighinn do gach saoranach). Airson iomadh bliadhna, tha na clàran bhòtaidh riaghaltais a bha ri fhaighinn air pàipear foirmean, sgapte ann an caochladh riaghaltas ionadail oifisean air feadh na dùthcha. Seo ga dhèanamh doirbh, ach chan eil do-dhèanta, airson poileataigeach saidheans iomlan a ghabhail dealbh den luchd-bhòtaidh gus coimeas a dhèanamh agus dè tha daoine ag ràdh mu dheidhinn bhòtadh ann an suirbhidhean aca fhèin bhòtaidh giùlan (Ansolabehere and Hersh 2012) .
Ach, a-nis air na clàran air a bhith a 'bhòtadh ann an cruth digiteach, agus àireamh de chompanaidhean prìobhaideach air gu h-eagarachail a chruinneachadh agus còmhla ri sin clàran bhòtaidh a thoirt gu buil coileanta mhaighstir bhòtaidh faidhlichean a chlàradh bhòtaidh giùlan a h-uile h-Ameireaganaich. Ansolabehere agus Hersh còmhla ri aon de na companaidhean-Catalist-LCC ann an òrdugh a 'cleachdadh an mhaighstir faidhle bhòtaidh gus cuideachadh a' leasachadh dealbh nas fheàrr den luchd-bhòtaidh. Tuilleadh, oir tha ea 'crochadh air na clàran didseatach a chruinneachadh agus a chur air dòigh le bhith a' chompanaidh, tha e a 'tabhann grunn bhuannachdan thairis roimhe oidhirpean le luchd-rannsachaidh a chaidh a dhèanamh gun chuideachadh bho companaidhean agus a' cleachdadh Analog clàran.
Coltach ri mòran de didseatach sgeul tobraichean ann an Caibideil 2, an Catalist mhaighstir faidhle cha robh gabhail a-steach mòran den t-sluaigh, beachdail, agus giùlain fiosrachadh a Ansolabehere agus Hersh dhìth. A bharrachd air an fhiosrachadh seo, Ansolabehere Hersh agus bha ùidh shònraichte aige ann a 'dèanamh coimeas aithris bhòtaidh giùlan gus a dhearbhadh bhòtaidh giùlan (ie, am fiosrachadh anns an stòr-dàta Catalist). Mar sin, an luchd-rannsachaidh a chruinneachadh an dàta a bha iad ag iarraidh mar phàirt de Cooperative Congressional Foillseachaidhean Sgrùdadh (CCES), mòr sòisealta suirbhidh. An ath, an luchd-rannsachaidh a thug an dàta seo gus Catalist, agus Catalist thug an luchd-rannsachaidh air ais a cho-aonadh dàta faidhle a-steach a dhearbhadh bhòtaidh giùlan (bho Catalist), a 'fèin-aithris bhòtaidh giùlan (bho CCES) agus an sluagh-eòlais agus beachdan den luchd-fhreagairt (bho CCES ). Ann am briathran eile, agus Ansolabehere Hersh shaidhbhreachadh bhòtaidh dàta suirbhidh le dàta, agus mar thoradh air a 'cho-aonadh faidhle a' toirt cothrom dhaibh rudeigin a dhèanamh nach faidhle comas fa leth.
Le bhith a 'neartachadh na Catalist mhaighstir dàta faidhle le dàta an t-suirbhidh, agus Ansolabehere Hersh thàinig trì co-dhùnaidhean cudromach. A 'chiad, os-aithris bhòtaidh tha chianail: cha mhòr leth den luchd-bhòtaidh neo-aithris bhòtaidh. No, dòigh eile air coimhead air e ma tha cuideigin a 'bhòtadh aithris, chan eil ach 80% gu bheil iad cothrom dha-rìribh bhòt. Dàrna, os-aithris Chan eil thuaiream; thar-aithris tha nas cumanta am measg àrd-theachd a-steach, le deagh fhoghlam, Partisans a tha an sàs ann an gnothaichean poblach. Ann am briathran eile, na daoine a tha nas buailtiche bhòtadh cuideachd as dualtach breugan mu dheidhinn bhòtadh. Treas, agus as breithneachail, air sgàth riaghailteach nàdar de thar-aithris, fìor eadar-dhealachaidhean eadar an luchd-bhòtaidh agus neo-luchd-bhòtaidh nas lugha na tha iad a 'nochdadh dìreach bho sgrùdaidhean. Mar eisimpleir, an fheadhainn le phòsadh a-riamh ceum a tha mu 22 sa cheudad nas coltaiche ri cunntas air bhòtadh, ach a tha a-mhàin 10 sa cheudad nas buailtiche fìor bhòt. Nas fhaide, a th 'ann stèidhichte air stòras teòiridhean bhòtaidh tòrr nas fheàrr aig fàisneachd a bhios ag aithris bhòtaidh na bhòtaichean a-rìribh, an rud a deuchainneach a' gairm airson ùra teòraidhean a thuigsinn is ro-bhòtaidh.
Ach, cò mheud a bu chòir dhuinn earbsa a tha na toraidhean sin? Cuimhnich na toraidhean sin a 'crochadh air mearachd buailteach ceangal ri bogsa dubh-dàta le unknown suimean mearachd. Tuilleadh sònraichte, hinge toraidhean air an dà phrìomh cheuman: 1) comas Catalist a chur còmhla iomadh eadar-dhealaichte tobraichean dàta a chur ri chèile ceart mhaighstir datafile agus 2) comas Catalist a 'ceangal an t-suirbhidh gus dàta a mhaighstir datafile. Tha gach aon de na ceumannan a tha gu math duilich agus mearachdan aig gach ceum Dh'fhaodadh luchd-rannsachaidh gu co-dhùnaidhean ceàrr. Ach, an dà chuid dàta agus a tha riatanach a fhreagras ris an cumail beò Catalist mar chompanaidh agus mar sin faodaidh e cur ghoireasan is stòras ann am fuasgladh air na duilgheadasan sin, gu tric aig sgèile nach fa leth rannsachaidh acadaimigeach no buidheann de luchd-rannsachaidh urrainn co-ionnan. Ann an tuilleadh leughaidh aig deireadh a 'chaibideil, tha mi a' toirt cunntas air na duilgheadasan sin ann am barrachd mionaideachd agus mar Ansolabehere Hersh agus misneachd a thogail ann an toraidhean. Ged a tha am fiosrachadh sin a tha gu sònraichte an rannsachadh seo, cùisean coltach ri sin thig am bàrr airson luchd-rannsachaidh eile a tha ag iarraidh ceangal a dhèanamh ri dubh-bogsa didseatach sgeul tobraichean dàta.
Dè na leasanan coitcheann-rannsachaidh a 'tarraing bho sgrùdadh seo? An toiseach, tha na fhìor luach bho neartachadh didseatach comharran le dàta suirbhidh. Dàrna, ged sin còmhla, malairteach tobraichean dàta Cha bu chòir beachdachadh air "talamh fhìrinn", ann an cuid de shuidheachaidhean dh'fhaodadh iad a bhith feumail. Gu dearbh, tha e nas fheàrr coimeas a dhèanamh eadar na tobraichean dàta nach iomlan Truth (bho bi iad daonnan a 'tuiteam goirid). An àite sin, tha e na b 'fheàrr coimeas a dhèanamh eadar iad airson eile rim faotainn tobraichean dàta, a tha daonnan a bheil mearachdan a bharrachd.