Jafnvel þó að það getur verið sóðalegur, auðgað uppsett getur verið öflugt.
A mismunandi nálgun til að takast á við ófullkomnar stafræna rekja gögn er að auðga það beint við könnun gagna, ferli sem ég kalla auðgað spyrja. Eitt dæmi um auðgað spyrja er rannsókn á Burke and Kraut (2014) , sem ég áður var lýst í kaflanum (liður 3.2), um hvort samskipti á Facebook eykst vináttu styrk. Í því tilviki, Burke og Kraut sameina könnun gagna með Facebook Innskráning gögnum.
The stilling sem Burke og Kraut voru að vinna í, þó það þýddi að þeir þurftu ekki að takast á við tvö stór vandamál sem vísindamenn gera auðgað biður andlit. First, reyndar tengja saman gagnagrunna-ferli sem kallast met tengi, samsvörun á met í einum gagnasafni með viðeigandi met í hinu dataset-getur verið erfitt og villa-endilangur (við munum sjá dæmi um þetta vandamál hér á ). Annað Helsta vandamálið auðgað spyrja er að gæði stafrænu ummerki verður oft erfitt fyrir vísindamenn að meta. Til dæmis, stundum ferli þar sem þeim er safnað er sér og gætu átt mörg af þeim vandamálum sem lýst er í 2. kafla Með öðrum orðum, auðgað uppsett vilja oft falið villa-endilangur tenging könnunum til svart-kassi gögn heimildum óþekkt gæði. Þrátt fyrir áhyggjur að þessi tvö vandamál kynna, það er hægt að stunda mikilvæga rannsóknir við þessa stefnu sem var sýnt eftir Stephen Ansolabehere og Eitan Hersh (2012) í rannsóknum sínum á atkvæðagreiðslu mynstur í Bandaríkjunum. Það er þess virði að fara yfir þessari rannsókn í sumum smáatriðum vegna þess að margir af þeim aðferðum sem Ansolabehere og Hersh þróað mun koma að gagni í öðrum forritum auðgað spyrja.
Kjörsókn hefur verið háð af mikilli rannsókn í stjórnmálafræði, og í fortíðinni, skilning rannsakenda á hver atkvæði og hvers vegna hefur almennt verið miðað við greiningu á gögnum könnun. Atkvæðagreiðsla í Bandaríkjunum, er hins vegar óvenjulegt hegðun í að ríkisstjórnin gagna um hvort hver borgari hefur ákveðið (að sjálfsögðu, að ríkisstjórnin hefur ekki tekið sem hver ríkisborgari atkvæði fyrir). Fyrir mörgum árum, þessi félagasamtök færslur atkvæðisréttur voru í boði á eyðublöðum pappír, dreift á ýmsum staðbundnum skrifstofum stjórnvalda víða um land. Þetta gerði það erfitt, en ekki ómögulegt, að pólitísk vísindamenn hafa heildarmynd af kjósendum og að bera saman það sem fólk segir í könnunum um atkvæðagreiðslu að raunverulegum atkvæðagreiðslu hegðun þeirra (Ansolabehere and Hersh 2012) .
En, nú þessar atkvæðisbærir færslur hafa verið stafrænt form, og fjölda einkafyrirtækja hafa safnað kerfisbundið og sameinað þessar atkvæðabækur til að framleiða alhliða snillingur atkvæðisrétt skrár sem skrá atkvæðagreiðslu hegðun allra Bandaríkjamanna. Ansolabehere og Hersh samstarfi við einu af þessum fyrirtækjum-Catalist LCC í því skyni að nota húsbóndi þeirra atkvæðamagn skrá til að hjálpa þróa betri mynd af kjósendum. Ennfremur, vegna þess að það treysti á stafrænum skrám safnað og Sýningarstjóri fyrirtæki, bauð hún a tala af kostum yfir fyrri viðleitni vísindamanna sem hafði verið gert án aðstoðar fyrirtækjum og nota analog færslur.
Eins og margir af stafrænu heimildum snefilefni í 2. kafla, Catalist skipstjóri skrá ekki fela mikið af lýðfræðilega, viðhorfum og hegðun upplýsingum sem Ansolabehere og Hersh þörf. Í viðbót við þessar upplýsingar, Ansolabehere og Hersh voru sérstaklega áhuga á því að bera saman skráð atkvæðagreiðslu hegðun til fullgilt atkvæðagreiðslu hegðun (þ.e. að upplýsingar í Catalist gagnagrunninum). Svo, vísindamenn safnað gögnum sem þeir vildu sem hluti af samvinnufélaga Congressional Kosning Study (CCES), stór félagsleg könnun. Næst, vísindamenn gaf þessi gögn til Catalist og Catalist gaf vísindamenn baka sameinaðs gögn skrá sem fylgir fullgilt atkvæðagreiðslu hegðun (úr Catalist), sjálf-greint atkvæðagreiðslu hegðun (frá CCES) og lýðfræði og viðhorf svarenda (frá CCES ). Með öðrum orðum, Ansolabehere og Hersh auðgað atkvæðagreiðslunni gögnum með könnun gagna, og leiðir samrunaskrá gerir þeim kleift að gera eitthvað sem hvorki skrá virkt fyrir sig.
Með því að auðga Catalist húsbóndi gögn skrá með gögnum könnun, Ansolabehere og Hersh kom að þremur mikilvægum niðurstöðum. First, yfir-skýrslugjöf atkvæðagreiðslu er hömlulaus: næstum helmingi af the non-kjósendur greint atkvæðagreiðslu. Eða önnur leið til að líta á það er ef einhver skráð atkvæðagreiðslu, það er aðeins 80% líkur á að þeir kusu í raun. Í öðru lagi, yfir-skýrslugjöf er ekki af handahófi; yfir-skýrsla er algengara meðal hár-tekjur, vel menntaður, áhangendum sem stunda opinberra mála. Með öðrum orðum, fólk sem er líklegast til að kjósa eru einnig líklegastar til að ljúga um atkvæðagreiðslu. Í þriðja lagi, og flestir gagnrýninn, vegna kerfisbundnar yfir-skýrslugerð, raunveruleg munur á milli kjósenda og erlendra kjósendur eru minni en þær birtast bara frá könnunum. Til dæmis, þá sem eru með BA gráðu eru um 22 prósentum líklegri til að tilkynna atkvæðagreiðslu, en eru aðeins 10 prósentum líklegri til að raunverulegum atkvæði. Ennfremur fyrirliggjandi úrræði byggir kenningar atkvæðagreiðslu eru mun betri í að spá sem mun tilkynna atkvæðagreiðslu en sem í raun atkvæði, og reynslu sem að kallar á nýjar kenningar til að skilja og spá fyrir atkvæðagreiðslu.
En hversu mikið ætti að treysta þessum niðurstöðum? Mundu þessar niðurstöður ráðast á villugjama hlekkur til svart-kassi gögnum með óþekktum magn af villu. Nánar tiltekið, niðurstöður löm á tveimur helstu skrefum: 1) hæfni Catalist að sameina margar ólíkum gögnum heimildum til að framleiða nákvæmar húsbóndi gagnaskrá og 2) getu Catalist að tengja könnun gagna til meistara gagnaskrá hennar. Hver af þessum skrefum er alveg erfitt og villur á báðum skref gæti leitt vísindamenn á röngum niðurstöðum. Hins vegar, bæði gagnavinnslu og samsvörun er mikilvægt að áframhaldandi tilvist Catalist sem fyrirtækið þannig að það er hægt að fjárfesta fjármuni í að leysa þessi vandamál, oft á mælikvarða sem enginn einstaklingur fræðileg rannsóknir eða hópur vísindamanna jafnast. Í frekari lestur í lok kaflans, lýsa ég þessi vandamál nánar og hvernig Ansolabehere og Hersh byggja upp traust á niðurstöðum þeirra. Þó að þessar upplýsingar eru sértæk þessari rannsókn, mál svipað og þessir vilja koma fyrir öðrum fræðimönnum sem vilja til að tengja við svart-kassi stafræna rekja gögn heimildum.
Hverjar eru almennar lexíur vísindamenn geta dregið af þessari rannsókn? First, það er gífurleg verðmæti úr auðga stafræna snefil af gögnum könnun. Í öðru lagi, jafnvel þótt þau sameinaðar, auglýsing gagnaheimilda ætti ekki að teljast "jörð sannleikur", í sumum tilfellum geta þeir verið gagnlegt. Í raun, það er best að bera þessi gögn heimildir til að alger sannleikur (sem þeir munu alltaf falla stutt). Frekar, það er betra að bera þá til annarra fyrirliggjandi gögn heimildum, sem ávallt hafa villur eins og heilbrigður.