Хоць гэта можа быць брудным, узбагачаная запытаная можа быць магутным.
Іншы падыход да вырашэння з непаўнатой лічбавых дадзеных трасіроўкі , каб ўзбагаціць яго непасрэдна з геадэзічнымі дадзенымі, працэс , які я буду называць узбагачаную пытацца. Адным з прыкладаў ўзбагачаным запытаная даследаванне Burke and Kraut (2014) , які я апісаў раней у гэтай чале (раздзел 3.2), пра тое , павялічвае сілу сяброўства , якія ўзаемадзейнічаюць на Facebook. У гэтым выпадку, Берк і Kraut аб'ядналі дадзеныя абследаванняў з дадзенымі часопіса на Facebook.
Ўстаноўка, што Берк і Kraut працавалі ў, аднак, азначае, што яны не павінны мець справу з двума вялікімі праблемамі, якія даследчыкі робяць узбагачаную просяць твар. Ва- першых, на самай справе звязваючы разам мноства дадзеных-а працэс называецца запіс сувязі, зрошчванне запісы ў адным наборы дадзеных з адпаведнай запісам у іншы набор дадзеных, можа быць цяжкім і схільным памылак (мы ўбачым прыклад гэтай праблемы ніжэй ). Другая асноўная праблема ўзбагачаным запытаная, што якасць лічбавых слядоў будзе часта цяжка для даследчыкаў, каб ацаніць. Напрыклад, часам працэс, з дапамогай якога ён сабраны, з'яўляецца ўласнасцю і можа быць успрымальныя да многіх з праблем, апісаных у главе 2. Іншымі словамі, узбагачаная запытаная будзе часта ўключаюць памылак ўвязкі абследаванняў з крыніцамі дадзеных чорнай скрыні невядомага якасць. Нягледзячы на асцярогі , што гэтыя дзве праблемы ўвесці, можна правесці важныя даследаванні з гэтай стратэгіяй , як было паказана , Стывен Ansolabehere і Eitan Херш (2012) у сваіх даследаваннях пра мадэлі галасавання ў ЗША. Варта перайсці на даследаванні ў некаторых дэталях, таму што многія з стратэгій, якія Ansolabehere і Херш развітых будзе карысны ў іншых прыкладаннях, абагачаных пытацца.
Яўка выбаршчыкаў была прадметам шырокіх даследаванняў у галіне паліталогіі, і ў мінулым, разуменне даследчыкаў аб тым, хто галасуе і чаму ў цэлым заснаваныя на аналізе дадзеных абследавання. Галасаванне ў ЗША, аднак, гэта незвычайнае паводзіны ў тым, што ўрад запісу Ці прагаласаваў кожны грамадзянін (вядома, урад не рэгіструе, хто кожны грамадзянін галасуе за). На працягу многіх гадоў гэтыя ўрадавыя запісу голасу былі даступныя на папяровых формах, якія былі раскіданыя ў розных органах мясцовага самакіравання па ўсёй краіне. Гэта зрабіла яго цяжка, але не немагчыма, палітолагі , каб мець поўную карціну электарату і параўнаць тое , што людзі кажуць у апытаннях аб галасаванні іх фактычнага паводзінаў галасавання (Ansolabehere and Hersh 2012) .
Але цяпер гэтыя запісы галасавання былі аблічбаваныя, а таксама шэраг прыватных кампаній сістэматычна збіраюць і аб'яднаны гэтыя запісы голасу, каб вырабіць ўсёабдымныя файлы майстар галасавання, якія рэгіструюць паводзіны галасавання ўсіх амерыканцаў. Ansolabehere і Херш ў партнёрстве з адной з гэтых кампаній-Catalist LCC-для таго, каб выкарыстоўваць іх майстар-файл для галасавання, каб дапамагчы развіць больш поўную карціну электарату. Акрамя таго, паколькі яна абапіралася на лічбавых запісаў, сабраных і куратарам кампаніяй, ён прапанаваў цэлы шэраг пераваг у параўнанні з папярэднімі намаганнямі даследчыкаў, што было зроблена без дапамогі кампаній і з выкарыстаннем аналагавых запісаў.
Як і многія з лічбавых крыніц трасіроўкі ў чале 2, майстар-файл Catalist не ўключаюць у сябе большую частку дэмаграфічнага, отношенческой і паводніцкай інфармацыі, Ansolabehere і Херш неабходна. У дадатак да гэтай інфармацыі, Ansolabehere і Херш былі асабліва зацікаўлены ў параўнанні паведамілі паводзіны для галасавання адобранага паводзінаў выбаршчыкаў (гэта значыць інфармацыі, якая змяшчаецца ў базе дадзеных Catalist). Такім чынам, даследчыкі сабралі дадзеныя, якія яны хацелі ў рамках кааператыўнага кангрэса выбарчай вывучэння (КУИС), вялікі сацыяльнае апытанне. Затым даследнікі далі гэтыя дадзеныя Catalist, і Catalist даў даследчыкі падперці аб'яднаны файл дадзеных, які уключаў правераную паводзіны галасавання (ад Catalist), самастойна паведамілі паводзіны галасавання (ад КУИС) і дэмаграфічныя дадзеныя і стаўленне рэспандэнтаў (ад CCES ). Іншымі словамі, Ansolabehere і Херш ўзбагачаецца дадзеныя галасавання з дадзенымі апытання, і выніковы зьліты файл, дазваляе ім зрабіць што-то, што дазволіла паасобку ні адзін файл.
Узбагаціўшы майстар-файл дадзеных Catalist з дадзенымі абследавання, Ansolabehere і Херш прыйшлі да трох важным высноў. Па-першае, завышэнне галасавання лютуе: амаль палова неголосующих паведамілі галасавання. Або, іншы спосаб глядзець на яго, калі хто-то паведаміў галасаванне, ёсць толькі 80% верагоднасць таго, што яны на самой справе галасавалі. Па-другое, празмерная справаздачнасць не з'яўляецца выпадковым; завышаючы з'яўляецца больш распаўсюджаным сярод высокім узроўнем даходу, добра адукаваныя, партызаны, якія займаюцца грамадскімі справамі. Іншымі словамі, людзі, якія, хутчэй за ўсё, галасаваць таксама, хутчэй за ўсё, хлусіць аб галасаванні. Па-трэцяе, і самае важнае, з-за сістэматычнага характару празмернай справаздачнасці, фактычныя адрозненні паміж выбаршчыкамі і неголосующих менш, чым яны з'яўляюцца толькі з абследаванняў. Напрыклад, тыя, з ступень бакалаўра каля 22 працэнтных пунктаў часцей паведамляюць пра галасаванне, але толькі на 10 працэнтных пунктаў больш шанцаў фактычнага галасавання. Акрамя таго, існуючыя ў рэсурсах на аснове тэорыі галасавання значна лепш прадказаць, хто будзе паведамляць пра галасаванне, чым хто на самай справе галасоў, эмпірычным знаходкай, што патрабуе новых тэорый, каб зразумець і прадказаць галасаванне.
Але, наколькі мы павінны давяраць гэтыя вынікі? Памятаеце, што гэтыя вынікі залежаць ад схільных памылак сувязі з дадзенымі чорнай скрыні з невядомымі колькасцю памылак. Больш канкрэтна, вынікі залежаць ад двух асноўных этапаў: 1) здольнасць Catalist аб'яднаць мноства разрозненых крыніц дадзеных, каб вырабіць дакладную майстар-файл дадзеных і 2) здольнасць Catalist звязаць дадзеныя абследавання для свайго галоўнага файла дадзеных. Кожны з гэтых этапаў з'яўляецца даволі складаным і памылак на любым этапе можа прывесці даследчыкаў да няслушных высноў. Тым не менш, як апрацоўка дадзеных і адпаведнасці маюць вырашальнае значэнне для далейшага існавання Catalist як кампаніі, так што ён можа інвеставаць рэсурсы ў вырашэнні гэтых праблем, часта ў маштабе, што ні адзін чалавек вучоны-даследчык або група даследчыкаў не можа параўнацца. У далейшым чытанні ў канцы кіраўніка, я апісваю гэтыя праблемы больш падрабязна і як Ansolabehere і Херш пабудаваць упэўненасць у сваіх выніках. Хоць гэтыя дэталі з'яўляюцца спецыфічнымі для дадзенага даследавання, пытанні, падобныя гэтым будуць узнікаць для іншых даследчыкаў, якія жадаюць звязаць з чорнай скрыні крыніц дадзеных лічбавага следу.
Якія агульныя ўрокі даследчыкі могуць атрымаць з гэтага даследавання? Па-першае, існуе велізарнае значэнне ад узбагачэння лічбавых слядоў з дадзенымі абследавання. Па-другое, нават калі яны агрэгуе, камерцыйныя крыніцы дадзеных не варта разглядаць як "зямля ісціна", а ў некаторых выпадках яны могуць быць карысныя. На самай справе, лепш за ўсё параўнаць гэтыя крыніцы дадзеных не абсалютнай Праўды (ад якога яны заўсёды будуць падаць кароткі). Хутчэй, гэта лепш параўнаць іх з іншымі наяўнымі крыніцамі дадзеных, якія нязменна ўтрымліваюць памылкі, а таксама.