Í auðgaðri spurningu byggir könnunargögn samhengi um stóra gagnasöfn sem inniheldur nokkrar mikilvægar mælingar en skortir aðra.
Ein leið til að sameina könnunargögn og stórar gagnasöfn eru ferli sem ég mun kalla auðgað að spyrja . Í auðgaðri spyrja inniheldur stór gagnaheimild nokkur mikilvægar mælingar en skortir aðrar mælingar þannig að rannsóknirinn safnar þessum vantar mælingum í könnun og tengir síðan saman tvö gögn. Eitt dæmi um auðgað spurning er rannsókn Burke and Kraut (2014) um hvort samskipti á Facebook eykur vináttu styrk, sem ég lýsti í kafla 3.2). Í því tilfelli, Burke og Kraut sameina könnunargögn með Facebook log gögn.
Sú staðsetning þar sem Burke og Kraut voru að vinna þýddu hins vegar að þeir þurftu ekki að takast á við tvö stór vandamál sem vísindamenn gera auðgað og spyrja venjulega andlit. Í fyrsta lagi getur verið að erfitt sé að tengja saman einstaklingsbundin gagnasöfn, aðferð sem kallast upptökutenging , ef ekkert einstakt auðkenni er í báðum gagnasöfnum sem hægt er að nota til að tryggja að rétta skráin í einu gagnasafni sé í samræmi við rétta skrá í hinum gagnapakkanum. Annað helsta vandamálið með auðgaðri spurningu er að gæði stóru gagnasafnsins mun oft vera erfitt fyrir vísindamenn að meta vegna þess að ferlið þar sem gögnin eru búin geta verið sérkenni og gæti verið næm fyrir mörgum vandamálum sem lýst er í kafla 2. Með öðrum orðum, auðgað spyrja mun oft fela í sér villandi tilhneigingu til að tengja könnunum við gögnum um svartan kassa af óþekktum gæðum. Þrátt fyrir þessi vandamál er hins vegar auðgað að spyrja hægt að nota til að sinna mikilvægum rannsóknum, eins og sýnt var af Stephen Ansolabehere og Eitan Hersh (2012) í rannsóknum sínum á atkvæðamynstri í Bandaríkjunum.
Kjörstjórinn hefur verið viðfangsefni víðtækra rannsókna í stjórnmálafræði og áður hefur skilningur vísindamanna á hverjum atkvæðum og hvers vegna almennt verið byggður á greiningu könnunargagna. Atkvæðagreiðsla í Bandaríkjunum er hins vegar óvenjuleg hegðun í því að ríkisstjórnin skráir hvort hver ríkisborgari hefur kosið (auðvitað skráir ríkisstjórnin ekki hver hver borgari greiðir atkvæði). Í mörg ár voru þessar atkvæðagreiðslur frá stjórnvöldum í boði á pappírsformum, dreifðir í ýmsum sveitarstjórnum í kringum landið. Þetta gerði það mjög erfitt, en ekki ómögulegt, að pólitískar vísindamenn (Ansolabehere and Hersh 2012) fullan mynd af kjósendum og bera saman það sem fólk segir í könnunum um atkvæðagreiðslu með raunverulegri atkvæðagreiðsluheit þeirra (Ansolabehere and Hersh 2012) .
En þessar atkvæðagreiðslur eru nú orðnar í stafrænu formi og fjöldi einkafyrirtækja hefur kerfisbundið safnað saman og sameinað þau til að búa til alhliða meistaratitilskrá sem innihalda atkvæðagreiðsluhætti allra Bandaríkjamanna. Ansolabehere og Hersh áttu samstarf við eitt af þessum fyrirtækjum-Catalyst LCC-í því skyni að nota meistaratitilskrá sína til að hjálpa til við að þróa betri mynd af kjósendum. Ennfremur, vegna þess að rannsóknin byggði á stafrænum gögnum sem safnað var og fjármögnuð af fyrirtæki sem hafði fjárfest mikið í gagnasöfnun og samhæfingu, bauð það fjölda kosta yfir fyrri viðleitni sem hafði verið gert án hjálpar fyrirtækja og með því að nota hliðstæðar færslur.
Eins og margir af stóru gagnasöfnum í kafla 2, innihélt Katalisti aðalskráin ekki mikið af lýðfræðilegum, viðhorfum og hegðunarupplýsingum sem Ansolabehere og Hersh þurftu. Reyndar voru þeir sérstaklega áhuga á að bera saman tilkynnt atkvæðagreiðsluhætti í könnunum með fullgilt atkvæðagreiðsluhegðun (þ.e. upplýsingarnar í katalónskum gagnagrunni). Svo Ansolabehere og Hersh safna gögnum sem þeir vildu sem stór félagsleg könnun, CCES, sem nefnd var fyrr í þessum kafla. Síðan gáfu þeir gögnum sínum til katalóða og Catalist gaf þeim aftur sameinaða gagnaskrá sem innihélt fullgilt atkvæðagreiðsluhegðun (frá katalónska), sjálfsmatsaðstoð atkvæða (frá CCES) og lýðfræði og viðhorfum svarenda (frá CCES) (mynd 3,13). Með öðrum orðum, Ansolabehere og Hersh sameina atkvæðagreiðslu gögnin með könnunargögnum til að gera rannsóknir sem ekki var hægt með annaðhvort gagnagjafa fyrir sig.
Með sameinuðu gagnaskránni komu Ansolabehere og Hersh til þriggja mikilvægra niðurstaðna. Í fyrsta lagi er yfirlýsing um atkvæðagreiðslu hömlulaus: næstum helmingur þeirra sem ekki hafa tilkynnt atkvæðagreiðslu og ef einhver hefur tilkynnt atkvæðagreiðslu er aðeins 80% líkur á að þeir kusu í raun. Í öðru lagi er ofbeldisskýrsla ekki af handahófi: Yfirfærsla er algengari meðal hátekta, vel menntuð, partisans sem taka þátt í opinberum málefnum. Með öðrum orðum er líklegast að fólkið sem líklegast er að greiða atkvæði ljúgi um atkvæðagreiðslu. Í þriðja lagi og mest gagnrýninn, vegna þess að kerfisbundin eðli yfirfærslunnar er raunverulegur munur á kjósendum og kjósendum minni en þeir birtast bara frá könnunum. Til dæmis eru þeir með gráðu í gráðu um 22 prósentur líklegri til að tilkynna atkvæðagreiðslu, en eru aðeins 10 prósentur líklegri til að kjósa. Það kemur í ljós, kannski ekki á óvart, að núverandi auðlindaraðferðir um atkvæðagreiðslu séu miklu betra að spá fyrir um hver muni tilkynna atkvæðagreiðslu (sem eru þau gögn sem vísindamenn hafa notað áður) en þeir eru að spá fyrir um hver raunverulega greiðir atkvæði. Þannig Ansolabehere and Hersh (2012) empirical finding Ansolabehere and Hersh (2012) nýjar kenningar til að skilja og spá fyrir um atkvæðagreiðslu.
En hversu mikið ættum við að treysta þessum árangri? Mundu að þessar niðurstöður byggjast á villuleysi sem tengist upplýsingum um svarta kassa með óþekktum fjölda villur. Nánar tiltekið liggja niðurstöðurnar á tveimur helstu skrefum: (1) getu katalistans til að sameina mörg ólík gögn heimildir til að framleiða nákvæma húsbóka datafile og (2) getu katalistans til að tengja könnunargögnin við aðalskipan þess. Hvert þessara skref er erfitt og villur í hvoru skrefi gætu leitt vísindamenn til rangra ályktana. Hins vegar eru bæði gögnvinnsla og tenging mikilvægt fyrir áframhaldandi tilveru katalóða sem fyrirtæki, svo að það geti fjárfest fjármagn til að leysa þessi vandamál, oft í mælikvarða sem enginn fræðilegur rannsóknir getur passað við. Í pappír þeirra, Ansolabehere og Hersh fara í gegnum nokkur skref til að athuga niðurstöður þessara tveggja skrefa - jafnvel þó að sumir þeirra séu einkamál - og þessar athuganir gætu verið gagnlegar fyrir aðra vísindamenn sem vilja tengja könnunargögn til svörtra stórra gagna heimildir.
Hver eru almennar lexíur sem vísindamenn geta teiknað af þessari rannsókn? Í fyrsta lagi er gríðarlegt gildi bæði frá því að auðga stóra gagnasöfn með könnunarupplýsingum og frá auðgandi könnunargögn með stórum gagnamagni (þú getur séð þessa rannsókn hvort heldur sem er). Með því að sameina þessar tvær gagnaheimildir, voru vísindamenn fær um að gera eitthvað sem var ómögulegt með hvoru tveggja. Í annarri almennu kennslustundinni er að þó að samanlagðir viðskiptabankar, svo sem gögn frá katalónska, eigi að teljast "grundvallar sannleikur", þá geta þau verið gagnlegar í sumum tilfellum. Skeptics bera stundum saman þessar samantektar viðskiptabanka gagna með algerri sannleika og benda á að þessi gögn uppspretta falla stutt. En í þessu tilfelli eru efasemdamennirnir að gera ranga samanburð: öll gögn sem vísindamenn nota skortir algera sannleikann. Þess í stað er betra að bera saman samanlagð viðskiptatengsl við aðrar tiltækar gagnaheimildir (td sjálfstætt tilkynnt atkvæðagreiðsluhætti), sem ávallt hefur einnig villur. Að lokum er þriðja almennu lexía Ansolabehere og Hersh rannsóknin sú að í sumum tilfellum geta vísindamenn notið góðs af stórum fjárfestingum sem margir einkafyrirtæki eru að gera við að safna og samræma flóknar félagslegar gagnasöfn.