Edhe pse kjo mund të jetë i çrregullt, i kërkuar pasuruar mund të jetë i fuqishëm.
Një qasje e ndryshme që kanë të bëjnë me plotësisë së të dhënave gjurmë dixhitale është për të pasuruar atë direkt me të dhënat e anketës, një proces që unë do të thërrasë duke i kërkuar pasuruar. Një shembull i pyetur pasuruar është studimi i Burke and Kraut (2014) , e cila kam përshkruar më parë në kapitullin (Neni 3.2), nëse bashkëveprojmë në Facebook rrit fuqinë e miqësisë. Në këtë rast, Burke dhe Kraut kombinuar të dhënat e sondazhit me të dhënat log Facebook.
Vendosjen që Burke dhe Kraut ishin duke punuar në, megjithatë, do të thotë se ata nuk duhet të merren me dy probleme të mëdha që studiuesit që bëjnë pasuruar fytyrë duke i kërkuar. Së pari, në të vërtetë lidh së bashku grupe-a të dhënave proces të quajtur rekord lidhjen, përputhjen e një rekord në një CCD me regjistrin përkatës në tjetër dataset-mund të jetë e vështirë dhe të gabueshme (ne do të shohim një shembull të këtij problemi poshtë ). Problemi i dytë kryesor i pyetur pasuruar është se cilësia e gjurmëve digjitale shpesh do të jetë e vështirë për studiuesit për të vlerësuar. Për shembull, ndonjëherë procesi përmes të cilit është mbledhur është e pronarit dhe mund të jenë të ndjeshëm ndaj shumë nga problemet e përshkruara në Kapitullin 2. Me fjalë të tjera, i kërkuar pasuruar shpesh do të përfshijë gabime të prirur lidh e anketave të black-box burimet e të dhënave të panjohur cilësisë. Pavarësisht nga shqetësimet që këto dy probleme prezantuar, është e mundur për të kryer hulumtime të rëndësishme me këtë strategji si u demonstrua nga Stephen Ansolabehere dhe Eitan Hersh (2012) në hulumtimet e tyre në modelet e votimit në SHBA. Kjo vlen për të shkuar mbi këtë studim në disa detaje për shkak se shumë nga strategjitë që Ansolabehere dhe Hersh zhvilluara do të jenë të dobishme në të gjitha kërkesat e tjera të pyetur pasuruar.
Pjesëmarrja në votime ka qenë objekt i hulumtimit të gjerë në shkencat politike, dhe në të kaluarën, të kuptuarit se kush voton dhe pse ka qenë në përgjithësi në bazë të analizës së të dhënave të anketës studiuesve. Votimi në SHBA, megjithatë, është një sjellje e pazakontë në atë që të dhënat e qeverisë se çdo shtetas ka votuar (natyrisht, qeveria nuk i regjistrojnë të cilët çdo qytetari vota për). Për shumë vite, këto të dhëna qeveritare votimit ishin në dispozicion në format të letrës, të shpërndara në zyrat e ndryshme të pushtetit vendor në të gjithë vendin. Kjo e bëri të vështirë, por jo e pamundur, për shkencëtarët politikë që të ketë një pasqyrë të plotë të elektoratit dhe të krahasojnë atë që njerëzit thonë në anketat për të votuar për sjelljen e tyre aktuale të votimit (Ansolabehere and Hersh 2012) .
Por, tani këto të dhënat e votimit janë digjitalizuar, dhe një numër i kompanive private kanë mbledhur në mënyrë sistematike dhe të bashkohen këto shënime të votimit për të prodhuar të plotë fotografi votimit mjeshtër që regjistrojnë sjelljen e votimit të të gjithë amerikanëve. Ansolabehere dhe Hersh partneritet me një nga këto kompani-Catalist LCC-në mënyrë që të përdorni dosjen e tyre të votimit mjeshtër për të ndihmuar në zhvillimin e një pamje më të mirë të elektoratit. Për më tepër, për shkak se ajo u mbështet në të dhënat dixhitale të mbledhura dhe të kuruar nga një kompani, ajo ofroi një numër të avantazhe mbi përpjekjet e mëparshme nga ana e studiuesve që ishin bërë pa ndihmën e kompanive dhe duke përdorur të dhënat analoge.
Ashtu si shumë nga burimet dixhitale gjurmë në Kapitullin 2, dosja mjeshtri Catalist nuk e ka përfshirë pjesën më të madhe të informacionit demografik, qëndrimeve dhe sjelljes se Ansolabehere dhe Hersh nevojshme. Përveç këtij informacioni, Ansolabehere dhe Hersh ishin veçanërisht të interesuar në krahasimin e raportuar sjelljen e votimit për sjelljen e votimit vlefshme (p.sh., të dhënat në bazën e të dhënave Catalist). Kështu, studiuesit mbledhur të dhënat që ata donin, si pjesë e Studimit të Bashkëpunimit Kongresit Zgjedhor (CCES), një sondazh të madh social. Next, studiuesit dhënë këto të dhëna për të Catalist dhe Catalist dha studiuesit të mbështetur një fotografi shkrinë dhënave që përfshinte vërtetuar sjelljen e votimit (nga Catalist), vetë-raportuar sjelljen e votimit (nga CCES) dhe demografia dhe qëndrimet e të anketuarve (nga CCES ). Me fjalë të tjera, Ansolabehere dhe Hersh pasuruar të dhënat e votimit me të dhënat e anketës, dhe që rezultojnë file shkrinë mundëson atyre që të bëjnë diçka që as fotografi të aktivizuara në mënyrë individuale.
Me pasurimin e Catalist mjeshtër dhënash me të dhënat e studimit, Ansolabehere dhe Hersh erdhi në tri konkluzione të rëndësishme. Së pari, mbi-raportimin e votimit është i shfrenuar: pothuajse gjysma e jo-votuesit raportuar votimit. Ose, një tjetër mënyrë për të shikuar në të është nëse dikush raportuar votimit, ka vetëm një mundësi 80% se ata në fakt kanë votuar. Së dyti, mbi-raportimit nuk është e rastit; mbi-raportimit është më e zakonshme në mesin e të ardhura të larta, të arsimuar mirë, partizanë të cilët janë të angazhuar në çështjet publike. Me fjalë të tjera, njerëzit që janë më shumë gjasa për të votuar janë gjithashtu më shumë gjasa të gënjejë për votim. Së treti, dhe më e rëndësishmja, për shkak të natyrës sistematike të mbi-raportimit, dallimet aktuale ndërmjet votuesit dhe jo-votuesit janë më të vogla se sa ato duken vetëm nga anketat. Për shembull, ata me një shkallë të beqarëve janë rreth 22 pikë përqindje më shumë gjasa të raportojnë votim, por vetëm 10 pikë përqindje më shumë gjasa për të votuar aktuale. Për më tepër, teoritë ekzistuese të burimeve me bazë të votimit janë shumë më mirë në parashikimin e të cilët do të raportojnë votimin se që në të vërtetë vota, gjenden empirik që bën thirrje për teoritë e reja për të kuptuar dhe parashikuar votimin.
Por, sa duhet të kemi besim këto rezultate? Mbani mend këto rezultate varen nga gabim-prirur që lidh të dhënat e zi-box me sasi të panjohur të gabimit. Më konkretisht, rezultatet varen në dy hapa kryesorë: 1) aftësia e Catalist për të kombinuar shumë burime të ndryshëm të të dhënave për të prodhuar një datafile saktë master dhe 2) aftësinë e Catalist për të lidhur të dhënat e sondazhit të datafile saj master. Secila prej këtyre hapave është mjaft e vështirë dhe gabimet në secilin hap mund të çojë studiues të konkluzioneve të gabuara. Megjithatë, të dyja përpunimin e të dhënave dhe të përputhen janë kritike për ekzistencën e vazhdueshme të Catalist si kompani kështu që mund të investojë burime në zgjidhjen e këtyre problemeve, shpesh në një shkallë që asnjë hulumtues individual akademik ose grup i studiuesve mund të përputhen. Në lexim të mëtejshëm në fund të kapitullit, I përshkruajnë këto probleme në mënyrë më të detajuar dhe si Ansolabehere dhe Hersh të ndërtuar besim në rezultatet e tyre. Edhe pse këto detaje janë specifike për këtë studim, çështje të ngjashme me këto do të dalin për studiues të tjerë që dëshirojnë të lidhura me zi-box digital gjurmë burimet e të dhënave.
Cilat janë mësimet e përgjithshme studiuesit mund të tërheqë nga ky studim? Së pari, nuk është vlera e madhe nga pasurimin gjurmë dixhitale me të dhënat e anketës. Së dyti, edhe pse këto të grumbulluara, burimet e të dhënave komerciale nuk duhet të konsiderohet si "e vërteta terren", në disa raste ato mund të jenë të dobishme. Në fakt, ajo është e mirë për të krahasuar këto burime të të dhënave jo të vërtetën absolute (nga të cilat ata gjithmonë do të bien të shkurtër). Përkundrazi, ajo është më mirë për të krahasuar ato me burimet e tjera në dispozicion të të dhënave, të cilat gjithmonë kanë gabime si.