Хоча це може бути брудним, збагачена запитувана може бути потужним.
Інший підхід до вирішення з неповнотою цифрових даних трасування , щоб збагатити його безпосередньо з геодезичними даними, процес , який я буду називати збагачену питати. Одним з прикладів збагаченому запитувана дослідження Burke and Kraut (2014) , який я описав раніше в цьому розділі (розділ 3.2), про те , збільшує силу дружби , взаємодіючих на Facebook. У цьому випадку, Берк і Kraut об'єднали дані обстежень з даними журналу на Facebook.
Установка, що Берк і Kraut працювали в, однак, означає, що вони не повинні мати справу з двома великими проблемами, які дослідники роблять збагачену просять особа. По- перше, на самому ділі пов'язуючи воєдино безлічі даних-а процес називається запис зв'язку, зрощування записи в одному наборі даних з відповідним записом в інший набір даних, може бути важким і схильним до помилок (ми побачимо приклад цієї проблеми нижче ). Друга основна проблема збагаченому запитувана, що якість цифрових слідів буде часто важко для дослідників, щоб оцінити. Наприклад, іноді процес, за допомогою якого він зібраний, є власністю і може бути сприйнятливі до багатьох з проблем, описаних в розділі 2. Іншими словами, збагачена запитувана буде часто включають помилок ув'язки обстежень з джерелами даних чорного ящика невідомого якість. Незважаючи на побоювання , що ці дві проблеми ввести, можна провести важливі дослідження з цією стратегією , як було показано , Стівен Ansolabehere і Eitan Херш (2012) в своїх дослідженнях про моделях голосування в США. Варто перейти на дослідження в деяких деталях, тому що багато хто з стратегій, які Ansolabehere і Херш розвинених буде корисний в інших додатках, збагачених питати.
Явка виборців була предметом великих досліджень в галузі політології, і в минулому, розуміння дослідників про те, хто голосує і чому в цілому засновані на аналізі даних обстеження. Голосування в США, проте, це незвичайна поведінка в тому, що уряд записи чи проголосував кожен громадянин (звичайно, уряд не реєструє, хто кожен громадянин голосує за). Протягом багатьох років ці урядові записи голосу були доступні на паперових формах, розкиданих в різних органах місцевого самоврядування по всій країні. Це зробило його важко, але не неможливо, політологи , щоб мати повну картину електорату і порівняти те , що люди говорять в опитуваннях про голосування їх фактичного поведінки голосування (Ansolabehere and Hersh 2012) .
Але тепер ці записи голосування були оцифровані, а також ряд приватних компаній систематично збирають і об'єднані ці записи голосу, щоб зробити всеосяжні файли майстер голосування, які реєструють поведінку голосування всіх американців. Ansolabehere і Херш в партнерстві з однією з цих компаній-Catalist LCC-для того, щоб використовувати їх майстер-файл для голосування, щоб допомогти розвинути повнішу картину електорату. Крім того, оскільки вона спиралася на цифрових записів, зібраних і куратором компанією, він запропонував цілий ряд переваг в порівнянні з попередніми зусиллями дослідників, що було зроблено без допомоги компаній і з використанням аналогових записів.
Як і багато хто з цифрових джерел трасування в розділі 2, майстер-файл Catalist не включають в себе більшу частину демографічного, отношенческой і поведінкової інформації, Ansolabehere і Херш необхідно. На додаток до цієї інформації, Ansolabehere і Херш були особливо зацікавлені в порівнянні повідомили поведінку для голосування схваленого поведінки виборців (тобто інформації, що міститься в базі даних Catalist). Таким чином, дослідники зібрали дані, які вони хотіли в рамках кооперативного конгресу виборчої вивчення (КУІС), великий соціальне опитування. Потім дослідники дали ці дані Catalist, і Catalist дав дослідники підперти об'єднаний файл даних, який включав перевірену поведінку голосування (від Catalist), самостійно повідомили поведінку голосування (від КУІС) і демографічні дані та ставлення респондентів (від CCES ). Іншими словами, Ansolabehere і Херш збагачується дані голосування з даними опитування, і результуючий злитий файл, дозволяє їм зробити щось, що дозволило окремо жоден файл.
Збагативши майстер-файл даних Catalist з даними обстеження, Ansolabehere і Херш прийшли до трьох важливих висновків. По-перше, завищення голосування лютує: майже половина неголосуючих повідомили голосування. Або, інший спосіб дивитися на нього, якщо хтось повідомив голосування, є тільки 80% вірогідність того, що вони насправді голосували. По-друге, надмірна звітність не є випадковим; завищуючи є більш поширеним серед високим рівнем доходу, добре освічені, партизани, які займаються громадськими справами. Іншими словами, люди, які, швидше за все, голосувати також, швидше за все, брехати про голосування. По-третє, і найважливіше, через систематичного характеру надмірної звітності, фактичні відмінності між виборцями і неголосуючих менше, ніж вони з'являються тільки з обстежень. Наприклад, ті, з ступінь бакалавра близько 22 процентних пунктів частіше повідомляють про голосування, але тільки на 10 процентних пунктів більше шансів фактичного голосування. Крім того, існуючі в ресурсах на основі теорії голосування набагато краще передбачити, хто буде повідомляти про голосування, ніж хто насправді голосів, емпіричним знахідкою, що вимагає нових теорій, щоб зрозуміти і передбачити голосування.
Але, наскільки ми повинні довіряти ці результати? Пам'ятайте, що ці результати залежать від схильних до помилок зв'язку з даними чорного ящика з невідомими кількістю помилок. Більш конкретно, результати залежать від двох основних етапів: 1) здатність Catalist об'єднати безліч розрізнених джерел даних, щоб зробити точну майстер-файл даних і 2) здатність Catalist зв'язати дані обстеження для свого головного файлу даних. Кожен з цих етапів є досить складним і помилок на будь-якому етапі може привести дослідників до неправильних висновків. Проте, як обробка даних і відповідності мають вирішальне значення для подальшого існування Catalist як компанії, так що він може інвестувати ресурси в рішенні цих проблем, часто в масштабі, що жодна людина вчений-дослідник або група дослідників не може зрівнятися. Надалі читанні в кінці глави, я описую ці проблеми більш детально і як Ansolabehere і Херш побудувати впевненість в своїх результатах. Хоча ці деталі є специфічними для даного дослідження, питання, подібні цим будуть виникати для інших дослідників, які бажають пов'язати з чорного ящика джерел даних цифрового сліду.
Які загальні уроки дослідники можуть отримати з цього дослідження? По-перше, існує величезне значення від збагачення цифрових слідів з даними обстеження. По-друге, навіть якщо вони агрегуються, комерційні джерела даних не слід розглядати як "земля істина", а в деяких випадках вони можуть бути корисні. Насправді, найкраще порівняти ці джерела даних не абсолютною Істини (від якого вони завжди будуть падати короткий). Швидше, це краще порівняти їх з іншими наявними джерелами даних, які незмінно містять помилки, а також.