למרות שזה יכול להיות מבולגן, לשאול מועשר יכול להיות חזק.
גישה שונה להתמודדות עם אי-השלמות של נתוני עקבות דיגיטליים היא להעשיר אותו ישירות עם נתוני סקר, בתהליך שאני אתקשר לשאול מועשר. דוגמה אחת לשאול מועשר היא חקר Burke and Kraut (2014) , אשר שתיארתי קודם בפרק (סעיף 3.2), על אם אינטראקציה בפייסבוק מגביר חוזק ידידות. במקרה כזה, בורק קראוט בשילוב נתוני הסקר עם הנתונים הפייסבוק.
ההגדרה כי בורק קראוט עבדת, עם זאת, משמעות הדבר כי הם לא היו צריכים להתמודד עם שתי בעיות גדולות כי חוקרים עושים פנים מבקשים מועשרים. ראשית, בעצם מקשר יחד סטים-נתוני הצמדת שיא תהליך הנקרא, את ההתאמה של שיא במערך אחד עם השיא המתאים במערך-יכול אחרת להיות קשה מועדת לטעויות (נצטרך לראות דוגמא של בעיה זו להלן ). הבעיה העיקרית השנייה של מבוקש מועשר היא שאיכות העקבות הדיגיטליות תהיה קשה לעתים קרובות לחוקרים להעריך. לדוגמא, לפעמים התהליך שבאמצעותו הוא נאסף הוא קניינים יכול להיות חשוף רב מהבעיות שתוארו בפרק 2. במילות אחרות, שואל מועשר יהיה כרוך לעתים קרובות מקשרים מועדים לטעויות של סקרים למקורות נתוני קופסא שחורה של לא ידוע איכות. למרות החששות כי שתי בעיות אלה להציג, זה אפשרי לערוך מחקר חשוב עם אסטרטגיה זו כפי שהוכח על ידי סטיבן אנסולבהר ואיתן רש (2012) במחקרם על דפוסי הצבעה בארה"ב. כדאי ללכת על מחקר זה בפירוט כי רב של האסטרטגיות אנסולבהר ורש שפותחו יהיו שימושי ביישומים אחרים של מבוקש מועשר.
שיעור ההצבעה כבר את הנושא של מחקר מקיף במדעי המדינה, ובעבר, להבנה טובה יותר של חוקרים מי מצביע ולמה כבר מבוססים בדרך כלל על ניתוח של נתוני הסקר. ההצבעה בארה"ב, לעומת זאת, היא התנהגות לא רגילה כי ברשומות אם כל אזרח הצביע (כמובן, הממשלה לא להקליט שכל אחד מהם קולות אזרח עבור). במשך שנים רבות, רשומות הצבעה הממשלתיות אלו היו נגישות טפסי נייר, מפוזר במשרדי ממשלה מקומיים שונים ברחבי הארץ. זה היה קשה מאוד, אבל לא בלתי אפשרי, בשביל זה יש אנשי מדע מדינת תמונה מלאה של הציבור הבוחר ולהשוות למה שאנשים אומרים בסקרים על הצבעה להתנהגות ההצבעה שלהם בפועל (Ansolabehere and Hersh 2012) .
אבל, כעת רשומי הצבעה אלה עברו דיגיטציה, ומספר החברות פרטיות נאסף באופן סדיר והתמזג רשומות הצבעה אלה כדי לייצר קבצי הצבעת אב כוללים המתעדים את התנהגות ההצבעה של כל האמריקנים. אנסולבהר ורש שותפות עם אחת מהחברות-Catalist אלה LCC-מנת להשתמש בקובץ הצבעת אדונם כדי לעזור לפתח תמונה טובה יותר של ציבור הבוחרים. יתר על כן, כי זה הסתמך על מסמכים הדיגיטליים הנאספים שאצרו חברה, היא הציעה מספר היתרונות על פני מאמצים הקודמים של חוקרים כי נעשו ללא סיוע של חברות ושימוש רשומים אנלוגי.
כמו רבים של מקורות עקבות הדיגיטליים בפרק 2, הקובץ הראשי Catalist לא כלל הרבה של המידע הדמוגרפי, עמדות, והתנהגותיים אנסולבהר ורשים צורכים. בנוסף למידע הזה, אנסולבהר והרש התעניינו במיוחד השוואת התנהגות ההצבעה דיווחו להתנהגות ההצבעה תוקף (כלומר, המידע באתר Catalist). לכן, החוקרים אספו את הנתונים שהם רוצים במסגרת סקר הבחירות השיתופית הקונגרס (CCES), סקר חברתי גדול. בשלב הבא, החוקרים נתנו בנתונים אלה כדי Catalist, ו Catalist נתן החוקרים לגבות קובץ נתונים הממוזגת כי כלל תוקף התנהגות ההצבעה (מ Catalist), התנהגות ההצבעה דיווח עצמי (מ CCES) ואת הדמוגרפיה ועמדות של המשיבים (מ CCES ). במילות אחרות, אנסולבהר ורש העשירו את נתוני הצבעה עם נתוני סקר, ואת הקובץ הממוזג וכתוצאה מכך מאפשר להם לעשות משהו שאף קובץ מופעל בנפרד.
על ידי העשרת קובץ נתוני אב Catalist עם נתוני סקר, אנסולבהר ורש הגיעו שלוש מסקנות חשובות. ראשית, על-דיווח של הצבעה הוא משתולל: כמעט מחצית הנמנעים דיווחה הצבעה. או, דרך אחרת להסתכל על זה היא אם מישהו דיווח הצבעה, יש רק סיכוי של 80% כי הם הצביעו בפועל. שנית, על-דיווח אינו אקראי; דיווח על נפוץ יותר בקרב בעלי הכנסה גבוהה, משכילים, פרטיזנים אשר עוסקים בענייני ציבור. במילים אחרות, האנשים בעלי הסבירות הגבוהה ביותר להצביע גם הסיכוי הטוב ביותר לשקר לגבי ההצבעה. שלישית, והכי קריטי, בשל אופיו השיטתית של יתר הדיווח, את ההבדלים בפועל בין בוחרים נמנעים הם קטנים יותר מאשר הם מופיעים רק מסקרים. לדוגמא, בעלי תואר ראשון הם כ -22 נקודות אחוזות יותר לדווח על הצבעה, אבל הם רק 10 נקודות אחוזות יותר סיכוי הצבעה בפועל. יתר על כן, תאוריות המשאב מבוסס הקיימים של הצבעה הן הרבה יותר טובות בחיזוי אשר ידווח הצבעה מ קולות שבאמת, ממצא אמפירי הקורא תאוריות חדשות להבין ולחזות הצבעה.
אבל, עד כמה אנחנו צריכים לסמוך התוצאות הללו? זכור התוצאות הללו תלויות מקשרים מועדות לטעויות לנתוני קופסא שחורה עם כמויות ידועות של שגיאה. באופן ספציפי יותר, התוצאות תלויות בשני שלבים עיקריים: 1) את היכולת של Catalist לשלב מקורות נתונים שונים רבים לייצר datafile מאסטר מדויק 2) היכולת של Catalist לקשר נתוני הסקר כדי datafile אדוניו. כל אחד משלבים אלה די קשה ושגיאות משני צעד שעלול להוביל לחוקרים מסקנות מוטעות. עם זאת, עיבוד נתונים והן תואמים הם קריטיים להמשך קיומו של Catalist כחברה כך שהוא יכול להשקיע משאבים בפתרון בעיות אלה, לעתים קרובות בקנה מידה שאף חוקר אקדמי יחיד או קבוצה של חוקרים יכול להתאים. בקריאה נוספת בסוף הפרק, אני מתאר בעיות אלה ביתר פירוט וכיצד אנסולבהר והרש לבנות אמון בתוצאות שלהם. למרות הפרטים האישיים הם ספציפיים במחקר זה, בעיות דומות לאלה תקומנה לחוקרים אחרים המבקשים לקשר למקורות נתוני עקבות דיגיטליות קופסא שחורה.
מהם הלקחים הכלליים חוקרים יכולים לצייר ממחקר זה? ראשית, יש ערך עצום את העשרת עקבות דיגיטליות עם נתוני סקר. שנית, למרות מצטברים אלה, מקורות נתונים מסחריים לא צריכים להיחשב "אמת קרקע", ובמקרים מסוימים הם יכולים להיות שימושיים. למעשה, עדיף להשוות מקורות נתונים אלה שלא אמת מוחלטת (שממנו הם תמיד ייפלו קצרים). במקום זאת, עדיף להשוות אותם למקורות נתונים זמינים אחרים, אשר תמיד יש טעויות גם כן.