הגברת הבקשה באמצעות מודל חזוי כדי לשלב נתוני סקר ממספר אנשים עם מקור נתונים גדול מאנשים רבים.
דרך אחרת לשלב סקר מקורות נתונים גדולים הוא תהליך שאני אקרא לשאול מוגבר . בהשאלה מוגברת, חוקר משתמש במודל חזוי כדי לשלב כמות קטנה של נתוני סקר עם מקור נתונים גדול על מנת לייצר אומדנים בהיקף או ברמת פירוט שלא יהיו אפשריים עם מקור הנתונים בנפרד. דוגמה חשובה לשאלה מוגברת נובעת מעבודתו של יהושע בלומנשטוק, שרצה לאסוף נתונים שיכולים לסייע בהנחיית הפיתוח במדינות עניות. בעבר, החוקרים שאספו מידע זה בדרך כלל היו צריכים לנקוט באחת משתי גישות: סקרי מדגם או מפקדים. סקרים לדוגמה, שבו חוקרים לראיין מספר קטן של אנשים, יכול להיות גמיש, בזמן, וזול יחסית. עם זאת, סקרים אלה, כי הם מבוססים על מדגם, מוגבלים לעתים קרובות ברזולוציה שלהם. בעזרת סקר מדגמי, לעתים קרובות קשה לבצע הערכות לגבי אזורים גיאוגרפיים ספציפיים או לקבוצות דמוגרפיות ספציפיות. המפקדים, לעומת זאת, מנסים לראיין את כולם, ולכן הם יכולים לשמש כדי לייצר אומדנים עבור אזורים גיאוגרפיים קטנים או קבוצות דמוגרפיות. אבל המפקדים הם בדרך כלל יקרים, צרים בפוקוס (הם כוללים רק מספר קטן של שאלות), ולא בזמן (הם קורים על לוח זמנים קבוע, כמו כל 10 שנים) (Kish 1979) . במקום להיות תקוע עם סקרים לדוגמה או מפקדים, לדמיין אם החוקרים יכולים לשלב את המאפיינים הטובים ביותר של שניהם. תארו לעצמכם אם החוקרים יכולים לשאול כל שאלה לכל אדם בכל יום. ברור, זה תמיד, תמיד על הסקר הוא סוג של מדע בדיוני פנטזיה. אבל נראה כי אנו יכולים להתחיל בקירוב זה על ידי שילוב של שאלות הסקר ממספר קטן של אנשים עם עקבות דיגיטליים מאנשים רבים.
המחקר של בלומנשטוק החל כאשר הוא שיתף פעולה עם ספק הטלפון הנייד הגדול ביותר ברואנדה, והחברה סיפקה רשומות בעילום שם מ -1.5 מיליון לקוחות בין השנים 2005 ו -2009. רשומות אלה הכילו מידע על כל שיחה ועל הודעת טקסט, כגון זמן ההתחלה, משך , ומיקום גיאוגרפי משוער של המתקשר ואת המקלט. לפני שאני מדבר על נושאים סטטיסטיים, כדאי לציין כי זה הצעד הראשון עשוי להיות אחד הקשים ביותר עבור חוקרים רבים. כפי שתיארתי בפרק 2, רוב מקורות הנתונים הגדולים אינם נגישים לחוקרים. מטא-נתונים טלפוניים, בפרט, הוא בלתי נגיש במיוחד, משום שבסופו של דבר אי-אפשר לאתר אנונימיזציה ובוודאי שהוא מכיל מידע שהמשתתפים היו רואים בו רגישים (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . במקרה זה, החוקרים היו זהירים כדי להגן על הנתונים ואת עבודתם היה פיקוח על ידי צד שלישי (כלומר, IRB שלהם). אחזור לנושאים אתיים אלה ביתר פירוט בפרק 6.
בלומנשטוק היה מעוניין במדידת עושר ורווחה. אבל תכונות אלה אינן ישירות רשומות השיחה. במילים אחרות, רשומות השיחות הללו אינן שלמות עבור מחקר זה - תכונה נפוצה של מקורות נתונים גדולים שנדונו בפירוט בפרק 2. עם זאת, סביר להניח שלרשומות השיחות יש כנראה מידע שיכול לספק מידע בעקיפין רווחה. בהינתן אפשרות זו, שאל בלומנשטוק אם ניתן להכשיר מודל ללמידה ממוחשבת כדי לחזות כיצד יגיב מישהו לסקר המבוסס על שיאי השיחות שלהם. אם זה היה אפשרי, אז Blumenstock יכול להשתמש במודל זה כדי לחזות את התשובות הסקר של כל 1.5 מיליון לקוחות.
כדי לבנות ולהכשיר מודל כזה, בלומנשטוק ועוזרי מחקר ממכון קיגאלי למדע וטכנולוגיה קראו מדגם אקראי של כאלף לקוחות. החוקרים הסבירו את מטרות הפרויקט למשתתפים, ביקשו את הסכמתם לקשר את תשובות הסקר לרשומות השיחות, ולאחר מכן שאלו אותם שורה של שאלות למדידת עושרם ורווחתם, כגון "האם אתם הבעלים של רדיו? "ו"אם יש לך אופניים?" (ראה תרשים 3.14 לרשימה חלקית). כל המשתתפים בסקר קיבלו פיצוי כספי.
לאחר מכן, בלומנשטוק השתמשה בהליך דו-שלבי משותף בלמידת מכונה: הנדסת תכונות ואחריה למידה מבוקרת. ראשית, בשלב הנדסה תכונה , עבור כל מי שרואיינו, בלומנשטוק להמיר את שיחת השיחות לתוך קבוצה של מאפיינים על כל אדם; מדעני נתונים עשויים לכנות את המאפיינים האלה "תכונות" ומדעני החברה יקראו להם "משתנים". לדוגמה, עבור כל אדם, בלומנשטוק חישב את מספר הימים עם הפעילות, את מספר האנשים הנבדלים שאדם היה במגע איתם, כמות הכסף שהושקע על זמן אוויר, וכן הלאה. מבחינה קריטית, הנדסת תכונות טובה דורשת ידע על הגדרת המחקר. לדוגמה, אם חשוב להבחין בין שיחות מקומיות ובינלאומיות (אנו עשויים לצפות אנשים שקוראים בינלאומית להיות עשירים יותר), אז זה חייב להיעשות בשלב הנדסה תכונה. חוקר עם מעט הבנה של רואנדה לא יכול לכלול תכונה זו, ולאחר מכן את הביצועים החזויים של המודל יסבול.
לאחר מכן, בשלב הלמידה בפיקוח , בנה בלומנשטוק מודל לחזות את תגובת הסקר עבור כל אדם על פי תכונותיו. במקרה זה, בלומנשטוק השתמש ברגרסיה לוגיסטית, אך הוא יכול היה להשתמש במגוון של גישות סטטיסטיות או לימודיות אחרות.
אז כמה טוב זה עבד? האם בלומנשטוק מסוגל לנבא תשובות לשאלות הסקר כמו "האם יש ברשותך רדיו?" ו"אם יש לך אופניים? "באמצעות תכונות שמקורן ברשומות שיחות? כדי להעריך את הביצועים של המודל החיזוי שלו, בלומנשטוק השתמש באימות צולב , טכניקה נפוצה במדעי הנתונים, אך לעתים רחוקות במדעי החברה. המטרה של אימות צולבת היא לספק הערכה הוגנת של ביצועים מנבאים של המודל על ידי אימון זה ובדיקה על קבוצות משנה שונות של נתונים. בפרט, Blumenstock פיצול הנתונים שלו לתוך 10 חתיכות של 100 אנשים כל אחד. לאחר מכן, הוא השתמש תשעה של גושים כדי לאמן את המודל שלו, ואת הביצועים החזוי של המודל מאומן הוערך על נתח הנותרים. הוא חזר על הנוהל הזה 10 פעמים - כאשר כל נתח של נתונים הגיע לסיבוב אחד בתור נתוני האימות - וממוצע התוצאות.
הדיוק של התחזיות היה גבוה עבור כמה תכונות (איור 3.14); לדוגמה, בלומנשטוק יכול לנבא עם 97.6% דיוק אם מישהו בבעלות רדיו. זה אולי נשמע מרשים, אבל זה תמיד חשוב להשוות שיטת חיזוי מורכבת נגד חלופה פשוטה. במקרה זה, חלופה פשוטה היא לנבא שכולם ייתנו את התשובה הנפוצה ביותר. לדוגמה, 97.3% מהנשאלים דיווחו על בעלות על מכשיר רדיו, כך שאם בלומנשטוק יחזה שכולם ידווחו על בעלות על הרדיו הוא היה בעל דיוק של 97.3%, דבר שמפתיע באופן דומה בביצועים של הנוהל המורכב יותר שלו (97.6% דיוק) . במילים אחרות, כל הנתונים והמודלים המפוארים הגבירו את דיוק התחזית מ -97.3% ל -97.6%. עם זאת, עבור שאלות אחרות, כגון "האם יש לך אופניים?", התחזיות השתפרו מ 54.4% ל 67.6%. באופן כללי יותר, איור 3.15 מראה כי עבור תכונות מסוימות Blumenstock לא השתפר הרבה מעבר פשוט עושה את התחזית הבסיסית פשוטה, אבל זה עבור תכונות אחרות היה שיפור מסוים. עם זאת, רק אם מסתכלים על תוצאות אלו, ייתכן שלא תחשבו שגישה זו מבטיחה במיוחד.
עם זאת, רק שנה לאחר מכן, Blumenstock ושני עמיתים - גבריאל Cadamuro ורוברט On - פרסם מאמר במדע עם תוצאות טובות יותר באופן משמעותי (Blumenstock, Cadamuro, and On 2015) . היו שתי סיבות טכניות עיקריות לשיפור זה: (1) הם השתמשו בשיטות מתוחכמות יותר (כלומר, גישה חדשה להנדסת תכונות ודגם מתוחכם יותר לחיזוי תגובות מהתכונות) ו- (2) במקום לנסות להסיק תגובות לפרט (למשל, "האם ברשותך רדיו?"), הם ניסו להסיק מדד עושר מורכב. שיפורים טכניים אלה התכוונו כי הם יכולים לעשות עבודה סבירה של שימוש רשומות השיחות לחזות עושר עבור אנשים במדגם שלהם.
חיזוי עושרם של אנשים במדגם, עם זאת, לא היה המטרה הסופית של המחקר. זכור כי המטרה הסופית היתה לשלב כמה מהתכונות הטובות ביותר של סקרי מדגם ומפקדים כדי לייצר הערכות מדויקות, ברזולוציה גבוהה של עוני במדינות מתפתחות. כדי להעריך את יכולתם להשיג מטרה זו, השתמשו בלומנשטוק ועמיתיהם במודל ובנתונים שלהם כדי לנבא את העושר של כל 1.5 מיליון בני האדם ברשומות השיחות. והם השתמשו במידע הגיאו-מרחבי המוטבע ברשומות השיחות (יש לזכור כי הנתונים כללו את המיקום של מגדל התא הקרוב ביותר לכל שיחה) כדי להעריך את מקום המגורים המשוער של כל אדם (איור 3.17). בהסתמך על שתי ההערכות הללו, בלומנשטוק ועמיתיו הפיקו הערכה של ההתפלגות הגיאוגרפית של עושר המנויים ברמת פירוט מרחבית עדינה ביותר. לדוגמה, הם יכלו להעריך את העושר הממוצע בכל אחד מ -2,148 התאים של רואנדה (יחידת הניהול הקטנה ביותר במדינה).
עד כמה האומדנים הללו תואמים את רמת העוני בפועל באזורים אלו? לפני שאני עונה על השאלה הזאת, אני רוצה להדגיש את העובדה כי יש הרבה סיבות להיות סקפטי. לדוגמה, היכולת לבצע תחזיות ברמה האישית הייתה די רועשת (איור 3.17). וחשוב מכך, אנשים עם טלפונים ניידים עשויים להיות שונים באופן שיטתי מאנשים ללא טלפונים ניידים. לכן, Blumenstock ועמיתיו עלולים לסבול את סוגי שגיאות כיסוי כי מוטה 1936 ספרות ספרותית סקר כי תיארתי קודם לכן.
כדי לקבל מושג על איכות האומדנים שלהם, בלומנשטוק ועמיתיהם היו צריכים להשוות אותם למשהו אחר. למרבה המזל, בערך באותו זמן כמו המחקר שלהם, קבוצה אחרת של חוקרים היה מפעיל סקר חברתי מסורתי יותר ברואנדה. הסקר האחר - שהיה חלק מתוכנית הסקר הדמוגרפי והבריטי המכובד - היה בעל תקציב גדול והשתמש בשיטות מסורתיות איכותיות. לפיכך, ההערכות של הסקר הדמוגרפי והבריאות יכולות להיחשב באופן סביר כאומדני תקן זהב. כאשר הושוו שתי ההערכות, הן היו דומות למדי (איור 3.17). במילים אחרות, על ידי שילוב של כמות קטנה של נתוני סקר עם שיחת השיאים, Blumenstock ועמיתים היו מסוגלים לייצר הערכות להשוות את אלה מן הזהב סטנדרטית גישות.
ספקן יכול לראות את התוצאות הללו כאכזבה. אחרי הכל, דרך אחת לראות אותם היא לומר כי באמצעות נתונים גדולים הלמידה מכונה, בלומנשטוק ועמיתיו היו מסוגלים לייצר הערכות כי ניתן לעשות בצורה אמינה יותר על ידי שיטות קיימות כבר. אבל אני לא חושב שזו הדרך הנכונה לחשוב על מחקר זה משתי סיבות. ראשית, ההערכות של בלומנשטוק ועמיתיו היו כ 10 פעמים מהר יותר ו 50 פעמים זול יותר (כאשר העלות נמדדת במונחים של עלויות משתנות). כפי שטענתי קודם לכן בפרק זה, החוקרים מתעלמים מהעלות בסכנה שלהם. במקרה זה, למשל, הירידה הדרמטית בעלויות משמעותה כי במקום לרוץ כל כמה שנים - כסטנדרט לסקרים דמוגרפיים ובריאותיים - ניתן לערוך סקר מסוג זה מדי חודש, דבר שיספק יתרונות רבים לחוקרים ולמדיניות מקבלי. הסיבה השנייה לא לקחת את דעתו של הספקן היא כי מחקר זה מספק מתכון בסיסי שיכול להיות מותאם למצבי מחקר שונים. מתכון זה מכיל רק שני מרכיבים ושני צעדים. המרכיבים הם: (1) מקור נתונים גדול רחב אך רזה (כלומר, יש בו אנשים רבים, אך לא את המידע הדרוש לך על כל אדם) ו (2) סקר צר אך עבה (כלומר, יש לו רק כמה אנשים, אבל יש לו את המידע שאתה צריך על האנשים האלה). מרכיבים אלה משולבים אז בשני שלבים. ראשית, עבור אנשים בשני מקורות הנתונים, לבנות מודל הלמידה מכונה המשתמשת מקור הנתונים הגדול לחזות תשובות הסקר. לאחר מכן, להשתמש במודל זה כדי להטיל את התשובות הסקר של כולם במקור הנתונים הגדול. לכן, אם יש שאלה שאתה רוצה לשאול הרבה אנשים, לחפש מקור נתונים גדול מאנשים אלה שעשויים לשמש כדי לחזות את התשובה שלהם, גם אם לא אכפת לך את מקור הנתונים הגדול . כלומר, בלומנשטוק ועמיתיו לא טיפלו ביסודות השיחות. הם רק טרחו על שיחת שיחות, כי הם יכולים לשמש כדי לחזות תשובות הסקר שהם אכפת. אינטרס עקיף אופייני זה בלבד במקור הנתונים הגדול - הופך את ההגברה לשאילתה שונה משאלות משובצות, שאותן תיארתי קודם.
לסיכום, גישתה המבקשת של בלומנשטוק מגדילה את נתוני הסקר עם מקור נתונים גדול כדי לייצר אומדנים דומים לאלה של סקר רגיל. הדוגמה המסוימת הזו מבהירה גם חלק מהמסחר בין השיטות המוגברות לבין שיטות הסקר המסורתיות. אומדנים מבוקשים לשאול היו בזמן יותר, זול יותר באופן משמעותי, ו מפורט יותר. אבל מצד שני, אין עדיין בסיס תיאורטי חזק לסוג כזה של שאלה מוגברת. דוגמה אחת זו אינה מוצגת כאשר גישה זו תפעל וכאשר היא לא תפעל, וחוקרים המשתמשים בגישה זו צריכים להיות מודאגים במיוחד לגבי הטיות אפשריות שנגרמות על ידי מי שנכלל - ומי לא נכלל - במקור הנתונים הגדול שלהם. יתר על כן, הגישה מבקשת לשאול עדיין אין דרכים טובות לכמת אי ודאות סביב האומדנים שלה. למרבה המזל, לשאלה מוגברת יש קשרים עמוקים לשלושה תחומים גדולים בסטטיסטיקה - אומדן שטח קטן (Rao and Molina 2015) , זקיפה (Rubin 2004) וריאציה פוסט-ריבודית מבוססת מודל (שהיא עצמה קשורה קשר הדוק למר פ. השיטה שתיארתי קודם בפרק) (Little 1993) . בגלל הקשרים העמוקים האלה, אני מצפה שרבים מן היסודות המתודולוגיים של שאלת ההגברה ישתפרו בקרוב.
לבסוף, השוואת הניסיונות הראשונים והשני של בלומנשטוק גם ממחישה שיעור חשוב על מחקר חברתי של גיל דיגיטלי: ההתחלה היא לא הסוף. כלומר, פעמים רבות, הגישה הראשונה לא תהיה הטובה ביותר, אבל אם החוקרים ימשיכו לעבוד, הדברים יכולים להשתפר. באופן כללי יותר, כאשר בוחנים גישות חדשות למחקר חברתי בעידן הדיגיטלי, חשוב לערוך שתי הערכות ברורות: (1) עד כמה זה עובד עכשיו? ו (2) כמה טוב זה יהיה לעבוד בעתיד כמו הנוף הנתונים משתנה וחוקרים מקדישים יותר תשומת לב לבעיה? למרות החוקרים מאומנים לעשות את ההערכה הראשונה של סוג, השני הוא לעתים קרובות יותר חשוב.