פֿאַרבינדונג דיין יבערבליק צו דיגיטאַל טראַסעס קענען זיין ווי אַסקינג אַלעמען דיין שאלות אין אַלע מאל.
אַסקינג בכלל קומט אין צוויי הויפּט קאַטעגאָריעס: מוסטער סערווייז און סענסוסעס. מוסטער סערווייז, ווו איר צוטריט אַ קליין נומער פון מענטשן, קענען זייַן Flexible, בייַצייַטיק, און לעפיערעך ביליק. אָבער, מוסטער סערווייז, ווייַל זיי זענען באזירט אויף אַ מוסטער, זענען אָפֿט באגרענעצט אין זייער האַכלאָטע; מיט אַ מוסטער יבערבליק, עס איז אָפֿט שווער צו מאַכן עסטאַמאַץ וועגן ספּעציפיש Geographic מקומות אָדער פֿאַר ספּעציפיש דעמאָגראַפיק גרופּעס. סענסוסעס, אויף די אנדערע, פּרווון צו אינטערוויו אַלעמען אין די באַפעלקערונג. זיי האָבן גרויס האַכלאָטע, אָבער זיי זענען בכלל טייַער, שמאָל אין פאָקוס (זיי נאָר אַרייַננעמען אַ קליין נומער פון שאלות), און ניט בייַצייַטיק (זיי פּאַסירן אויף אַ פאַרפעסטיקט פּלאַן, אַזאַ ווי יעדער 10 יאר) (Kish 1979) . איצט ימאַדזשאַן אויב ריסערטשערז קען פאַרבינדן די בעסטער טשאַראַקטעריסטיקס פון מוסטער סערווייז און סענסוסעס; ימאַדזשאַן אויב ריסערטשערז קען פרעגן יעדער קשיא צו אַלעמען יעדער טאָג.
דאָך, דעם קעסיידערדיק, ומעטומיק, שטענדיק-אויף יבערבליק איז אַ מין פון געזעלשאַפטלעך וויסנשאַפֿט פאַנטאַזיע. אבער, עס אויס אַז מיר קענען אָנהייבן צו דערנענטערנ זיך דעם דורך קאַמביינינג יבערבליק שאלות פון אַ קליין נומער פון מענטשן מיט דיגיטאַל טראַסעס פון פילע מענטשן. איך רופן דעם טיפּ פון קאָמבינאַציע אַמפּליפיעד אַסקינג. אויב געטאן געזונט, עס קען העלפן אונדז גיט אָפּשאַצונג וואָס זענען מער היגע (פֿאַר קלענערער Geographic געביטן), מער גראַניאַלער (פֿאַר ספּעציפיש דעמאָגראַפיק גרופּעס), און מער בייַצייַטיק.
איין בייַשפּיל פון אַמפּליפיעד אַסקינג קומט פֿון דער אַרבעט פון יהושע בלומענסטאָקק, וואס געוואלט צו זאַמלען דאַטן וואָס וואָלט העלפן פירן אַנטוויקלונג אין נעבעך לענדער. מער ספּעסיפיקאַללי, בלומענסטאָקק געוואלט צו שאַפֿן אַ סיסטעם צו מעסטן עשירות און געזונט-ווייל אַז קאַמביינד די קאַמפּליטנאַס פון אַ צענזוס מיט די בייגיקייַט און אָפטקייַט פון אַ יבערבליק (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . אין פאַקט, איך ווע שוין דיסקרייבד בלומענסטאָקק ס אַרבעט בעקיצער אין טשאַפּטער 1.
צו אָנהייבן, בלומענסטאָקק פּאַרטנערעד מיט די גרעסטער רירעוודיק טעלעפאָנירן שפּייַזער אין רוואַנדאַ. די פירמע ביטנייַ אים אַנאָנימיזעד מאַסע רעקאָרדס פון וועגן 1,500,000 קאַסטאַמערז קאַווערינג אָפּפירונג פון 2005 און 2009. די לאָגס אַנטהאַלטן אינפֿאָרמאַציע וועגן יעדער רופן און טעקסט אָנזאָג אַזאַ ווי די אָנהייב צייַט, געדויער, און דערנענטערנ זיך Geographic אָרט פון די קאָלער און ופנעמער. איידער מיר אָנהייבן גערעדט וועגן די סטאַטיסטיש ישוז, עס איז ווערט פּוינטינג אויס אַז דעם ערשטער שריט מייַ זייַן איינער פון די כאַרדאַסט. ווי דיסקרייבד אין טשאַפּטער 2, רובֿ דיגיטאַל שפּור דאַטן איז ינאַקסעסאַבאַל צו ריסערטשערז. און, פילע קאָמפּאַניעס זענען דזשוסטיפיאַבלי כעזיטאַנט צו טיילן זייער דאַטן ווייַל עס איז פּריוואַט; וואָס איז זייער קאַסטאַמערז מיסטאָמע האט ניט דערוואַרטן אַז זייער רעקאָרדס וועט זיין שערד אין פאַרנעם-מיט ריסערטשערז. אין דעם פאַל, די ריסערטשערז גענומען אָפּגעהיט טריט צו אַנאָנימיזע די דאַטן און זייער אַרבעט איז געווען אָוווערסין דורך א דריט-פּאַרטיי (ד"ה, זייער ירב). אבער, טראָץ די השתדלות, די דאַטן זענען מיסטאָמע נאָך ידענטיפיאַבלע און זיי מסתּמא אַנטהאַלטן שפּירעוודיק אינפֿאָרמאַציע (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . איך וועט צוריקקומען צו די עטישע קשיא אין פּרק 6.
ריקאָל אַז בלומענסטאָקק איז געווען אינטערעסירט אין מעסטן עשירות און געזונט-ווייל. אבער, די טרייץ זענען נישט גלייַך אין די רופן רעקאָרדס. אין אנדערע ווערטער, די רופן רעקאָרדס זענען דערענדיקט פֿאַר דעם פאָרשונג, אַ פּראָסט שטריך פון דיגיטאַל טראַסעס וואָס איז געווען דיסקאַסט אין דעטאַל אין טשאַפּטער 2. אבער, עס מיינט מסתּמא אַז די רופן רעקאָרדס מיסטאָמע האָבן עטלעכע אינפֿאָרמאַציע וועגן עשירות און געזונט-ווייל. אזוי, איין וועג פון אַסקינג בלומענסטאָקק ס קשיא קען זיין: איז עס מעגלעך צו פאָרויסזאָגן ווי עמעצער וועט רעספּאָנד צו אַ יבערבליק באזירט אויף זייער דיגיטאַל שפּור דאַטן? אויב אַזוי, דעמאָלט דורך אַסקינג אַ ביסל מענטשן מיר קענען טרעפן די ענטפֿערס פון אַלעמען אַנדערש.
צו אַססעסס דעם עמפּיריקלי, בלומענסטאָקק און פאָרשונג אַסיסטאַנץ פון Kigali אינסטיטוט פון וויסנשאַפֿט און טעכנאָלאָגיע גערופֿן אַ מוסטער פון וועגן אַ טויזנט רירעוודיק טעלעפאָנירן קאַסטאַמערז. די ריסערטשערז דערקלערט די צילן פון די פּרויעקט צו די פּאַרטיסאַפּאַנץ, געבעטן פֿאַר זייער צושטימען צו רונג די יבערבליק רעספּאָנסעס צו דעם רוף רעקאָרדס, און דעמאָלט געבעטן זיי אַ סעריע פון שאלות צו מעסטן זייער עשירות און געזונט-ווייל, אַזאַ ווי "דו זאלסט איר אייגן אַ ראַדיאָ? "און" צי איר אייגן אַ וועלאָסיפּעד? "(זען Figure 3.11 פֿאַר אַ פּאַרטיייש רשימה). כל פּאַרטיסאַפּאַנץ אין די יבערבליק זענען קאַמפּאַנסייטאַד פינאַנסיאַללי.
ווייַטער, בלומענסטאָקק געניצט אַ צוויי-שריט פּראָצעדור פּראָסט אין דאַטן וויסנשאַפֿט: שטריך ינזשעניעריע נאכגעגאנגען דורך סופּערווייזד וויסן. ערשטער, אין די שטריך ינזשעניעריע שריט, פֿאַר אַלעמען וואָס איז געווען ינטערוויוד, בלומענסטאָקק קאָנווערטעד די רופן רעקאָרדס אין אַ סכום פון טשאַראַקטעריסטיקס וועגן יעדער מענטש; דאַטן סייאַנטיס זאל רופן די קעראַקטעריסטיקס "פֿעיִקייטן" און געזעלשאַפטלעך סיינטיס וואָלט רופן זיי "וועריאַבאַלז." למשל, פֿאַר יעדער מענטש, בלומענסטאָקק קאַלקיאַלייטיד גאַנץ נומער פון טעג מיט טעטיקייט, די נומער פון בוילעט מענטשן אַ מענטש האט שוין אין קאָנטאַקט מיט, די סומע פון געלט אויסגעגעבן אויף ערטיים, און אַזוי אויף. קריטיקאַלי, גוט שטריך ינזשעניעריע ריקווייערז וויסן פון די פאָרשונג באַשטעטיקן. לעמאָשל, אויב עס איז וויכטיק צו ויסטיילן צווישן דינער און אינטערנאַציאָנאַלער קאַללס (מיר זאל דערוואַרטן מענטשן וואס רופן אינטערנאַציאָנאַל צו זייַן וועאַלטהיער), דעמאָלט דעם מוזן ווערן געטאן אין די שטריך ינזשעניעריע שריט. א פאָרשער מיט קליין שכל פון רוואַנדאַ זאל ניט אַרייַננעמען דעם שטריך, און דעריבער די פּרידיקטיוו אויפֿפֿירונג פון די מאָדעל וועט לייַדן.
ווייַטער, אין די סופּערווייזד וויסן שריט, בלומענסטאָקק געבויט אַ סטאַטיסטיש מאָדעל צו פאָרויסזאָגן די יבערבליק ענטפער פֿאַר יעדער מענטש באזירט אויף זייער פֿעיִקייטן. אין דעם פאַל, בלומענסטאָקק געניצט לאָגיסטיק ראַגרעשאַן מיט 10-פאַרלייגן קרייַז-וואַלאַדיישאַן, אָבער ער קען האָבן געניצט אַ פאַרשיידנקייַט פון אנדערע סטאַטיסטיש אָדער מאַשין וויסן אַפּראָוטשיז.
אזוי ווי געזונט האט עס אַרבעט? איז בלומענסטאָקק ביכולת צו פאָרויסזאָגן ענטפֿערס צו יבערבליק שאלות ווי "דו זאלסט איר אייגן אַ ראַדיאָ?" און "צי איר אייגן אַ וועלאָסיפּעד?" ניצן פֿעיִקייטן דערייווד פון רופן רעקאָרדס? סאָרט פון. די אַקיעראַסי פון די פֿאָרויסזאָגן זענען הויך פֿאַר עטלעכע טרייץ (Figure 3.11). אבער, עס איז שטענדיק וויכטיק צו פאַרגלייַכן אַ קאָמפּלעקס פּראָגנאָז אופֿן קעגן אַ פּשוט אנדער ברירה. אין דעם פאַל, אַ פּשוט אנדער ברירה איז צו פאָרויסזאָגן אַז אַלעמען וועט געבן די מערסט פּראָסט ענטפֿערן. לעמאָשל, 97.3% געמאלדן אָונינג אַ ראַדיאָ אַזוי אויב בלומענסטאָקק האט פּרעדיקטעד אַז אַלעמען וואָלט מעלדונג אָונינג אַ ראַדיאָ ער וואָלט האָבן געהאט אַ אַקיעראַסי פון 97.3%, וואָס איז סאַפּרייזינגלי ענלעך צו דער פאָרשטעלונג פון זייַן מער קאָמפּליצירט פּראָצעדור (97.6% אַקיעראַסי). אין אנדערע ווערטער, אַלע די פאַנטאַזיע דאַטן און מאָדעלינג געשטארקט די אַקיעראַסי פון די פּראָגנאָז פון 97.3% צו 97.6%. אָבער, פֿאַר אנדערע שאלות, אַזאַ ווי "דו זאלסט איר אייגן אַ וועלאָסיפּעד?", די פֿאָרויסזאָגן ימפּרוווד פֿון 54.4% צו 67.6%. מער בכלל, רעכענען 3.12 ווייזט פֿאַר עטלעכע טרייץ בלומענסטאָקק האט נישט פֿאַרבעסערן פיל ווייַטער פון נאָר געמאכט דעם פּשוט באַסעלינע פּראָגנאָז, אָבער אַז פֿאַר אנדערע טרייץ עס איז געווען עטלעכע פֿאַרבעסערונג.
אין דעם פונט איר זאל זיין טראכטן אַז די רעזולטאַטן זענען אַ ביסל דיסאַפּוינינג, אָבער נאָר איין יאָר שפּעטער, בלומענסטאָקק און צוויי חברים-גאַבריעל קאַדאַמוראָ און ראבערט אויף-ארויס אַ פּאַפּיר אין וויסנשאַפֿט מיט סאַבסטאַנשאַלי בעסער רעזולטאַטן (Blumenstock, Cadamuro, and On 2015) . עס זענען געווען צוויי הויפּט טעכניש סיבות פֿאַר דער פֿאַרבעסערונג: 1) זיי געניצט מער sophisticated מעטהאָדס (ד"ה, אַ נייַ צוגאַנג צו שטריך ינזשעניעריע און אַ מער sophisticated מאַשין וויסן מאָדעל) און 2) אלא ווי אַטעמפּטינג צו אָפּלערנען רעספּאָנסעס צו יחיד יבערבליק שאלות (למשל, "צי איר אייגן אַ ראַדיאָ?"), זיי אַטטעמפּטעד צו אָפּלערנען אַ קאַמפּאַזאַט עשירות אינדעקס.
בלומענסטאָקק און חברים דעמאַנסטרייטיד די פאָרשטעלונג פון זייער צוגאַנג אין צוויי וועגן. ערשטער, זיי געפֿונען אַז פֿאַר די מענטשן אין זייער מוסטער, זיי קען טאָן אַ שיין גוט אַרבעט פון פּרידיקטינג זייער עשירות פון רופן רעקאָרדס (Figure 3.14). רגע, און אלץ מער ימפּאָרטאַנטלי, בלומענסטאָקק און חברים געוויזן אַז זייער פּראָצעדור געקענט פּראָדוצירן הויך-קוואַליטעט עסטאַמאַץ פון די Geographic פאַרשפּרייטונג פון עשירות אין רוואַנדאַ. מער ספּעסיפיקאַללי, זיי געניצט זייער מאַשין וויסן מאָדעל, וואָס איז געווען טריינד אויף זייער מוסטער פון וועגן 1,000 מענטשן, צו פאָרויסזאָגן די עשירות פון אַלע 1,500,000 מענטשן אין די רופן רעקאָרדס. ווייַטער, מיט די געאָספּאַטיאַל דאַטן עמבעדיד אין די רופן דאַטן (צוריקרופן אַז די רופן דאַטן כולל די אָרט פון די ניראַסט צעל טורעם פֿאַר יעדער רופן), די ריסערטשערז זענען ביכולת צו אָפּשאַצן די דערנענטערנ אָרט פון וווינאָרט פון יעדער מענטש. פּאַטינג די צוויי עסטאַמאַץ צוזאַמען, די פאָרשונג Produced אַן אָפּשאַצונג פון די Geographic פאַרשפּרייטונג פון אַבאָנענט עשירות בייַ גאָר פייַן ספּיישאַל גראַנולאַריטי. לעמאָשל, זיי קען אָפּשאַצן די דורכשניטלעך עשירות אין יעדער פון רוואַנדאַ ס 2148 סעלז (די סמאָלאַסט אַדמיניסטראַטיווע אַפּאַראַט אין דער מדינה). די פּרעדיקטעד עשירות וואַלועס זענען אַזוי גראַניאַלער זיי זענען שווער צו קאָנטראָלירן. אזוי, דער ריסערטשערז אַגראַגייטאַד זייער רעזולטאטן צו פּראָדוצירן עסטאַמאַץ פון די דורכשניטלעך עשירות פון רוואַנדאַ ס 30 דיסטריקץ. די דיסטריקט-מדרגה עסטאַמאַץ זענען שטארק שייך צו די עסטאַמאַץ פון אַ גאָלד סטאַנדאַרט בעקאַבאָלעדיק יבערבליק, די רוואַנדאַן דעמאָגראַפיק און געזונט סורוויי (Figure 3.14). כאָטש די עסטאַמאַץ פון די צוויי קוואלן זענען ענלעך, די עסטאַמאַץ פון בלומענסטאָקק און חברים זענען וועגן 50 מאל טשיפּער און 10 מאל Faster (ווען פּרייַז אין געמאסטן אין טערמינען פון בייַטעוודיק קאָס). דאס דראַמאַטיק פאַרקלענערן אין פּרייַז מיטל אַז אלא ווי ווייל לויפן יעדער ווייניק יאָרן-ווי איז נאָרמאַל פֿאַר דעמאָגראַפיק און געזונט פּאָללס-דעם כייבריד פון קליין יבערבליק קאַמביינד מיט גרויס דיגיטאַל שפּור דאַטע קען זיין לויפן יעדער חודש.
אין מסקנא, בלומענסטאָקק ס אַמפּליפיעד אַסקינג צוגאַנג קאַמביינד יבערבליק דאַטן מיט דיגיטאַל שפּור דאַטן צו פּראָדוצירן עסטאַמאַץ פאַרגלייַכלעך מיט גאָלד-נאָרמאַל יבערבליק עסטאַמאַץ. דעם באַזונדער בייַשפּיל אויך קלאַריפיעס עטלעכע פון די האַנדל-אָפפס צווישן אַמפּליפיעד אַסקינג און בעקאַבאָלעדיק יבערבליק מעטהאָדס. ערשטער, דער אַמפּליפיעד אַסקינג עסטאַמאַץ זענען מער בייַצייַטיק, סאַבסטאַנשאַלי טשיפּער, און מער גראַניאַלער. אָבער, אויף די אנדערע האַנט, בייַ דעם מאָל, עס איז נישט אַ שטאַרק טעאָרעטיש יקער פֿאַר דעם מין פון אַמפּליפיעד אַסקינג. אַז איז, דעם איינער בייַשפּיל טוט נישט ווייַזן ווען עס וועט אַרבעטן און ווען עס וועט ניט. ווייטער, די אַמפּליפיעד אַסקינג צוגאַנג טוט ניט נאָך האָבן גוט וועגן צו קוואַנטיפי אַנסערטאַנטי אַרום זייַן עסטאַמאַץ. אָבער, אַמפּליפיעד אַסקינג האט טיף קאַנעקשאַנז צו דרייַ גרויס געביטן אין סטאַטיסטיק-מאָדעל-באזירט פּאָסטן-סטראַטיפיקאַטיאָן (Little 1993) , ימפּוטאַטיאָן (Rubin 2004) , און קליין-געגנט אָפּשאַצונג (Rao and Molina 2015) -אַנד אַזוי איך דערוואַרטן אַז פּראָגרעס וועט זייַן גיך.
אַמפּליפיעד אַסקינג גייט אַ יקערדיק רעצעפּט אַז קענען זיין טיילערד צו דיין באַזונדער סיטואַציע. עס זענען צוויי ינגרידיאַנץ און צוויי טריט. די צוויי ינגרידיאַנץ זענען 1) אַ דיגיטאַל שפּור דאַטאַסעט אַז איז ברייט אָבער דין (אַז איז, עס האט פילע מענטשן אָבער ניט די אינפֿאָרמאַציע וואָס איר דאַרפֿן וועגן יעדער מענטשן) און 2) אַ יבערבליק וואָס איז ענג אָבער דיק (אַז איז, עס האט בלויז אַ ביסל מענטשן, אָבער עס האט די אינפֿאָרמאַציע אַז איר דאַרפֿן וועגן יענע מענטשן). דעמאָלט, עס זענען צוויי טריט. ערשטער, פֿאַר די מענטשן אין ביידע דאַטן קוואלן, בויען אַ מאַשין וויסן מאָדעל אַז ניצט דיגיטאַל שפּור דאַטן צו פאָרויסזאָגן יבערבליק ענטפֿערס. ווייַטער, נוצן אַז מאַשין וויסן מאָדעל צו ימפּוטע די יבערבליק ענטפֿערס פון אַלעמען אין די דיגיטאַל שפּור דאַטן. אזוי, אויב עס איז עטלעכע קשיא אַז איר ווילן צו פרעגן צו גורל פון מענטשן, קוק פֿאַר דיגיטאַל שפּור דאַטן פון יענע מענטשן וואס זאל זיין געניצט צו פאָרויסזאָגן זייער ענטפער.
קאָמפּאַרינג בלומענסטאָקק 'ס ערשטער און רגע פּרווון בייַ די פּראָבלעם אויך ילאַסטרייץ אַ וויכטיק לעקציע וועגן די יבערגאַנג פון רגע טקופע צו דריט טקופע אַפּראָוטשיז צו יבערבליק פאָרשונג: די אָנהייב איז ניט דער סוף. אַז איז, פילע מאל, דער ערשטער צוגאַנג וועט ניט זיין דער בעסטער, אָבער אויב ריסערטשערז ממשיך ארבעטן, דאס קענען באַקומען בעסער. מער בכלל, ווען יוואַליוייטינג נייַ אַפּראָוטשיז צו געזעלשאַפטלעך פאָרשונג אין די דיגיטאַל עלטער, עס איז וויכטיק צו מאַכן צוויי בוילעט יוואַליויישאַנז: 1) ווי געזונט טוט דעם אַרבעט איצט און 2) ווי געזונט טאָן איר טראַכטן דעם זאל אַרבעטן אין דער צוקונפֿט ווי די דאַטן לאַנדשאַפט ענדערונגען און ווי ריסערטשערז אָפּגעבן מער אכטונג צו דעם פּראָבלעם. כאָטש, ריסערטשערז זענען טריינד צו מאַכן די ערשטער מין פון יוואַליויישאַן (ווי גוט איז דעם באַזונדער שטיק פון פאָרשונג), די רגע איז אָפֿט מער וויכטיק.