ניט קיין ענין ווי גרויס דיין גרויס דאַטע, עס מיסטאָמע טוט נישט האָבן די אינפֿאָרמאַציע איר ווילן.
רובֿ גרויס דאַטע מקורים זענען ינקאָרפּערייט , אין דעם זינען אַז זיי טאָן ניט האָבן די אינפֿאָרמאַציע אַז איר ווילן צו דיין פאָרשונג. דאָס איז אַ פּראָסט שטריך פון דאַטן וואָס זענען באשאפן פֿאַר אנדערע צוועקן ווי פאָרשונג. פילע סאציאל סייאַנטיס האָבן שוין געהאט די דערפאַרונג פון דילינג מיט ינקאַמפּלעטנאַס, אַזאַ ווי אַ יגזיסטינג יבערבליק וואָס האט ניט פרעגן די קשיא וואָס איז געווען דארף. צום באַדויערן, די פראבלעמען פון ינקאָמפּלעטענעסס טענד צו זיין מער עקסטרעם אין גרויס דאַטן. אין מיין דערפאַרונג, גרויס דאַטע טענדז צו זיין פעלנדיק דרייַ טייפּס פון אינפֿאָרמאַציע נוציק פֿאַר געזעלשאַפטלעך פאָרשונג: דעמאַגראַפיק אינפֿאָרמאַציע וועגן פּאַרטיסאַפּאַנץ, אָפּפירונג אויף אנדערע פּלאַטפאָרמס, און דאַטן צו אַפּעריישאַנאַלייז די טעאָרעטיש קאַנסטראַקץ.
פון די דרייַ מינים פון ינקאַמפּלעטנאַס, די פּראָבלעם פון דערענדיקט דאַטן צו אַפּעריישאַנאַלייז די טעאָרעטיש קאַנסטראַקץ איז די כאַרדאַסט צו סאָלווע. און אין מיין דערפאַרונג, עס איז אָפט אַקסאַדענאַלי אָוווערלוקט. בעערעך, טעאָרעטיש קאַנסטראַקץ זענען אַבסטראַקט געדאנקען אַז געזעלשאַפטלעך סייאַנטיס לערנען און אַפּעריישאַנאַלייזד אַ טעאָרעטיש בויען מיטל פּראַפּאָוזינג עטלעכע וועג צו כאַפּן אַז בויען מיט אַבזערוואַבאַל דאַטן. צום באַדויערן, דעם פּשוט-סאַונדינג פּראָצעס אָפט טורנס אויס צו זיין גאַנץ שווער. פֿאַר בייַשפּיל, לאָזן ס ימאַגינע טריינג צו עמפּיריקלי פּרובירן די משמעות פּשוט פאָדערן אַז מענטשן וואס זענען מער ינטעליגענט פאַרדינען מער געלט. אין סדר צו פּרובירן דעם פאָדערן, איר דאַרפֿן צו מעסטן "סייכל." אבער וואָס איז סייכל? Gardner (2011) אַרגיוד אַז עס זענען פאקטיש אַכט פאַרשידענע פארמען פון סייכל. און זענען דאָרט פּראָוסידזשערז וואָס קען אַקיעראַטלי מאָס קיין פון די פארמען פון סייכל? טראָץ געוואקסן אַמאַונץ פון אַרבעט דורך סייקאַלאַדזשאַסס, די שאלות נאָך טאָן ניט האָבן אַ אַנאַמפּלאַסט ענטפֿערס.
אזוי, אַפֿילו אַ לעפיערעך פּשוט פאָדערן-מענטשן וואס זענען מער ינטעליגענט פאַרדינען מער געלט-קענען זיין שווער צו אַססעסס עמפּיריקלי ווייַל עס קענען זיין שווער צו אַפּעריישאַנאַלייז די טעאָרעטיש קאַנסטראַקץ אין דאַטן. אנדערע ביישפילן פון טעאָרעטיש קאָנסטרוקץ וואָס זענען וויכטיק אָבער שווער צו אָפּעריישאַנאַליזירן אַרייַננעמען "נאָרמז," "סאציאל קאפיטאל," און "דעמאָקראַסי." סאציאל סייאַנטיס רופן די גלייַכן צווישן טעאָרעטיש קאַנסטראַקץ און דאַטן בויען גילטיקייַט (Cronbach and Meehl 1955) . ווי דאָס קורץ רשימה פון קאַנסטראַקץ סאַגדזשעסץ, בויען גילטיקייַט איז אַ פּראָבלעם אַז סאציאל סייאַנטיס האָבן אַ זייער לאַנג צייַט. אבער אין מיין דערפאַרונג, די פּראָבלעמס פון בויען גילטיקייַט זענען אפילו גרעסער ווען ארבעטן מיט דאַטן וואָס זענען נישט באשאפן פֿאַר די צוועקן פון פאָרשונג (Lazer 2015) .
ווען איר אַסעסמאַנט אַ פאָרשונג רעזולטאַט, אַ שנעל און נוצלעך וועג צו אַססעסס קאַנסטראַקט גילטיקייַט איז צו נעמען די רעזולטאַט, וואָס איז יוזשאַוואַלי אויסגעדריקט אין טערמינען פון קאַנסטראַקץ, און שייַעך-אויסדריקן עס אין טערמינען פון די דאַטן געניצט. פֿאַר בייַשפּיל, באַטראַכטן צוויי כייפּאַטעטיקאַל שטודיום אַז פאָדערן צו ווייַזן אַז מענטשן וואס זענען מער קלוג פאַרדינען מער געלט. אין דער ערשטער לערנען, די פאָרשער געפונען אַז מענטשן וואס כעזשבן געזונט אויף די ראַווען פּראָגרעסיוו מאַטריסעס טעסט - אַ געזונט-געלערנט פּראָבע פון אַנאַליסיס ינטעלליגענסע (Carpenter, Just, and Shell 1990) -ווייבער העכער געמאלדן ינקאַמז אויף זייער שטייער קערט. אין די רגע לערנען, די פאָרשער געפונען אַז מענטשן אויף טוויטטער וואס געוויינט מער ווערטער זענען מער מסתּמא צו דערמאָנען לוקסוס בראַנדז. אין ביידע קאַסעס, די ריסערטשערז קען פאָדערן אַז זיי האָבן געוויזן אַז מענטשן וואס זענען מער ינטעליגענט פאַרדינען מער געלט. אָבער, אין דער ערשטער לערנען די טעאָרעטיש קאַנסטראַקץ זענען געזונט אַפּעריישאַנאַלייזד דורך די דאַטן, בשעת אין די רגע זיי זענען נישט. ווייַטער, ווי דעם בייַשפּיל ילאַסטרייץ, מער דאַטן טוט נישט אויטאָמאַטיש סאָלווע פּראָבלעמס מיט בויען גילטיקייַט. איר זאָל צווייפל די רעזולטאַטן פון די צווייטע לערנען אויב עס ינוואַלווד אַ מיליאָן טוועעץ, אַ ביליאָן טוועעץ, אָדער אַ טריליאַן טוועעץ. פֿאַר ריסערטשערז ניט באַקאַנט מיט דעם געדאַנק פון בויען גילטיקייַט, טיש 2.2 גיט עטלעכע ביישפילן פון שטודיום אַז האָבן אַפּעריישאַנאַלייזד טעאָרעטיש קאַנסטראַקץ ניצן דיגיטאַל שפּור דאַטע.
דאַטן מקור | טעאָרעטיש בויען | References |
---|---|---|
בליצפּאָסט לאָגס פון אַ אוניווערסיטעט (מעטאַ-דאַטן בלויז) | סאציאל באציונגען | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
געזעלשאַפטלעך מידיאַ הודעות אויף וועיבאָ | Civic engagement | Zhang (2016) |
בליצפּאָסט לאָגס פון אַ פירמע (מעטאַ-דאַטן און גאַנץ טעקסט) | קולטור פּאַסיק אין אַן אָרגאַניזאַציע | Srivastava et al. (2017) |
כאָטש די פּראָבלעם פון ינקאָמפּלעטיד דאַטן פֿאַר קאַפּטשערינג טעאָרעטיש קאַנסטראַקץ איז שווער צו סאָלווע, עס זענען פּראָסט סאַלושאַנז צו די אנדערע פּראָסט טייפּס פון ינקאַמפּלעטנאַס: דערענדיקט דימאַגראַפיק אינפֿאָרמאַציע און דערענדיקט אינפֿאָרמאַציע אויף נאַטור אויף אנדערע פּלאַטפאָרמס. דער ערשטער לייזונג איז פאקטיש צו זאַמלען די דאַטן איר דאַרפֿן; איך וועל דערציילן וועגן דעם אין קאַפּיטל 3 ווען איך דערציילן איר וועגן סערווייז. די רגע הויפּט לייזונג איז צו טאָן וואָס דאַטן סייאַנטיס רופן באַניצער-אַטריביוט ינפעראַנס און געזעלשאַפטלעך סייאַנטיס רופן ימפּיוטיישאַן . אין דעם צוגאַנג, ריסערטשערז נוצן די אינפֿאָרמאַציע וואָס זיי האָבן אויף עטלעכע מענטשן צו אַרייַנפיר אַטראַביוץ פון אנדערע מענטשן. א דריט מעגלעך לייזונג איז צו פאַרבינדן קייפל דאַטע מקורים. דעם פּראָצעס איז מאל גערופן רעקאָרדינג . מייַן באַליבט מעטאַפאָר פֿאַר דעם פּראָצעס איז געשריבן דורך Dunn (1946) אין דער ערשטער פּאַראַגראַף פון די זייער ערשטער פּאַפּיר אלץ געשריבן אויף רעקאָרדינג לינק:
"יעדער מענטש אין דער וועלט קריייץ אַ ספר פון לעבן. דאס ספר הייבט מיט געבורט און ענדס מיט טויט. די בלעטער זענען געמאכט פון רעקאָרדס פון די הויפּט געשעענישן אין לעבן. רעקאָרד לינקאַגע איז דער נאָמען געגעבן צו דעם פּראָצעס פון אַסעמבאַלינג די בלעטער פון דעם בוך אין אַ באַנדע. "
ווען דונן געשריבן אַז דורכפאָר ער איז געווען ימאַדזשאַנינג אַז די ספר פון לעבן קען אַרייַננעמען הויפּט לעבן געשעענישן ווי געבורט, חתונה, גט, און טויט. אָבער, אַז אַזוי פיל אינפֿאָרמאַציע וועגן מענטשן איז רעקאָרדעד, די ספר פון לעבן קען זיין אַן ינקרעדאַבלי דיטיילד פּאָרטרעט, אויב די פאַרשידענע בלעטער (י.ע., אונדזער דיגיטאַל טראַסעס) קענען זיין פארבונדן צוזאַמען. דאס ספר פון לעבן קען זיין אַ גרויס מיטל פֿאַר פאָרשער. אָבער, עס קען אויך זיין גערופן אַ דאַטאַבאַסע פון צעשטערן (Ohm 2010) , וואָס קען זיין געניצט פֿאַר אַלע מינים פון ונעטיקאַל צוועקן, ווי איך וועט באַשרייַבן אין פּרק 6 (עטיקס).