ניט קיין ענין ווי "גרויס" אייער "גרויס דאַטן" עס מיסטאָמע טוט נישט האָבן די אינפֿאָרמאַציע איר ווילן.
רוב גרויס דאַטן קוואלן זענען דערענדיקט, אין די געפיל אַז זיי טאָן ניט האָבן די אינפֿאָרמאַציע אַז איר וועט וועלן פֿאַר דיין פאָרשונג. דאס איז אַ פּראָסט שטריך פון דאַטן וואָס זענען Created פֿאַר צוועקן אנדערע ווי פאָרשונג. פילע געזעלשאַפטלעך סייאַנטיס האָבן שוין געהאט די דערפאַרונג פון דילינג מיט די ינקאָמפּלעטענעסס, אַזאַ ווי אַ יגזיסטינג יבערבליק אַז האט נישט פרעגן די קשיא איר געוואלט. צום באַדויערן, די פּראָבלעמס פון ינקאָמפּלעטענעסס טענד צו זיין מער עקסטרעם אין גרויס דאַטן. אין מיין דערפאַרונג, גרויס דאַטן טענדז צו זיין פעלנדיק דרייַ טייפּס פון אינפֿאָרמאַציע נוציק פֿאַר געזעלשאַפטלעך פאָרשונג: דעמאָגראַפיקס, נאַטור אויף אנדערע Platforms, און דאַטע צו אָפּעראַטיאָנאַליזע טעאָרעטיש קאַנסטראַקץ.
כל דרייַ פון די Forms פון ינקאָמפּלעטענעסס זענען ילאַסטרייטאַד אין אַ לערנען דורך גועאָרגי קאָססינעץ און דונקאַן וואַטץ (2006) וועגן די עוואָלוציע פון די געזעלשאַפטלעך נעץ אין אַ אוניווערסיטעט. קאָססינעץ און וואַטץ אנגעהויבן מיט די email לאָגס פון די אוניווערסיטעט, וואָס האט גענוי אינפֿאָרמאַציע וועגן וואס געשיקט ימיילז צו וועמען אין וואָס מאָל (די ריסערטשערז האט נישט האָבן צוטריט צו די צופרידן פון די ימיילז). די בליצפּאָסט רעקאָרדס געזונט ווי אַ אַמייזינג דאַטאַסעט, אָבער, זיי זענען-טראָץ זייער נומער און גראַנולאַריטי-פונדאַמענטאַללי דערענדיקט. לעמאָשל, די email לאָגס טאָן ניט אַרייַננעמען דאַטן וועגן די דעמאָגראַפיק טשאַראַקטעריסטיקס פון די סטודענטן, אַזאַ ווי דזשענדער און עלטער. ווייטער, די email לאָגס טאָן ניט אַרייַננעמען אינפֿאָרמאַציע וועגן קאָמוניקאַציע דורך אנדערע מידיאַ, אַזאַ ווי טעלעפאָנירן קאַללס, טעקסט אָנזאָג, אָדער פּנים-צו-פּנים שמועסן. צום סוף, די email לאָגס טאָן ניט גלייַך אַרייַננעמען אינפֿאָרמאַציע וועגן באציונגען, די טעאָרעטיש קאַנסטראַקץ אין פילע יגזיסטינג טיריז. שפּעטער אין די קאַפּיטל, ווען איך רעדן וועגן פאָרשונג סטראַטעגיעס, איר וועט זען ווי קאָססינעץ און וואַטץ סאַלווד די פּראָבלעמס.
פון דרייַ מינים פון ינקאָמפּלעטענעסס, די פּראָבלעם פון דערענדיקט דאַטע צו אָפּעראַטיאָנאַליזע טעאָרעטיש קאַנסטראַקץ איז די כאַרדאַסט צו סאָלווע, און אין מיין דערפאַרונג, עס איז אָפֿט אַקסאַדענאַלי אָוווערלוקט דורך דאַטן סייאַנטיס. בעערעך, טעאָרעטיש קאַנסטראַקץ זענען אַבסטראַקט געדאנקען אַז געזעלשאַפטלעך סייאַנטיס לערנען, אָבער, ליידער, די קאַנסטראַקץ קענען ניט שטענדיק זייַן אַנאַמביגיואַסלי Defined און געמאסטן. לעמאָשל, לאָזן ס ימאַדזשאַן טריינג צו עמפּיריקלי פּרובירן די משמעות פּשוט פאָדערן אַז מענטשן וואס זענען מער ינטעליגענט פאַרדינען מער געלט. אין סדר צו פּרובירן דעם פאָדערן איר וואָלט דאַרפֿן צו מעסטן "סייכל." אבער, וואָס איז סייכל? לעמאָשל, Gardner (2011) אַרגיוד אַז עס זענען אַקטשאַוואַלי אַכט פאַרשידענע Forms פון סייכל. און, זענט דאָרט פּראָוסידזשערז אַז קען אַקיעראַטלי מאָס קיין פון די Forms פון סייכל? טראָץ ריזיק אַמאַונץ פון אַרבעט דורך סייקאַלאַדזשאַסס, די שאלות נאָך טאָן ניט האָבן אַנאַמביגיאַוואַס ענטפֿערס. אזוי, אַפֿילו אַ לעפיערעך פּשוט פאָדערן-מענטשן וואס זענען מער ינטעליגענט פאַרדינען מער געלט-קענען זיין שווער צו אַססעסס עמפּיריקלי ווייַל עס קענען זיין שווער צו אָפּעראַטיאָנאַליזע טעאָרעטיש קאַנסטראַקץ אין דאַטן. אנדערע יגזאַמפּאַלז פון טעאָרעטיש קאַנסטראַקץ אַז זענען וויכטיק אָבער שווער צו אָפּעראַטיאָנאַליזע אַרייַננעמען "נאָרמז," "געזעלשאַפטלעך קאַפּיטאַל," און "דעמאָקראַסי." סאציאל סיינטיס רופן די גלייַכן צווישן טעאָרעטיש קאַנסטראַקץ און דאַטע בויען גילטיקייַט (Cronbach and Meehl 1955) . און, ווי דעם רשימה פון קאַנסטראַקץ סאַגדזשעס, בויען גילטיקייַט איז אַ פּראָבלעם אַז געזעלשאַפטלעך סייאַנטיס האָבן סטראַגאַלד מיט פֿאַר אַ זייער לאַנג צייַט, אַפֿילו ווען זיי זענען ארבעטן מיט דאַטע אַז איז געזאמלט פֿאַר די ציל פון פאָרשונג. ווען ארבעטן מיט דאַטן געזאמלט פֿאַר צוועקן אנדערע ווי פאָרשונג, די פּראָבלעמס פון בויען גילטיקייַט זענען אַפֿילו מער טשאַלאַנדזשינג (Lazer 2015) .
ווען איר זענט לייענען אַ פאָרשונג פּאַפּיר, איין שנעל און נוציק וועג צו אַססעסס קאַנסערנז וועגן בויען גילטיקייַט איז צו נעמען די הויפּט פאָדערן אין די פּאַפּיר, וואָס איז יוזשאַוואַלי אויסגעדריקט אין טערמינען פון קאַנסטראַקץ, און שייַעך-אויסדריקן עס אין ווערטער פון די דאַטן געניצט. לעמאָשל, באַטראַכטן צוויי כייפּאַטעטיקאַל שטודיום אַז פאָדערן צו ווייַזן אַז מער ינטעליגענט מענטשן פאַרדינען מער געלט:
אין ביידע קאַסעס, ריסערטשערז קען פעסטשטעלן אַז זיי האָבן געוויזן אַז מער ינטעליגענט מענטשן פאַרדינען מער געלט. אבער, אין דער ערשטער לערנען די טעאָרעטיש קאַנסטראַקץ זענען געזונט אָפּעראַטיאָנאַליזעד דורך די דאַטן, און אין די רגע זיי זענען נישט. ווייַטער, ווי דעם בייַשפּיל ילאַסטרייץ, מער דאַטן טוט נישט אויטאָמאַטיש סאָלווע פּראָבלעמס מיט בויען גילטיקייַט. איר זאָל צווייפל די רעזולטאטן פון לערנען 2 צי עס ינוואַלווד אַ מיליאָן טוועעץ, אַ ביליאָן טוועעץ, אָדער אַ טריליאַן טוועעץ. פֿאַר ריסערטשערז נישט באַקאַנט מיט די געדאַנק פון בויען גילטיקייַט, טיש 2.2 גיט עטלעכע יגזאַמפּאַלז פון שטודיום וואָס האָבן אָפּעראַטיאָנאַליזעד טעאָרעטיש קאַנסטראַקץ ניצן דיגיטאַל שפּור דאַטן.
דיגיטאַל שפּור | טעאָרעטיש בויען | סייטיישאַן |
---|---|---|
בליצפּאָסט לאָגס פון אַ אוניווערסיטעט (מעטאַ-דאַטן בלויז) | סאציאל באציונגען | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
סאציאל מידיאַ הודעות אויף וועיבאָ | בירגערלעך באַשטעלונג | Zhang (2016) |
בליצפּאָסט לאָגס פון אַ פירמע (מעטאַ-דאַטן און גאַנץ טעקסט) | קולטור פּאַסיק אין אַן אָרגאַניזאַציע | Goldberg et al. (2015) |
כאָטש די פּראָבלעם פון דערענדיקט דאַטע פֿאַר אָפּעראַטיאָנאַליזינג טעאָרעטיש קאַנסטראַקץ איז שיין שווער צו סאָלווע, עס זענען דרייַ פּראָסט סאַלושאַנז צו די פּראָבלעם פון דערענדיקט דעמאָגראַפיק אינפֿאָרמאַציע און דערענדיקט אינפֿאָרמאַציע אויף אָפּפירונג אויף אנדערע Platforms. דער ערשטער איז צו אַקטשאַוואַלי קלייַבן די דאַטע איר דאַרפֿן; איך וועט דערציילן איר וועגן אַ בייַשפּיל פון וואָס אין פּרק 3 ווען איך דערציילן איר וועגן סערווייז. צום באַדויערן, דעם מין פון דאַטן זאַמלונג איז ניט שטענדיק מעגלעך. די רגע הויפּט לייזונג איז צו טאָן וואָס דאַטן סייאַנטיס רופן באַניצער-אַטריביוט ינפערענסע און וואָס געזעלשאַפטלעך סייאַנטיס רופן ימפּוטאַטיאָן. אין דעם צוגאַנג, ריסערטשערז נוצן די אינפֿאָרמאַציע אַז זיי האָבן אויף עטלעכע מענטשן צו אָפּלערנען אַטראַביוץ פון אנדערע מענטשן. די דריט מעגלעך לייזונג-דעם איין געניצט דורך קאָססינעץ און וואַטץ-געווען צו פאַרבינדן קייפל דאַטע קוואלן. דעם פּראָצעס איז מאל גערופֿן מערדזשינג אָדער רעקאָרד לינגקאַדזש. מיין באַליבט מעטאַפאָר פֿאַר דעם פּראָצעס איז פּראָפּאָסעד אין די זייער ערשטער פּאַראַגראַף פון די זייער ערשטער פּאַפּיר אלץ געשריבן אויף רעקאָרד לינגקאַדזש (Dunn 1946) :
"יעדער מענטש אין די וועלט קריייץ אַ בוך פון לעבן. דעם בוך סטאַרץ מיט געבורט און ענדס מיט טויט. זייַן בלעטער זענען געמאכט אַרויף פון רעקאָרדס פון דעם פּרינציפּ געשעענישן אין לעבן. רעקאָרד לינגקאַדזש איז דער נאָמען געגעבן צו די פּראָצעס פון אַסעמבאַלינג די בלעטער פון דעם בוך אין אַ באַנד ".
דאס דורכפאָר איז געווען געשריבן אין 1946, און אין אַז צייַט, מענטשן זענען טראכטן אַז די בוך פון לעבן קען אַרייַננעמען הויפּט לעבן געשעענישן ווי געבורט, חתונה, גט, און טויט. אָבער, איצט אַז אַזוי פיל אינפֿאָרמאַציע וועגן מענטשן איז רעקאָרדעד, דער בוך פון לעבן קען זיין אַ ינקרעדאַבלי דיטיילד פּאָרטרעט, אויב יענע פאַרשידענע בלעטער (ד"ה, אונדזער דיגיטאַל טראַסעס), קענען זייַן געבונדן צוזאַמען. דעם בוך פון לעבן קען זיין אַ גרויס מיטל פֿאַר ריסערטשערז. אבער, דער בוך פון לעבן קען אויך זיין גערופֿן אַ דייטאַבייס פון צעשטערן (Ohm 2010) , וואָס קען ווערן געניצט פֿאַר אַלע מינים פון אַנעטיקאַל צוועקן, ווי דיסקרייבד מער ונטער ווען איך רעדן וועגן די שפּירעוודיק נאַטור פון די אינפֿאָרמאַציע געזאמלט דורך גרויס דאַטן קוואלן ונטן און אין טשאַפּטער 6 (עטיקס).