גרויס דאַטן זענען Created און געזאמלט דורך גאַווערמאַנץ פֿאַר צוועקן אנדערע ווי פאָרשונג. ניצן דעם דאַטן פֿאַר פאָרשונג, דעריבער, ריקווייערז רעפּורפּאָסינג.
אַ יידיאַלייזד מיינונג פון געזעלשאַפטלעך פאָרשונג ימאַדזשאַנז אַ געלערנטער בעת אַ געדאַנק און דעמאָלט זאַמלען די דאַטן צו פּרובירן אַז געדאַנק. דעם נוסח פון פאָרשונג לידז צו אַ ענג פּאַסיק צווישן פאָרשונג קשיא און דאַטן, אָבער עס איז באגרענעצט ווייַל אַ יחיד פאָרשער אָפֿט טאָן ניט האָבן די רעסורסן דארף צו זאַמלען די דאַטן זיי דאַרפֿן, אַזאַ ווי גרויס, רייַך, און נאציאנאל-רעפּריזענאַטיוו דאַטן. דעריבער, אַ פּלאַץ פון געזעלשאַפטלעך פאָרשונג אין די פאַרגאַנגענהייַט האט געניצט גרויס-וואָג געזעלשאַפטלעך סערווייז, אַזאַ ווי די אַלגעמיינע סאציאל סורוויי (גסס), די אמעריקאנער נאַשאַנאַל עלעקטיאָן לערנען (אַנעס), און פּאַנעל לערנען פון האַכנאָסע דינאַמיקס (פּסיד). די גרויס-וואָג יבערבליק זענען בכלל לויפן דורך אַ קאָלעקטיוו פון ריסערטשערז און זיי זענען דיזיינד צו שאַפֿן דאַטע אַז קענען ווערן געניצט דורך פילע ריסערטשערז. ווייַל פון די צילן פון די גרויס-וואָג סערווייז, גרויס זאָרג איז שטעלן אין דיזיינינג די דאַטן זאַמלונג און פּריפּערינג די ריזאַלטינג דאַטן פֿאַר נוצן דורך ריסערטשערז. די דאַטן זענען דורך ריסערטשערז און פֿאַר ריסערטשערז.
רובֿ געזעלשאַפטלעך פאָרשונג ניצן דיגיטאַל עלטער קוואלן, אָבער, איז פונדאַמענטאַללי אַנדערש. אָנשטאָט ניצן דאַטן געזאמלט דורך ריסערטשערז און פֿאַר ריסערטשערז, עס ניצט דאַטן קוואלן וואָס זענען Created און געזאמלט דורך ביזנעסער און גאַווערמאַנץ פֿאַר זייער אייגן צוועקן אַזאַ ווי מאכן אַ נוץ, פּראַוויידינג אַ דינסט, אָדער אַדמיניסטערינג אַ געזעץ. דאס געשעפט און רעגירונג דאַטן קוואלן האָבן קומען צו זייַן גערופֿן גרויס דאַטן. טאן פאָרשונג מיט גרויס דאַטן איז אַנדערש ווי טוען פאָרשונג מיט דאַטן וואָס איז געווען ערידזשנאַלי Created פֿאַר פאָרשונג. קאָמפּאַרע, למשל, אַ געזעלשאַפטלעך מידיאַ וועבזייַטל, אַזאַ ווי טוויטטער, מיט אַ טראדיציאנעלן עפנטלעך מיינונג יבערבליק אַזאַ ווי די אַלגעמיינע סאציאל סורוויי (גסס). טוויטטער ס הויפּט צילן זענען צו צושטעלן אַ דינסט צו זייַן ניצערס און צו מאַכן אַ נוץ. אין דעם פּראָצעס פון אַטשיווינג די צילן, טוויטטער קריייץ דאַטע אַז זאל זיין נוצלעך פֿאַר געלערנט זיכער אַספּעקץ פון עפנטלעך מיינונג. אבער, ניט ענלעך די אַלגעמיינע סאציאל סורוויי (גסס), טוויטטער איז נישט בפֿרט פאָקוסעד אויף געזעלשאַפטלעך פאָרשונג.
דער טערמין גרויס דאַטן איז פרוסטראַטינגלי ווייג, און עס גרופּעס צוזאַמען פילע פאַרשידענע זאכן. פֿאַר די צוועקן פון געזעלשאַפטלעך פאָרשונג, איך טראַכטן עס איז נוציק צו ויסטיילן צווישן צוויי מינים פון גרויס דאַטן מקורים: רעגירונג אַדמיניסטראַטיווע רעקאָרדס און געשעפט אַדמיניסטראַטיווע רעקאָרדס. רעגירונג אַדמיניסטראַטיווע רעקאָרדס זענען דאַטן וואָס זענען Created by גאַווערמאַנץ ווי אַ טייל פון זייער רוטין אַקטיוויטעטן. די מינים פון רעקאָרדס האָבן שוין געניצט דורך ריסערטשערז אין דער פאַרגאַנגענהייַט-אַזאַ ווי דעמאָגראַפערס געלערנט געבורט, חתונה, און טויט רעקאָרדס-אָבער גאַווערמאַנץ זענען ינקריסינגלי קאַלעקטינג און ריליסינג דיטיילד רעקאָרדס אין אַנאַליזאַבלע Forms. לעמאָשל, די ניו יארק סיטי רעגירונג אינסטאַלירן דיגיטאַל מעטער ין פון יעדער טאַקסי אין די שטאָט. די מעטער רעקאָרד אַלע מינים פון דאַטן וועגן יעדער טאַקסי פאָר כולל די שאָפער, דער אָנהייב צייַט און אָרט, די אָפּשטעל צייַט און אָרט, און די אָפּצאָל. אין אַ לערנען אַז איך וועט זאָגן שפּעטער אין דעם קאַפּיטל, הענרי פאַרבער (2015) רעפּורפּאָסעד די דאַטן צו אַדרעס אַ פונדאַמענטאַל דעבאַטע אין אַרבעט עקאָנאָמיק וועגן דעם שייכות צווישן אַורלי לוין און די נומער פון שעה געארבעט.
די רגע הויפּט טיפּ פון גרויס דאַטן פֿאַר געזעלשאַפטלעך פאָרשונג איז געשעפט אַדמיניסטראַטיווע רעקאָרדס. דאס זענען דאַטן וואָס געשעפט שאַפֿן און קלייַבן ווי אַ טייל פון זייער רוטין אַקטיוויטעטן. די געשעפט אַדמיניסטראַטיווע רעקאָרדס זענען אָפֿט גערופֿן דיגיטאַל טראַסעס, און אַרייַננעמען זאכן ווי זוכן מאָטאָר אָנפֿרעג לאָגס, געזעלשאַפטלעך מידיאַ הודעות, און רופן רעקאָרדס פון מאָביל טעלעפֿאָנען. קריטיקאַלי, די געשעפט אַדמיניסטראַטיווע רעקאָרדס זענען ניט נאָר וועגן אָנליין נאַטור. לעמאָשל, סטאָרז אַז נוצן טשעק-אויס סקאַנערז זענען קריייטינג רעאַל-צייט מאס אַרבעטער פּראָודאַקטיוויטי. אין אַ לערנען אַז איך וועט דערציילן איר וועגן שפּעטער אין דעם קאַפּיטל, אַלעקסאַנדרע מאַס און ענריקאָ מאָרעטטי (2009) רעפּורפּאָסעד דעם סופּערמאַרק טשעק-אויס דאַטן צו לערנען ווי אַ טוערס 'פּראָודאַקטיוויטי איז ימפּאַקטיד דורך די פּראָודאַקטיוויטי פון זייער פּירז.
ווי ביידע פון די יגזאַמפּאַלז אילוסטרירן, דעם געדאַנק פון רעפּורפּאָסינג איז פונדאַמענטאַל צו וויסן פון גרויס דאַטן. אין מיין דערפאַרונג, געזעלשאַפטלעך סיינטיס און דאַטן סייאַנטיס צוגאַנג צו דעם רעפּורפּאָסינג זייער אנדערש. סאציאל סיינטיס, וואס זענען צוגעוווינט צו ארבעטן מיט דאַטע דיזיינד פֿאַר פאָרשונג, זענען שנעל צו פונט אויס די פּראָבלעמס מיט רעפּורפּאָסעד דאַטן בשעת יגנאָרינג זייַן סטרענגקטס. אויף די אנדערע האַנט, דאַטע סייאַנטיס זענען שנעל צו פונט אויס די Benefits פון רעפּורפּאָסעד דאַטן בשעת יגנאָרינג זייַן וויקנאַסאַז. געוויינטלעך, דער בעסטער צוגאַנג וואָלט זיין אַ כייבריד. אַז איז, ריסערטשערז דאַרפֿן צו פֿאַרשטיין די טשאַראַקטעריסטיקס פון די נייַ קוואלן פון דאַטן-ביידע גוט און שלעכט-און דעמאָלט רעכענען אויס ווי צו לערנען פון זיי. און, וואָס איז די פּלאַן פֿאַר די רעשט פון דעם קאַפּיטל. ווייַטער, איך וועט באַשרייַבן צען פּראָסט טשאַראַקטעריסטיקס פון געשעפט און רעגירונג אַדמיניסטראַטיווע דאַטן. נאָך וואָס, איך וועל באַשרייַבן דרייַ פאָרשונג אַפּראָוטשיז אַז קענען זיין געוויינט מיט די דאַטן, אַפּראָוטשיז וואָס זענען געזונט סוטאַד צו די טשאַראַקטעריסטיקס פון דעם דאַטן.