גרויס דאַטע זענען באשאפן און געזאמלט דורך קאָמפּאַניעס און גאַווערנמאַנץ פֿאַר אנדערע צוועקן ווי פאָרשונג. ניצן דעם דאַטע פֿאַר פאָרשונג, דעריבער, ריקווייערז רעפּורפּאָסינג.
דער ערשטער וועג אַז פילע מענטשן טרעפן געזעלשאַפטלעך פאָרשונג אין די דיגיטאַל עלטער איז דורך וואָס איז אָפט גערופן גרויס דאַטן . טראָץ די וויידספּרעד נוצן פון דעם טערמין, עס איז קיין העסקעם וועגן וואָס גרויס דאַטן אַפֿילו. אָבער, איינער פון די מערסט פּראָסט דעפֿיניציע פון גרויס דאַטע פאָוקיסיז אויף די "3 ווס": באנד, וואַריעטי און וועלאָסיטי. בעערעך, עס איז אַ פּלאַץ פון דאַטן, אין אַ פאַרשיידנקייַט פון פאָרמאַץ, און עס איז באשאפן קעסיידער. עטלעכע פאַנס פון גרויס דאַטן אויך לייגן אנדערע "ווס" אַזאַ ווי וועראַסי און ווערט, כאָטש עטלעכע קריטיקס לייגן ווס אַזאַ ווי וואַג און וואַקוואָוס. ער איז געווען דער ערשטער "ווס" (אָדער די 5 "ווס" אָדער די 7 "ווס"), פֿאַר די צוועקן פון געזעלשאַפטלעך פאָרשונג, איך טראַכטן אַ בעסער פּלאַץ צו אָנהייבן איז די 5 "ווס": ווער, וואס, וואו, ווען , און פארוואס. אין פאַקט, איך טראַכטן אַז פילע פון די טשאַלאַנדזשיז און אַפּערטונאַטיז באשאפן דורך גרויס דאַטן מקורים נאָכפאָלגן פון בלויז איין "וו": פארוואס.
אין דער אַנאַלאָג עלטער, רובֿ פון די דאַטן וואָס זענען גענוצט פֿאַר געזעלשאַפטלעך פאָרשונג איז באשאפן פֿאַר די ציל פון טאן פאָרשונג. אין דער דיגיטאַל עלטער, אָבער, אַ ריזיק נומער פון דאַטן איז באשאפן דורך קאָמפּאַניעס און גאַווערנמאַנץ פֿאַר אנדערע צוועקן אַזאַ ווי פאָרשונג, אַזאַ ווי פּראַוויידינג באַדינונגען, דזשענערייטינג נוץ און אַדמינאַסטערינג געזעצן. קרעאַטיווע מענטשן, אָבער, האָבן איינגעזען אַז איר קענען רעפּראָפּאָסע דעם פֿירמע און רעגירונג דאַטן פֿאַר פאָרשונג. דערמאנט צוריק צו דער קונסט אַנאַלאַדזשי אין פּרק 1, ווי דאָוטשאַמפּ ריפּערד אַ געפונען כייפעץ צו מאַכן קונסט, סייאַנטיס קענען איצט רעפּראָפּאָספּעד געפונען דאַטן צו מאַכן פאָרשונג.
בשעת עס זענען אַ ריזיק אַפּערטונאַטיז פֿאַר רעפּורפּאָסינג, ניצן דאַטן וואָס זענען נישט באשאפן פֿאַר די צוועקן פון פאָרשונג אויך גיט נייַ טשאַלאַנדזשיז. פאַרגלייַכן, פֿאַר בייַשפּיל, אַ געזעלשאַפטלעך מידיאַ דינסט, אַזאַ ווי טוויטטער, מיט אַ טראדיציאנעלן ציבור מיינונג יבערבליק, אַזאַ ווי די אַלגעמיינע סאציאל יבערבליק. Twitter's הויפּט צילן זענען צו צושטעלן אַ דינסט צו זייַן וסערס און מאַכן אַ נוץ. די אַלגעמיינע סאציאל יבערבליק, אויף די אנדערע האַנט, איז פאָוקיסט אויף שאפן גענעראַל-ציל דאַטע פֿאַר געזעלשאַפטלעך פאָרשונג, ספּעציעל פֿאַר ציבור מיינונג פאָרשונג. דעם חילוק אין צילן מיטל אַז די דאַטע באשאפן דורך טוויטטער און אַז באשאפן דורך די אַלגעמיינע סאציאל יבערבליק האָבן פאַרשידענע פּראָפּערטיעס, כאָטש ביידע קענען ווערן גענוצט פֿאַר געלערנט ציבור מיינונג. Twitter operates on a scale and speed that the General Social Survey can not match, but, unlike the General Social Survey, Twitter does not cautiously sample users and does not work hard to maintain comparability over time. ווייַל די צוויי דאַטן קוואלן זענען אַזוי אַנדערש, עס טוט נישט זינען צו זאָגן אַז די אַלגעמיינע סאציאל יבערבליק איז בעסער ווי טוויטטער אָדער וויצע ווערסאַ. אויב איר ווילן אַורלי מיטלען פון גלאבאלע שטימונג (למשל, Golder and Macy (2011) ), Twitter is best. אויף די אנדערע האַנט, אויב איר ווילן צו פֿאַרשטיין לאַנג-טערמין ענדערונגען אין די פּאָליאַריזאַטיאָן פון אַטאַטודז אין די פאַרייניקטע שטאַטן (אַזאַ ווי DiMaggio, Evans, and Bryson (1996) ), דער אַלגעמיין סאציאל יבערבליק איז דער בעסטער ברירה. מער בכלל, אלא ווי טריינג צו טייַנען אַז גרויס דאַטן קוואלן זענען בעסער אָדער ערגער ווי אנדערע טייפּס פון דאַטן, דעם קאַפּיטל וועט פּרובירן צו דערקלערן פֿאַר וועלכע זייטן פון פאָרשונג פראגעס גרויס דאַטן קוואלן זענען אַטראַקטיוו פּראָפּערטיעס און פֿאַר וואָס מינים פון שאלות זיי זאלן נישט זיין ideal.
ווען טראכטן וועגן גרויס דאַטע קוואלן, פילע ריסערטשערז מיד פאָקוס אויף אָנליין דאַטע באשאפן און געזאמלט דורך קאָמפּאַניעס, אַזאַ ווי זוכן מאָטאָר לאָגס און געזעלשאַפטלעך מידיאַ הודעות. אָבער, דעם ענג פאָקוס בלעטער צוויי אנדערע וויכטיק קוואלן פון גרויס דאַטן. ערשטער, ינקריסינגלי פֿירמע גרויס דאַטן קוואלן קומען פון דיגיטאַל דעוויסעס אין די גשמיות וועלט. פֿאַר בייַשפּיל, אין דעם קאַפּיטל, איך וועט זאָגן איר וועגן אַ לערנען וואָס רעפּורפּאָסעד סופּערמאַרק טשעק-אויס דאַטן צו לערנען ווי אַ פּראַוויידערז אַרבעטער איז ימפּרוווד דורך די פּראָודאַקטיוויטי פון איר פּירז (Mas and Moretti 2009) . דערנאָך, אין שפּעטער קאפיטלען, איך וועל דערציילן איר וועגן פאָרשער וואָס געוויינט רופן רעקאָרדס פון רירעוודיק פאָנעס (Blumenstock, Cadamuro, and On 2015) און בילינג דאַטן באשאפן דורך עלעקטריש יוטילאַטיז (Allcott 2015) . ווי די יגזאַמפּאַלז רעכענען, פֿירמע גרויס דאַטן קוואלן זענען וועגן מער ווי נאָר אָנליין נאַטור.
די צווייטע וויכטיק מקור פון גרויס דאַטן מיסט דורך אַ ענג פאָקוס אויף אָנליין נאַטור איז דאַטן באשאפן דורך רעגירונגס. די רעגירונג דאַטן, וואָס ריסערטשערז רופן רעגיאָנאַל אַדמיניסטראַטיווע רעקאָרדס , אַרייַננעמען זאכן אַזאַ ווי שטייַער רעקאָרדס, שול רעקאָרדס, און וויטאַל סטאַטיסטיק רעקאָרדס (למשל, רעגיסטריז פון געבורטס און דעטס). גאָווערנמענץ האָבן באשאפן דעם מין פון דאַטן פֿאַר, אין עטלעכע קאַסעס, הונדערטער פון יאָרן, און געזעלשאַפטלעך סייאַנטיס האָבן שוין עקספּלויטינג זיי פֿאַר קימאַט ווי לאַנג ווי עס זענען געווען געזעלשאַפטלעך סייאַנטיס. וואָס איז געביטן, אָבער, איז דידזשאַטייזיישאַן, וואָס האט עס דראַמאַטיקלי גרינגער פֿאַר רעגירונגס צו זאַמלען, יבערשיקן, קראָם, און פונאַנדערקלייַבן דאַטן. פֿאַר בייַשפּיל, אין דעם קאַפּיטל, איך וועט זאָגן איר וועגן אַ לערנען וואָס רעפּורפּאָסעד דאַטן פון ניו יארק סיטי רעגירונג ס דיגיטאַל טאַקסי מעטער צו אַדמיטאַד אַ פונדאַמענטאַל דעבאַטע אין אַרבעט עקאָנאָמיק (Farber 2015) . דערנאָך, אין די לעצטע קאפיטלען, וועל איך אייך דערציילן וועגן דער רעגירונג-געזאמלט אָפּשטימונג רעקאָרדס אין אַ יבערבליק (Ansolabehere and Hersh 2012) און an Experiment (Bond et al. 2012) .
איך טראַכטן דער געדאַנק פון רעפּורפּאָסינג איז פונדאַמענטאַל צו לערנען פון גרויס דאַטע קוואלן, און אַזוי, איידער גערעדט מער ספּאַסיפיקלי וועגן די פּראָפּערטיעס פון גרויס דאַטן קוואלן (אָפּטיילונג 2.3) און ווי די קענען זייַן געניצט אין פאָרשונג (אָפּטיילונג 2.4), איך'ד ווי צו פאָרשלאָגן צוויי ברעקלעך פון אַלגעמיין עצה וועגן רעפּורפּאָסינג. קודם, עס קען זיין טעמפּטינג צו טראַכטן וועגן די קאַנטראַסט וואָס איך האָבן באַשטימט ווי זייַענדיק צווישן "געפונען" דאַטן און "דיזיינד" דאַטן. אַז ס נאָענט, אָבער עס איז נישט גאַנץ רעכט. כאָטש, פון די פּערספּעקטיוו פון פאָרשער, גרויס דאַטן קוואלן זענען "געפונען," זיי טאָן ניט נאָר פאַלן פון דעם הימל. אַנשטאָט, דאַטן קוואלן וואָס זענען "געפונען" דורך ריסערטשערז זענען דיזיינד דורך עמעצער פֿאַר עטלעכע ציל. ווייַל "געפונען" דאַטן זענען דיזיינד דורך עמעצער, איך שטענדיק רעקאָמענדירן אַז איר פּרובירן צו פֿאַרשטיין ווי פיל ווי מעגלעך וועגן די מענטשן און פּראַסעסאַז וואָס באשאפן דיין דאַטן. רגע, ווען איר רעפּורפּאָסינג דאַטע, עס איז אָפט גאָר נוציק צו ימאַדזשאַן די ידעאַל דאַטאַסעט פֿאַר דיין פּראָבלעם און דעריבער פאַרגלייַכן אַז ידעאַל דאַטאַסעט מיט די איין אַז איר זענט ניצן. אויב איר טאָן ניט קלייַבן דיין דאַטן זיך, עס איז מסתּמא צו זיין וויכטיק דיפעראַנסיז צווישן וואָס איר ווילן און וואָס איר האָט. אָנזאָג די דיפעראַנסיז וועט העלפן דערקלערן וואָס איר קענען און קענען נישט לערנען פון די דאַטן איר האָבן, און עס קען פֿאָרשלאָגן נייע דאַטן אַז איר זאָל קלייַבן.
אין מיין דערפאַרונג, געזעלשאַפטלעך סייאַנטיס און דאַטן סייאַנטיס טענד צו צוגאַנג ריפּערלייינג זייער דיפערענטלי. סאציאל סייאַנטיס, וואָס זענען צוגעוווינט צו אַרבעטן מיט דאַטן דיזיינד פֿאַר פאָרשונג, זענען טיפּיקלי שנעל צו פונט אויס די פּראָבלעמס מיט ריפּערד דאַטן בשעת יגנאָרינג זייער סטרענגקטס. אויף די אנדערע האַנט, דאַטן סייאַנטיס זענען טיפּיקלי שנעל צו פונט אויס די בענעפיץ פון רעפּורפּאָסעד דאַטן בשעת יגנאָרינג זייַן וויקנאַסאַז. געוויינטלעך, דער בעסטער צוגאַנג איז אַ כייבריד. אַז איז, ריסערטשערז דאַרפֿן צו פֿאַרשטיין די טשאַראַקטעריסטיקס פון גרויס דאַטן קוואלן - ביידע גוט און שלעכט-און דעמאָלט פיגור אויס ווי צו לערנען פון זיי. און, דאָס איז די פּלאַן פֿאַר די רעשט פון דעם קאַפּיטל. אין דער ווייַטער אָפּטיילונג, איך וועל דיסקרייבז צען פּראָסט קעראַקטעריסטיקס פון גרויס דאַטן קוואלן. דערנאָך, אין די פאלגענדע אָפּטיילונג, איך וועל באַשרייַבן דרייַ פאָרשונג אַפּערטונאַטיז וואָס קענען אַרבעט געזונט מיט אַזאַ דאַטן.