גרויס דאַטן קוואלן זענען אומעטום, אָבער ניצן זיי פֿאַר געזעלשאַפטלעך פאָרשונג קענען זיין טריקי. אין מיין דערפאַרונג, עס איז עפּעס ווי אַ "קיין פֿרייַ לאָנטש" הערשן פֿאַר דאַטן: אויב איר טאָן ניט שטעלן אַ פּלאַץ פון אַרבעט קאַלעקטינג עס, דעמאָלט איר ביסט מסתּמא געגאנגען צו שטעלן אין אַ פּלאַץ פון אַרבעט טראַכטן וועגן אים און analyzing it.
די גרויס דאַטע קוואלן פון הייַנט-און מסתּמא מאָרגן-וועט טענד צו האָבן 10 קעראַקטעריסטיקס. דרייַ פון זיי זענען בכלל (אָבער ניט שטענדיק) נוציק פֿאַר פאָרשונג: גרויס, שטענדיק-אויף און ניט-רעאַקטיוו. זיבן זענען בכלל (אָבער ניט שטענדיק) פּראָבלעמאַטיק פֿאַר פאָרשונג: דערענדיקט, ינאַקסעסאַבאַל, ניט-רעפּרעסענטאַטיווע, דריפטינג, אַלגערידאַמיקלי קאַנפאַונדיד, גראָב, און שפּירעוודיק. פילע פון די טשאַראַקטעריסטיקס לעסאָף אויפשטיין ווייַל גרויס דאַטן קוואלן זענען נישט באשאפן פֿאַר דער ציל פון געזעלשאַפטלעך פאָרשונג.
באזירט אויף די געדאנקען אין דעם קאַפּיטל, איך טראַכטן אַז עס זענען דרייַ הויפּט וועגן אַז גרויס דאַטן קוואלן וועלן זיין מערסט ווערטפול פֿאַר געזעלשאַפטלעך פאָרשונג. ערשטער, זיי קענען געבן ריסערטשערז צו באַשליסן צווישן קאַמפּאַטינג טעאָרעטיש פֿאָרויסזאָגן. ביישפילן פון דעם מין פון אַרבעט אַרייַננעמען Farber (2015) (ניו יארק טאַקסי דריווערס) און King, Pan, and Roberts (2013) (צענזור אין טשיינאַ). רגע, גרויס דאַטן קוואלן קענען געבן ימפּרוווד מעאַסורעמענט פֿאַר פּאָליטיק דורך ניקקאַסטינג. אַ בייַשפּיל פון דעם מין פון אַרבעט איז Ginsberg et al. (2009) (Google פלו טרענדס). צום סוף, גרויס דאַטן קוואלן קענען העלפן ריסערטשערז מאַכן קאַוסאַל עסטאַמאַץ אָן פליסנדיק יקספּעראַמאַנץ. ביישפילן פון דעם מין פון אַרבעט זענען Mas and Moretti (2009) (ייַנקוקנ יפעקס אויף פּראָודאַקטיוואַטי) און Einav et al. (2015) (ווירקונג פון סטאַרטינג פּרייַז אויף אָקשאַנז בייַ עבייַ). יעדער פון די אַפּערטוניז, אָבער, טענדז צו דאַרפן ריסערטשערז צו ברענגען אַ פּלאַץ צו די דאַטן, אַזאַ ווי די דעפֿיניציע פון אַ קוואַנטיטי וואָס איז וויכטיק צו אָפּשאַצן אָדער צוויי טיעריז וואָס מאַכן קאַמפּאַטיש פאָרויסזאָגן. אזוי, איך טראַכטן דער בעסטער וועג צו טראַכטן וועגן וואָס גרויס דאַטע מקורים קענען טאָן איז אַז זיי קענען העלפן ריסערטשערז וואס קענען פרעגן טשיקאַווע און וויכטיק פראגעס.
איידער עס איז דערקלערט, איך טראַכטן אַז עס איז ווערט באַטראַכט אַז גרויס דאַטן קוואלן קען האָבן אַ וויכטיק ווירקונג אויף די שייכות צווישן דאַטן און טעאָריע. ביז איצט, דעם קאַפּיטל האט גענומען די צוגאַנג פון די טעאָריע-געטריבן עמפּיריקאַל פאָרשונג. אבער גרויס דאַטע קוואלן אויך געבן ריסערטשערז צו טאָן עמפּיריקלי געטריבן טהעאָריזינג . וואָס איז, דורך די אָפּגעהיט אַקיומיאַליישאַן פון עמפּיריקאַל פאקטן, פּאַטערנז, און פּאַזאַלז, ריסערטשערז קענען בויען נייַ טיריז. די אָלטערנאַטיוו, דערנאָך דערגרייכן די טעאָריע צו נייַע טעאָריע, און עס איז געווען רובֿ קראַפטפאַלי אַרטיקיאַלייטאַד דורך באַרני גלאַסער און אַנסעלם סטראַוס (1967) מיט זייער רופן פֿאַר גראַונדיד טעאָריע . די דאַטן-ערשטע צוגאַנג, אָבער, טוט נישט מיינען "דער סוף פון טעאָריע," ווי איז געווען קליימד אין עטלעכע פון די זשורנאליסטיק אַרום פאָרשונג אין די דיגיטאַל עלטער (Anderson 2008) . אלא, ווי די דאַטע סוויווע ענדערונגען, מיר זאָל דערוואַרטן אַ רעבאַלאַנסינג אין די שייכות צווישן דאַטן און טעאָריע. אין אַ וועלט ווו דאַטן זאַמלונג איז טייַער, עס איז געווען געפיל צו זאַמלען בלויז די דאַטן וואָס טיריז פֿאָרשלאָגן וועט זיין די מערסט נוצלעך. אָבער, אין אַ וועלט, ווו ריזיק אַמאַונץ פון דאַטן זענען שוין בנימצא פֿאַר פֿרייַ, עס טאַקע דאַרפֿן צו פּרובירן אַ דאַטע-ערשטער צוגאַנג (Goldberg 2015) .
ווי איך האָב געוויזן אין דעם קאַפּיטל, ריסערטשערז קענען לערנען אַ פּלאַץ פון מענטשן. אין די ווייַטער דרייַ קאפיטלען, איך וועט באַשרייַבן ווי מיר קענען לערנען מער און פאַרשידענע זאכן אויב מיר שנייַדן אונדזער דאַטן זאַמלונג און ינטעראַקט מיט מענטשן מער גלייַך דורך פרעגן זיי פֿראגן (פּרק 3), פליסנדיק יקספּעראַמאַנץ (פּרק 4), און אַפֿילו ינוואַלווינג זיי אין דער פאָרשונג פּראָצעס גלייַך (פּרק 5).