2.3.1.1 גרויס

גרויס דאַטאַסעץ זענען אַ מיטל צו אַ סוף; זיי זענען נישט אַ סוף אין זיך.

דער ערשטער פון די דרייַ גוט טשאַראַקטעריסטיקס פון גרויס דאַטן איז די מערסט דיסקאַסט: די ביסט גרויס דאַטן. די דאַטע קוואלן קענען זיין גרויס אין דרייַ פאַרשידענע וועגן: פילע מענטשן, גורל פון אינפֿאָרמאַציע פּער מענטש, אָדער פילע אַבזערוויישאַנז איבער צייַט. ווייל אַ גרויס דאַטאַסעט ענייבאַלז עטלעכע ספּעציפיש טייפּס פון פאָרשונג-מעסטן העטעראָגענעיטי, געלערנט זעלטן געשעענישן, דיטעקטינג קליין חילוק, און מאכן קאַוסאַל עסטאַמאַץ פון אָבסערוואַטיאָנאַל דאַטע. עס אויך מיינט צו פירן צו אַ ספּעציפיש טיפּ פון סלאָפּפּינעסס.

דער ערשטער זאַך פֿאַר וואָס גרייס איז דער הויפּט נוצלעך איז מאָווינג ווייַטער פון אַוורידזשיז צו מאַכן עסטאַמאַץ פֿאַר ספּעציפיש סובגראָופּס. לעמאָשל, גערי מלך, Jennifer פּאַן, און מאַלי ראָבערץ (2013) האָט אָפּגעמאָסטן די מאַשמאָעס אַז געזעלשאַפטלעך מידיאַ הודעות אין טשיינאַ וואָלט זייַן סענסערד דורך די רעגירונג. דורך זיך דעם דורכשניטלעך מאַשמאָעס פון דילישאַן איז נישט זייער נוציק פֿאַר שכל וואָס די רעגירונג צענזארן עטלעכע הודעות אָבער נישט אנדערע. אבער, ווייַל זייער דאַטאַסעט ינקלודעד 11 מיליאָן הודעות, מלך און חברים אויך Produced עסטאַמאַץ פֿאַר די מאַשמאָעס פון צענזור פֿאַר הודעות אויף 85 באַזונדער קאַטעגאָריעס (למשל, פּאָרנאָגראַפי, טיבעט, און פאַרקער אין בעידזשינג). דורך קאַמפּערינג די מאַשמאָעס פון צענזור פֿאַר הודעות אין פאַרשידענע קאַטעגאָריעס, זיי זענען ביכולת צו פֿאַרשטיין מער וועגן ווי און וואָס די רעגירונג צענזארן זיכער טייפּס פון הודעות. מיט 11,000 הודעות (גאַנץ ווי 11 מיליאָן הודעות), זיי וואָלט נישט האָבן שוין קענען צו פּראָדוצירן די קאַטעגאָריע-ספּעציפיש עסטאַמאַץ.

רגע, גרייס איז דער הויפּט נוציק פֿאַר איז געלערנט פון זעלטן געשעענישן. לעמאָשל, גאָעל און חברים (2015) געוואלט צו לערנען די פאַרשידענע וועגן אַז טוועעץ קענען גיין וויראַל. ווייַל גרויס קאַסקיידז פון שייַעך-טוועעץ זענען גאָר זעלטן-וועגן איין אין אַ 3000-זיי דארף צו לערנען מער ווי אַ ביליאָן טוועעץ אין סדר צו געפֿינען גענוג גרויס קאַסקיידז פֿאַר זייער אַנאַליסיס.

דריט, גרויס דאַטאַסעץ געבן ריסערטשערז צו דיטעקט קליין חילוק. אין פאַקט, פיל פון די פאָקוס אויף גרויס דאַטן אין אינדוסטריע איז וועגן די קליין Differences: רילייאַבלי דיטעקטינג די חילוק צווישן 1% און 1.1% גיט-דורך רייץ אויף אַ אַד קענען איבערזעצן אין מיליאַנז פון דאָללאַרס אין עקסטרע רעוועך. אין עטלעכע SCIENTIFIC סעטטינגס, אַזאַ קליין חילוק זאל ניט זיין באַזונדער וויכטיק (אַפֿילו אויב זיי זענען סטאַטיסטיקאַלי באַטייַטיק). אבער, אין עטלעכע פּאָליטיק סעטטינגס, אַזאַ קליין חילוק קענען ווערן וויכטיק ווען וויוד אין געמיינזאַם. לעמאָשל, אויב עס זענען צוויי ציבור געזונט ינטערווענטשאַנז און איינער איז אַ ביסל מער עפעקטיוו ווי די אנדערע, דעמאָלט סוויטשינג צו די מער עפעקטיוו אריינמישונג געקענט סוף אַרויף שפּאָרן טויזנטער פון נאָך לעבן.

צום סוף, גרויס דאַטן שטעלט זייער פאַרגרעסערן אונדזער פיייקייַט צו מאַכן קאַוסאַל עסטאַמאַץ פון אָבסערוואַטיאָנאַל דאַטע. כאָטש גרויס דאַטאַסעץ טאָן ניט פונדאַמענטאַללי טוישן די פּראָבלעמס מיט מאכן קאַוסאַל ינפערענסע פון ​​אָבסערוואַטיאָנאַל דאַטע, וואָס ריכטן און נאַטירלעך יקספּעראַמאַנץ צוויי טעקניקס אַז ריסערטשערז האָבן דעוועלאָפּעד פֿאַר מאכן קאַוסאַל קליימז פון אָבסערוואַטיאָנאַל דאַטע-ביידע זייער נוץ פון גרויס דאַטאַסעץ. איך וועט דערקלערן און אילוסטרירן דעם פאָדערן אין גרעסער דעטאַל שפּעטער אין דעם קאַפּיטל, ווען איך באַשרייַבן פאָרשונג סטראַטעגיעס.

כאָטש ביגנעסס איז בכלל אַ גוט פאַרמאָג ווען געוויינט ריכטיק, איך ווע באמערקט אַז ביגנעסס קאַמאַנלי לידז צו אַ קאַנסעפּטשואַל טעות. פֿאַר עטלעכע סיבה, ביגנעסס מיינט צו פירן ריסערטשערז צו איגנאָרירן ווי זייער דאַטן איז דזשענערייטאַד. בשעת ביגנעסס טוט רעדוצירן די דאַרפֿן צו זאָרג וועגן ראַנדאָם טעות, עס אַקשלי ינקריסאַז די דאַרפֿן צו זאָרג וועגן סיסטעמאַטיש ערראָרס, די מינים פון ערראָרס אַז איך וועט באַשרייַבן אין מער ונטער אַז שטיי פון בייאַסיז אין ווי דאַטן זענען Created און געזאמלט. אין אַ קליין דאַטאַסעט, ביידע ראַנדאָם טעות און סיסטעמאַטיש טעות קענען זיין וויכטיק, אָבער אין אַ גרויס דאַטאַסעט ראַנדאָם טעות איז קענען ווערן אַווראַדזשד אַוועק און סיסטעמאַטיש טעות דאַמאַנייץ. רעסעאַרטשערס וואס טאָן ניט טראַכטן וועגן סיסטעמאַטיש טעות וועט סוף אַרויף ניצן זייער גרויס דאַטאַסעץ צו באַקומען אַ גענוי אָפּשאַצונג פון דעם אומרעכט זאַך; זיי וועט זיין דווקא ומפּינקטלעך (McFarland and McFarland 2015) .