[ , ] אַלגאָריטמעטיק איז געווען אַ פּראָבלעם מיט Google Flu Trends. לייענען דעם פּאַפּיר דורך Lazer et al. (2014) , און שרייַבן אַ קורץ, קלאָר בליצפּאָסט צו אַ ינזשעניר בייַ Google יקספּליינינג די פּראָבלעם און פאָרשלאָגן אַ געדאַנק פון ווי צו פאַרריכטן עס.
[ ] Bollen, Mao, and Zeng (2011) קליימז אַז דאַטע פון טוויטטער קענען זיין געניצט צו פאָרויסזאָגן די לאַגער מאַרק. דעם דערגייונג געפירט צו די שאַפונג פון אַ כעדזש פאָנד-דערווענט קאַפּיטאַל מאַרקעץ-צו ינוועסטירן אין די לאַגער מאַרק באזירט אויף דאַטן געזאמלט פון טוויטטער (Jordan 2010) . וואָס זאָגן איר ווילן צו זען איידער שטעלן דיין געלט אין דעם פאָנד?
[ ] בשעת עטלעכע ציבור געזונט אַדוואַקאַץ באַטראַכטן E- סיגאַרעטטעס אַ עפעקטיוו הילף פֿאַר סמאָוקינג ופהער, אנדערע וואָרענען וועגן די פּאָטענציעל ריסקס, אַזאַ ווי די הויך לעוועלס פון ניקאָטין. ימאַדזשאַן אַז אַ פאָרשער באַשלאָסן צו לערנען ציבור מיינונג צו E- סיגאַרעטטעס דורך זאַמלונג E- סיגאַרעטטעס-פֿאַרבונדענע טוויטטער הודעות און קאַנדאַקטינג סענטימענט אַנאַליסיס.
[ ] אין נאוועמבער 2009, Twitter געביטן די קשיא אין די טוועעט קעסטל פון "וואָס זענען איר טאן?" צו "וואָס ס געשעעניש?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "רעטוועעץ" זענען אָפט געניצט צו מעסטן השפּעה און פאַרשפּרייטן פון השפּעה אויף טוויטטער. טכילעס, ניצערס האבן צו קאָפּי און פּאַפּ די טוועעץ זיי לייקט, צעטיילט די אָריגינעל מחבר מיט זיין / איר שעפּן, און מאַניואַלי טיפּ "רט" איידער די טוועעט צו אָנווייַזן אַז עס איז געווען אַ רעטוועעט. דערנאָך, אין 2009, Twitter צוגעגעבן אַ "רעטוועעט" קנעפּל. אין יוני 2016, Twitter made it possible for users to retweet their own tweets (https://twitter.com/twitter/status/742749353689780224). צי איר טראַכטן די ענדערונגען זאָל ווירקן ווי איר נוצן "רעטרונג" אין דיין פאָרשונג? וואָס אָדער וואָס נישט?
[ , , , ] אין אַ וויידלדיק דיסקערידזשד פּאַפּיר, מישעל און חברים (2011) האט די אינהאַלט פון מער ווי פינף מיליאָן דידזשאַטייזד ספרים אין אַן פּרווון צו ידענטיפיצירן לאַנג-טערמין קולטור טרענדס. די דאַטן וואָס זיי געניצט האָבן שוין באפרייט ווי די דאַטן דאַטן Google NGrams, און אַזוי מיר קענען נוצן די דאַטע צו רעפּלאַקייט און פאַרברייטערן עטלעכע פון זייער אַרבעט.
אין איינער פון די פילע רעזולטאַטן אין די פּאַפּיר, מיטשעל און חברים אַרגיוד אַז מיר זענען פערגעטינג פאַסטער און פאַסטער. פֿאַר אַ באַזונדער יאָר, זאָגן "1883," זיי קאַלקיאַלייטיד די פּראָפּאָרציע פון 1-גראַמז ארויס אין יעדער יאָר צווישן 1875 און 1975 וואָס זענען געווען "1883". זיי האָבן גערעדט אַז דאָס פּראָפּאָרציע איז אַ מאָס פון די אינטערעס אין געשעענישן וואָס געטראפן אין אַז יאָר. אין זייער פיגור 3 אַ, זיי פּלאָטעד די באַניץ טרייַעקטאָריעס פֿאַר דרייַ יאר: 1883, 1910, און 1950. די דרייַ יאר טיילן אַ פּראָסט מוסטער: ביסל נוצן איידער אַז יאָר, דעמאָלט אַ ספּייק, דעמאָלט פאַרפוילן. ווייַטער, צו קוואַנאַטיש די קורס פון פאַרפוילן פֿאַר יעדער יאָר, מייקיש און חברים קאַלקיאַלייטיד די "האַלב-לעבן" פון יעדער יאָר פֿאַר אַלע יאָרן צווישן 1875 און 1975. אין זייער פיגור 3 אַ (ינסעט), זיי געוויזן אַז די האַלב-לעבן פון יעדער יאָר איז דיקריסינג, און זיי אַרגיוד אַז דאָס מיטל אַז מיר זענען פארגעסן די פאַרגאַנגענהייַט פאַסטער און פאַסטער. זיי געניצט ווערסיע 1 פון די ענגליש שפּראַך קאָרפּוס, אָבער דערנאָך גוגל האט באפרייט אַ צווייט ווערסיע פון די קאָרפּוס. ביטע לייענען אַלע די טיילן פון די קשיא איידער איר אָנהייבן קאָדירונג.
דעם טעטיקייט וועט געבן איר פיר שרייַבן ריוזאַבאַל קאָד, ינטערפּריטינג רעזולטאטן, און דאַטע ראַנגלערייַ (אַזאַ ווי אַרבעט מיט ומגעלומפּערט טעקעס און האַנדלינג פעלנדיק דאַטן). דעם טעטיקייט וועט אויך העלפֿן איר באַקומען אַרויף און פליסנדיק מיט אַ רייַך און טשיקאַווע דאַטאַסעט.
באַקומען די רוי דאַטע פון די Google ספר NGram Viewer וועבזייַטל. אין באַזונדער, איר זאָל נוצן ווערסיע 2 פון די ענגליש שפּראַך קאָרפּוס, וואָס איז באפרייט אויף 1 יולי 2012. ונקאָמפּרעססעד, דעם טעקע איז 1.4 גב.
די הויפּט טייל פון פיגורע 3 אַ פון Michel et al. (2011) . צו מאַכן דעם פיגור, איר דאַרפֿן צוויי טעקעס: דער איינער איר אָפּלאָדירן אין טייל (אַ) און די "גאַנץ קאַונץ" טעקע, וואָס איר קענען נוצן צו בייַטן די רוי קאַונץ אין פּראַפּאָרשאַנז. באַמערקונג אַז די גאַנץ קאַונץ טעקע האט אַ סטרוקטור אַז קען מאַכן עס אַ ביסל שווער צו לייענען. צי ווערסיע 2 פון די NGram דאַטן פּראָדוצירן ענלעך רעזולטאַטן צו די פּראָסעס אין Michel et al. (2011) , וואָס זענען באזירט אויף ווערסיע 1 דאַטן?
איצט קאָנטראָלירן דיין גראַפיק קעגן דעם גראַפיק באשאפן דורך די NGram Viewer.
רעקאָריטירן פיגורע 3 אַ (הויפּט פיגורע), אָבער טוישן די \(y\) -אַקסיס צו זיין רוי רוימער ציילן (ניט די קורס פון דערמאנט).
טוט דער חילוק צווישן (b) און (ד) פירן איר צו רעעוואַלואַטע קיין פון די רעזולטאַטן פון Michel עט על. (2011). וואָס אָדער וואָס נישט?
איצט, ניצן די פּראָפּאָרציע פון דערמאָנען, רעפּלאַקייט די ינסעט פון פיגורע 3 אַ. אַז איז, פֿאַר יעדער יאָר צווישן 1875 און 1975, רעכענען די האַלב-לעבן פון וואָס יאָר. די האַלב-לעבן איז דיפיינד צו זיין די נומער פון יאָרן אַז פאָרן איידער די פּראָפּאָרציע פון דערמאנט ריטשאַז האַלב זייַן שפּיץ ווערט. באַמערקונג אַז Michel et al. (2011) טאָן עפּעס מער קאָמפּליצירט צו אָפּשאַצן די האַלב-לעבן-זען אָפּטיילונג III.6 פון די סופּפּאָרטינג אָנליין אינפארמאציע-אָבער זיי פאָדערן אַז ביידע אַפּאָוזיז פּראָדוצירן ענלעך רעזולטאַטן. צי ווערסיע 2 פון די NGram דאַטן פּראָדוצירן ענלעך רעזולטאטן צו יענע דערלאנגט אין Michel et al. (2011) , וואָס זענען באזירט אויף ווערסיע 1 דאַטן? (אָנצוהערעניש: דו זאלסט נישט זיין סאַפּרייזד אויב עס טוט נישט.)
זענען דאָרט קיין יאָרן וואָס זענען אַוטלייערז אַזאַ ווי יאָרן וואָס זענען פארגעסן ספּעציעל געשווינד אָדער ספּעציעל סלאָולי? קורץ ספּעקולירן וועגן מעגלעך סיבות פֿאַר דעם מוסטער און דערקלערן ווי איר יידענאַפייד די אַוטלייערז.
איצט רעפּליקייט דעם רעזולטאַט פֿאַר ווערסיע 2 פון די NGrams דאַטן אין כינעזיש, פראנצויזיש, דייַטש, העברעיש, איטאַליעניש, רוסיש און שפּאַניש.
קאַמפּערינג אויף אַלע שפּראַכן, זענען דאָרט קיין יאָרן וואָס זענען אַוטלייערז, אַזאַ ווי יאָרן וואָס זענען פארגעסן ספּעציעל געשווינד אָדער ספּעציעל סלאָולי? קורץ ספּעקולירן וועגן מעגלעך סיבות פֿאַר דעם מוסטער.
[ , , , ] Penney (2016) געפרעגט צי די וויידספּרעד פּירסעם וועגן נסאַ / פּריזמע סערוויילאַנס (י.ע., די סנאָוודען אנטפלעקונגען) אין יוני 2013 איז געווען פארבונדן מיט אַ שאַרף און פּלוצעמדיק אַראָפּגיין אין די וויקיפּעדיע ארטיקלען אויף טעמעס וואָס הייבן פּריוואַטקייט קאַנסערנז. אויב אַזוי, דעם ענדערונג אין אָפּפירונג וואָלט זיין קאָנסיסטענט מיט אַ טשילינג ווירקונג ריזאַלטיד פון מאַסע סערוויילאַנס. דער צוגאַנג פון Penney (2016) איז מאל גערופן אַ ינטעראַפּטיד צייַט סעריע פּלאַן, און עס איז שייַכות צו די אַפּערטונאַטיז דיסקרייבד אין אָפּטיילונג 2.4.3.
צו קלייַבן די טעמע טערמינען, פּענניע ריפערד צו די רשימה געניצט דורך די יו. עס. דעפּאַרטמענט פון האָמעלאַנד סעקוריטי פֿאַר טראַקינג און מאָניטאָרינג געזעלשאַפטלעך מידיאַ. די דהס ליסטע קאטעגאריזירן זיכערע זוכן טערמינען אין א קייט פון פראבלעמען, ד"ה "געזונטהייט קאָנסערן," "ינפראַסטרוקטור סעקוריטי," און "טעראָריזם." פֿאַר די לערנען גרופּע, פּענניע געוויינט די 48 טערמינען וועגן "טעראָריזם" (זען אַפּפּענדיקס טיש 8 ). ער דעמאָלט אַגראַגייטאַד וויקיפּעדיע אַרטיקל מיינונג קאַונץ אויף אַ כוידעשלעך יקער פֿאַר די קאָראַספּאַנדינג 48 וויקיפּעדיע אַרטיקלען איבער אַ 32-חודש צייַט, פון די אָנהייב פון יאנואר 2012 צו די סוף פון אויגוסט 2014. צו פארשטארקן זיין אַרגומענט, ער אויך באשאפן עטלעכע פאַרגלייַך גרופּעס דורך טראַקינג אַרטיקל קוקן אויף אנדערע טעמעס.
איצט, איר זענען געגאנגען צו רעפּלאַקייט און פאַרברייטערן Penney (2016) . כל די רוי דאַטע וואָס איר דאַרפֿן פֿאַר דעם טעטיקייט איז בנימצא פון וויקיפעדיע. אָדער איר קענען באַקומען עס פון די ר-פּעקל וויקיפּעדיאַטרענד (Meissner and R Core Team 2016) . ווען איר שרייַבן דיין רעספּאָנסעס, ביטע טאָן וואָס די דאַטע מקור איר געוויינט. (באַמערקונג אַז דאָס זעלבע אַקטיוויטעט אויך אויס אין קאַפּיטל 6). דעם טעטיקייט וועט געבן איר פיר אין דאַטן ראַפּינג און טראכטן וועגן נאַטירלעך יקספּעראַמאַנץ אין גרויס דאַטן קוואלן. עס וועט אויך באַקומען איר אַרויף און פליסנדיק מיט אַ פּאַטענטשאַלי טשיקאַווע דאַטן מקור פֿאַר צוקונפֿט פראיעקטן.
[ ] " Efrati (2016) געמאלדן, באזירט אויף קאַנפאַדענשאַל אינפֿאָרמאַציע, אַז" גאַנץ ייַנטיילונג "אויף פאַסעבאָאָק האט דיקליינד דורך וועגן 5.5% יאָר איבער יאָר בשעת" אָריגינעל בראָדקאַסט ייַנטיילונג "איז אַראָפּ 21% יאָר איבער יאָר. דעם אַראָפּגיין איז געווען דער הויפּט אַקוטע מיט פאַסעבאָאָק וסערס אונטער 30 יאר אַלט. דער באַריכט אַטריביאַטאַד די אַראָפּגיין צו צוויי סיבות. איינער איז דער וווּקס אין די נומער פון "פריינט" מענטשן האָבן אויף פאַסעבאָאָק. די אנדערע איז אַז עטלעכע ייַנטיילונג טעטיקייט האט שיפטיד צו מעסידזשינג און צו קאָמפּעטיטאָרס אַזאַ ווי סנאַפּטשאַט. דער באַריכט אויך אנטפלעקט די עטלעכע טאַקטיק פאַסעבאָאָק האט געפרוווט צו בוסט ייַנטיילונג, אַרייַנגערעכנט נייַעס פיטער אַלגערידאַם טוויקס וואָס מאַכן אָריגינעל הודעות מער באַוווסט, ווי געזונט ווי פּעריאָדיש רימיינדערז פון די אָריגינעל הודעות מיט די "אויף דעם טאָג" שטריך. וואָס ימפּלאַקיישאַנז, אויב עס איז, טאָן די פיינדינגז פֿאַר פאָרשער וואס ווילן צו נוצן פאַסעבאָאָק ווי אַ דאַטן מקור?
[ ] וואָס איז די חילוק צווישן אַ סאָוסיאַלאַדזשיסט און אַ היסטאריקער? לויט גאָלדהאָרפּע (1991) , די הויפּט חילוק איז קאָנטראָל איבער דאַטן זאַמלונג. היסטאָריאַנס זענען געצווונגען צו נוצן רעליקס, אָבער סאָסיאָלאָגיסץ קענען שנייַדן זייער דאַטן זאַמלונג צו ספּעציפיש צוועקן. לייענען Goldthorpe (1991) . וויאזוי איז די חילוק צווישן סאציאלאגיע און געשיכטע וועלכע איז פארבונדן מיט דער געדאנק פון קוסטאָממאַדעס און גרייטמאַדעס?
[ ] דאס בויען אויף די פריערדיקע קוועסיטאָן. Goldthorpe (1991) געצויגן אַ נומער פון קריטיש רעספּאָנסעס, אַרייַנגערעכנט איינער פון ניקי האַרט (1994) אַז טשאַלאַדזשד גאלדהאָרפּע ס איבערגעגעבנקייט צו שנייַדער געמאכט דאַטן. צו דערקלערן דעם פּאָטענציעל באגרעניצונג פון שנייַדערדיקע דאַטן, האַרט האָט דיסקרייבד די אַפפלואַנט וואָרקער פּראָיעקט, אַ גרויס יבערבליק צו מעסטן די שייכות צווישן געזעלשאַפטלעך קלאַס און אָפּשטימונג וואָס איז געפירט דורך גאָלדהאָרפּע און חברים אין דער מיטן 1960 ס. ווי איינער קען דערוואַרטן פון אַ געלערנטער וואס פייווערד דיזיינד דאַטן איבער געפונען דאַטן, די אַפפלואַנט וואָרקער פּראָיעקט געזאמלט דאַטן וואָס זענען צוגעשטעלט צו אַדרעס אַ לעצטנס פארגעלייגט טעאָריע וועגן דער צוקונפֿט פון געזעלשאַפטלעך קלאַס אין אַ תקופה פון ינקריסינג לעבעדיק סטאַנדאַרדס. אָבער, Goldthorpe און חברים עפעס "פארגעסן" צו זאַמלען אינפֿאָרמאַציע וועגן די אָפּשטימונג נאַטור פון פרויען. דאָ ס ווי ניקי האַרט (1994) סאַמערייזד די גאנצע עפּיזאָד:
"... עס איז שווער צו ויסמעסלען די סוף אַז פרויען זענען איבערגעהיפּערט ווייַל דאָס 'שנייַדער געמאכט' דאַטאַסעט איז געווען קאַנפיינד דורך אַ פּאַראַדיגמאַטיק לאָגיק וואָס יקסקלודיד ווייַבלעך דערפאַרונג. דערוויילט דורך אַ טעאָרעטיש זעאונג פון קלאַס באוווסטזיין און קאַמף ווי זכר פּריאַקיואַפּיישאַנז ..., גאָלדהאָרפּע און זיין חברים קאַנסטראַקטאַד אַ סכום פון עמפּעראַל פּראָאָפס וואָס פידינג און נערטשערד זייער אייגן טעאָרעטיש אַסאַמפּשאַנז אַנשטאָט פון יקספּאָוזינג זיי צו אַ גילטיק פּרובירן פון אַדאַקוואַסי.
האַרט געצויגן:
"די עמפּירישע פיינדינגז פון די אַפפלואַנט וואָרקער פּראָיעקט דערציילן אונדז מער וועגן די מעטאַקאַליסט וואַלועס פון מיטן יאָרהונדערט סאָוסיאַלאַדזשי ווי זיי ינפערמענירן די פּראַסעסאַז פון סטראַטיפיקאַטיאָן, פּאָליטיק און מאַטעריאַל לעבן".
קענען איר טראַכטן פון אנדערע ביישפילן וואָס שניי-געמאכט דאַטע זאַמלונג האט די בייאַסיז פון די דאַטע קאַלעקטער געבויט אין עס? ווי אַזוי קען דאָס פאַרגלייכן צו אַלגערידאַמיק קאָנפאָונדינג? וואָס קען זיין וואָס ימפּלאַקיישאַנז זאָלן פֿאַר וואָס פאָרשער זאָל נוצן פירמאַמאַדעס און ווען זיי זאָל נוצן קוסטאָממאַדעס?
[ ] אין דעם קאַפּיטל, איך האָבן קאַנטראַסטאַד דאַטן געזאמלט דורך ריסערטשערז פֿאַר ריסערטשערז מיט אַדמיניסטראַטיווע רעקאָרדס באשאפן דורך קאָמפּאַניעס און רעגירונגס. עטלעכע מענטשן רופן די אַדמיניסטראַטיווע רעקאָרדס "געפונען דאַטן," וואָס זיי קאַנטראַסט מיט "דיזיינד דאַטן." עס איז אמת אַז אַדמיניסטראַטיווע רעקאָרדס זענען געפונען דורך פאָרשער, אָבער זיי זענען אויך העכסט דיזיינד. פֿאַר בייַשפּיל, מאָדערן טעק קאָמפּאַניעס אַרבעט זייער שווער צו קלייַבן און קעראַטירן זייער דאַטן. אזוי, די אַדמיניסטראַטיווע רעקאָרדס זענען ביידע געפונען און דיזיינד, עס נאָר דעפּענדס אויף דיין פּערספּעקטיוו (פיגורע 2.12).
צושטעלן אַ בייַשפּיל פון דאַטן מקור וווּ זיי געזען עס ביידע ווי געפונען און דיזיינד איז נוציק ווען ניצן דעם דאַטן מקור פֿאַר פאָרשונג.
[ ] אין אַ געדאַנק עסיי, קריסטלעך סאַנדוויג און עסטער האַרגיטטאַי (2015) שפּאַלטן דיגיטאַל פאָרשונג אין צוויי ברייט קאַטעגאָריעס לויט צו די דיגיטאַל סיסטעם איז אַ "קיילע" אָדער "כייפעץ פון לערנען." א ביישפּיל פון דער ערשטער מין-ווו די סיסטעם איז אַ ינסטרומענט איז דער פאָרשונג דורך בענגצסאָן און קאָללאַגס (2011) אויף ניצן רירעוודיק-טעלעפאָן דאַטן צו שפּור מיגראַטיאָן נאָך די ערדציטערניש אין האיטי אין 2010. א ביישפּיל פון די רגע מין-ווו די סיסטעם איז אַ כייפעץ פון לערנען-איז פאָרשונג דורך דזשענסען (2007) אויף ווי די הקדמה פון רירעוודיק פאָנעס איבער קעראַלאַ, ינדיאַ ימפּרוווד די פאַנגקשאַנינג פון די מאַרק פֿאַר פיש. איך געפֿינען דעם דיסטינגקשאַן נוציק ווייַל עס קלעראַפייז אַז סטודענטן ניצן דיגיטאַל דאַטן קוואלן קענען האָבן גאַנץ פאַרשידענע צילן אַפֿילו אויב זיי נוצן די זעלבע מין פון דאַטן מקור. צו דערקלערן דעם אָפּשפּיגלונג, באַשליסן פיר שטודיום איר האָט געזען: צוויי וואָס נוצן אַ דיגיטאַל סיסטעם ווי אַ קיילע און צוויי וואָס נוצן אַ דיגיטאַל סיסטעם ווי אַ כייפעץ פון לערנען. איר קענען נוצן ביישפילן פון דעם קאַפּיטל אויב איר ווילן.