דעם אָפּטיילונג איז דיזיינד צו ווערן געניצט ווי אַ דערמאָנען, אלא ווי צו זייַן לייענען ווי אַ דערציילונג.
איין מין פון אַבזערווינג אַז איז ניט ינקלודעד אין דעם קאַפּיטל איז עטהנאָגראַפי. פֿאַר מער אויף עטהנאָגראַפי אין דיגיטאַל ספּייסאַז זען Boellstorff et al. (2012) , און פֿאַר מער אויף עטהנאָגראַפי אין געמישט דיגיטאַל און גשמיות ספּייסאַז זען Lane (2016) .
ווען איר זענען רעפּורפּאָסינג דאַטע, עס זענען צוויי גייַסטיק טריקס וואָס קענען העלפן איר פֿאַרשטיין די מעגלעך פּראָבלעמס אַז איר זאל טרעפן. ערשטער, איר קענען פּרובירן צו ימאַדזשאַן די ידעאַל דאַטאַסעט פֿאַר דיין פּראָבלעם און די פאַרגלייַכן אַז צו די דאַטאַסעט אַז איר זענען ניצן. ווי זענען זיי ענלעך און ווי זענען זיי אַנדערש? אויב איר האט ניט קלייַבן דיין דאַטן זיך, עס זענען מסתּמא צו זיין חילוק צווישן וואָס איר ווילן און וואָס איר האָבן. אבער, איר האָבן צו באַשליסן אויב די חילוק זענען מינערווערטיק אָדער הויפּט.
רגע, געדענקען אַז עמעצער Created און געזאמלט דיין דאַטן פֿאַר עטלעכע סיבה. איר זאָל פּרובירן צו פֿאַרשטיין זייער ריזאַנינג. דאס מין פון פאַרקערט-ינזשעניעריע קענען העלפן איר ידענטיפיצירן מעגלעך פּראָבלעמס און בייאַסיז אין דיין רעפּורפּאָסעד דאַטן.
עס איז קיין איין קאָנסענסוס דעפֿיניציע פון "גרויס דאַטן", אָבער פילע זוך ויסקומען צו פאָקוס אויף די 3 ווס: באַנד, פאַרשיידנקייַט, און גיכקייַט (למשל, Japec et al. (2015) ). אלא ווי פאָקוסינג אויף די טשאַראַקטעריסטיקס פון די דאַטן, מיין דעפֿיניציע פאָקוסעס מער אויף וואָס די דאַטן איז געווען Created.
מיין ינקלוזשאַן פון רעגירונג אַדמיניסטראַטיווע דאַטן ין די קאַטעגאָריע פון גרויס דאַטן איז אַ ביסל אַניוזשואַלי. אנדערע וואס האָבן געמאכט דעם פאַל, אַרייַננעמען Legewie (2015) , Connelly et al. (2016) , און Einav and Levin (2014) . פֿאַר מער וועגן דער ווערט פון רעגירונג אַדמיניסטראַטיווע דאַטן פֿאַר פאָרשונג, זען Card et al. (2010) , Taskforce (2012) , און Grusky, Smeeding, and Snipp (2015) .
פֿאַר אַ קוק פון אַדמיניסטראַטיווע פאָרשונג פון ין די רעגירונג סטאַטיסטיש סיסטעם, דער הויפּט די יו סענסוס ביוראָו, זען Jarmin and O'Hara (2016) . פֿאַר אַ בוך לענג באַהאַנדלונג פון די אַדמיניסטראַטיווע רעקאָרדס פאָרשונג בייַ סטאַטיסטיק שוועדן, זען Wallgren and Wallgren (2007) .
אין די קאַפּיטל, איך בעקיצער קאַמפּערד אַ טראדיציאנעלן יבערבליק אַזאַ ווי די אַלגעמיינע סאציאל סורוויי (גסס) צו אַ געזעלשאַפטלעך מידיאַ דאַטן מקור אַזאַ ווי טוויטטער. פֿאַר אַ גרונטיק און אָפּגעהיט פאַרגלייַך צווישן בעקאַבאָלעדיק סערווייז און געזעלשאַפטלעך מידיאַ דאַטע, זען Schober et al. (2016) .
די 10 טשאַראַקטעריסטיקס פון גרויס דאַטן האָבן שוין דיסקרייבד אין אַ פאַרשיידנקייַט פון פאַרשידענע וועגן דורך אַ פאַרשיידנקייַט פון פאַרשידענע מחברים. שרייבט אַז ינפלוענסעד מיין טראכטן אויף די ישוז אַרייַננעמען: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , און Goldstone and Lupyan (2016) .
איבער דעם קאַפּיטל, איך ווע געניצט דעם טערמין דיגיטאַל טראַסעס, וואָס איך טראַכטן איז לעפיערעך נייטראַל. אן אנדער פאָלקס טערמין פֿאַר דיגיטאַל טראַסעס איז דיגיטאַל footprints (Golder and Macy 2014) , אָבער ווי האַל אַבעלסאָן, קען לעדעען, און הארי לויס (2008) פונט אויס, אַ מער צונעמען טערמין איז מיסטאָמע דיגיטאַל פינגערפּרינץ. ווען איר מאַכן footprints, איר זענען אַווער פון וואָס איז געשעעניש און דיין footprints קענען ניט בכלל זיין טרייסט צו איר פּערסאַנאַלי. דער זעלביקער איז נישט אמת פֿאַר דיין דיגיטאַל טראַסעס. אין פאַקט, איר זענט געלאזן טראַסעס אַלע די צייַט וועגן וואָס איר האָבן זייער קליין וויסן. און, כאָטש די טראַסעס טאָן ניט האָבן דיין נאָמען אויף זיי, זיי קענען אָפֿט זיין לינגקט צוריק צו איר. אין אנדערע ווערטער, זיי זענען מער ווי פינגערפּרינץ: ומזעיק און פּערסנאַלי ידענטיפיינג.
גרויס
פֿאַר מער אויף וואָס גרויס דאַטאַסעץ, ופפירן סטאַטיסטיש טעסץ פּראָבלעמאַטיק, זען Lin, Lucas, and Shmueli (2013) און McFarland and McFarland (2015) . די ישוז זאָל פירן ריסערטשערז צו פאָקוס אויף פּראַקטיש באַטייַט אלא ווי סטאַטיסטיש באַטייַט.
שטענדיק-אויף
ווען קאַנסידערינג שטענדיק-אויף דאַטע, עס איז וויכטיק צו באַטראַכטן צי איר זענען קאַמפּערינג די פּינטלעך זעלביקער מענטשן איבער צייַט אָדער צי איר זענען קאַמפּערינג עטלעכע טשאַנגינג גרופּע פון מענטשן; זען למשל, Diaz et al. (2016) .
נאָן-ריאַקטיוו
א קלאַסיש בוך אויף ניט-ריאַקטיוו מיטלען איז Webb et al. (1966) . די יגזאַמפּאַלז אין דעם בוך פֿאַר-טאָג די דיגיטאַל עלטער, אָבער זיי זענען נאָך ילומאַנייטינג. פֿאַר יגזאַמפּאַלז פון מענטשן טשאַנגינג זייער נאַטור ווייַל פון די בייַזייַן פון מאַסע סערוויילאַנס, זען Penney (2016) און Brayne (2014) .
ניט-דערענדיקט
פֿאַר מער אויף רעקאָרד לינגקאַדזש, זען Dunn (1946) און Fellegi and Sunter (1969) (היסטאָריש) און Larsen and Winkler (2014) (מאָדערן). ענלעך אַפּראָוטשט האָבן אויך שוין דעוועלאָפּעד אין קאָמפּיוטער וויסנשאַפֿט אונטער די נעמען אַזאַ ווי דאַטן דעדופּליקאַטיאָן, בייַשפּיל לעגיטימאַציע, נאָמען וואָס ריכטן, דופּליקאַט דיטעקשאַן, און דופּליקאַט רעקאָרד דיטעקשאַן (Elmagarmid, Ipeirotis, and Verykios 2007) . עס זענען אויך פּריוואַטקייט פּראַזערווינג אַפּראָוטשיז צו רעקאָרד לינגקאַדזש וואָס טאָן ניט דאַרפן די טראַנסמיסיע פון פּערסנאַלי ידענטיפיינג אינפֿאָרמאַציע (Schnell 2013) . Facebook אויך האט דעוועלאָפּעד אַ גיינ ווייַטער צו לינק זייער רעקאָרדס צו אָפּשטימונג נאַטור; דעם איז געשען צו אָפּשאַצן אַן עקספּערימענט אַז איך וועט דערציילן איר וועגן אין טשאַפּטער 4 (Bond et al. 2012; Jones et al. 2013) .
פֿאַר מער אויף בויען גילטיקייַט, זען Shadish, Cook, and Campbell (2001) , טשאַפּטער 3.
ינאַקסעסאַבאַל
פֿאַר מער אויף די אַאָל זוכן קלאָץ דעבאַקלע, זען Ohm (2010) . איך פאָרשלאָגן עצה וועגן פּאַרטנערינג מיט קאָמפּאַניעס און גאַווערמאַנץ אין טשאַפּטער 4 ווען איך באַשרייַבן יקספּעראַמאַנץ. א נומער פון מחברים האָבן אויסגעדריקט קאַנסערנז וועגן פאָרשונג אַז רילייז אויף ינאַקסעסאַבאַל דאַטע, זען Huberman (2012) און boyd and Crawford (2012) .
איינער גוט וועג פֿאַר אוניווערסיטעט ריסערטשערז צו קריגן דאַטן צוטריט איז צו אַרבעטן אין אַ געזעלשאַפט ווי אַ ינטערן אָדער באזוכן פאָרשער. אין דערצו צו ענייבאַלינג דאַטע צוטריט, דעם פּראָצעס וועט אויך העלפן די פאָרשער לערנען מער וועגן ווי די דאַטן איז געשאַפֿן געוואָרן, וואָס איז וויכטיק פֿאַר אַנאַליסיס.
נאָן-רעפּריזענאַטיוו
נאָן-רעפּרעסענטאַטיווענעסס איז אַ הויפּט פּראָבלעם פֿאַר ריסערטשערז און גאַווערמאַנץ וואס ווונטש צו מאַכן סטייטמאַנץ וועגן אַ גאנצע באַפעלקערונג. דאס איז ווייניקער פון דייַגע פֿאַר קאָמפּאַניעס וואָס זענען טיפּיקלי פאָקוסעד אויף זייער ניצערס. פֿאַר מער אויף ווי סטאַטיסטיק האלאנד האלט די אַרויסגעבן פון ניט-רעפּרעסענטאַטיווענעסס פון געשעפט גרויס דאַטע, זען Buelens et al. (2014) .
אין טשאַפּטער 3, איך וועט באַשרייַבן מוסטערונג און אָפּשאַצונג אין פיל גרעסער דעטאַל. אַפֿילו אויב דאַטן זענען גויים-רעפּריזענאַטיוו, אונטער זיכער באדינגונגען, זיי קענען זיין ווייטיד צו פּראָדוצירן גוט עסטאַמאַץ.
Drifting
סיסטעם DRIFT איז זייער שווער צו זען פון די אַרויס. אָבער, די מאָוויעלענס פּרויעקט (דיסקאַסט מער אין טשאַפּטער 4) האט שוין לויפן פֿאַר מער ווי 15 יאר דורך אַ אַקאַדעמיק פאָרשונג גרופּע. דעריבער, זיי האָבן דאַקיאַמענטאַד און שערד אינפֿאָרמאַציע וועגן די וועג אַז די סיסטעם האט יוואַלווד איבער צייַט און ווי דעם זאל פּראַל אַנאַליסיס (Harper and Konstan 2015) .
א נומער פון געלערנטע האָבן זיך קאָנצענטרירט אויף DRIFT אין טוויטטער: Liu, Kliman-Silver, and Mislove (2014) און Tufekci (2014) .
אַלגאָריטהמיקאַללי שעמען
איך ערשטער געהערט דעם טערמין "אַלגאָריטהמיקאַללי שעמען" געניצט דורך דזשאָן קלעינבערג אין אַ רעדן. די הויפּט געדאַנק הינטער פּערפאָרמאַטיוויטי איז אַז עטלעכע געזעלשאַפטלעך וויסנשאַפֿט טיריז זענען "ענדזשאַנז נישט קאַמעראַס" (Mackenzie 2008) . אַז איז, זיי אַקטשאַוואַלי פאָרעם די וועלט גאַנץ ווי נאָר כאַפּן עס.
גראָב
רעגירונגס סטאַטיסטיש יידזשאַנסיז רופן דאַטן רייניקונג, סטאַטיסטיש דאַטע עדיטינג. De Waal, Puts, and Daas (2014) באַשרייַבן סטאַטיסטיש דאַטע עדיטינג טעקניקס דעוועלאָפּעד פֿאַר יבערבליק דאַטן און ונטערזוכן צו וואָס מאָס זיי זענען אָנווענדלעך צו גרויס דאַטן קוואלן, און Puts, Daas, and Waal (2015) גיט עטלעכע פון די זעלבע געדאנקען פֿאַר אַ מער גענעראַל וילעם.
פֿאַר עטלעכע יגזאַמפּאַלז פון שטודיום פאָקוסעד אויף ספּאַם אין טוויטטער, Clark et al. (2016) און Chu et al. (2012) . צום סוף, Subrahmanian et al. (2016) באשרייבט די רעזולטאַטן פון די דאַרפּאַ טוויטטער באָט טשאַלאַנדזש.
שפּירעוודיק
Ohm (2015) באריכטן פריער פאָרשונג אויף דעם געדאַנק פון שפּירעוודיק אינפֿאָרמאַציע און Offers אַ מאַלטי-פאַקטאָר פּרובירן. די פיר סיבות ער לייגט זענען: די מאַשמאָעס פון שאָדן; מאַשמאָעס פון שאָדן; בייַזייַן פון אַ געהיים שייכות; און צי די ריזיקירן פאַרטראַכטנ זיך מאַדזשאָריטאַריאַן קאַנסערנז.
פאַרבער ס לערנען פון טאַקסיס אין ניו יארק איז געווען באזירט אויף אַ פריער לערנען דורך Camerer et al. (1997) אַז געניצט דרייַ פאַרשידענע קאַנוויניאַנס סאַמפּאַלז פון פּאַפּיר יאַזדע שיץ-פּאַפּיר Forms געניצט דורך דריווערס צו רעקאָרדירן יאַזדע אָנהייב צייַט, סוף צייַט, און אָפּצאָל. דאס פריער לערנען געפֿונען אַז דריווערס סימד צו זייַן ציל עאַרנערס: זיי געארבעט ווייניקער אויף טעג ווו זייער לוין זענען העכער.
Kossinets and Watts (2009) איז געווען קאָנצענטרירט אויף די אָריגינס פון האָמאָפילי אין געזעלשאַפטלעך נעטוואָרקס. זען Wimmer and Lewis (2010) פֿאַר אַ אַנדערש צוגאַנג צו די זעלבע פּראָבלעם וואָס ניצט דאַטן פון Facebook.
אין סאַבסאַקוואַנט אַרבעט, מלך און חברים האָבן ווייַטער יקספּלאָרד אָנליין צענזור אין טשיינאַ (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . פֿאַר אַ Related צוגאַנג צו מעסטן אָנליין צענזור אין טשיינאַ, זען Bamman, O'Connor, and Smith (2012) . פֿאַר מער אויף סטאַטיסטיש מעטהאָדס ווי דער איינער געוויינט אין King, Pan, and Roberts (2013) צו אָפּשאַצן די סענטימענט פון די 11 מיליאָן הודעות, זען Hopkins and King (2010) . פֿאַר מער אויף סופּערווייזד וויסן, זען James et al. (2013) (ווייניקער טעכניש) און Hastie, Tibshirani, and Friedman (2009) (מער טעכניש).
פאָרעקאַסטינג איז אַ גרויס טייל פון אינדוסטריעלע דאַטן וויסנשאַפֿט (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . איין טיפּ פון פאָרעקאַסטינג אַז ביסט קאַמאַנלי געטאן דורך געזעלשאַפטלעך ריסערטשערז זענען דעמאָגראַפיק פאָרעקאַסטינג, למשל Raftery et al. (2012) .
גוגל פלו טרענדס איז ניט דער ערשטער פּרויעקט צו נוצן זוכן דאַטן צו נאָווקאַסט ינפלוענציע פּרעוואַלאַנס. אין פאַקט, ריסערטשערז אין די פֿאַראייניקטע שטאַטן (Polgreen et al. 2008; Ginsberg et al. 2009) און שוועדן (Hulth, Rydevik, and Linde 2009) האָבן געפֿונען אַז זיכער זוכן טערמינען (למשל, "פלו") פּרעדיקטעד לאַנדיש עפנטלעך געזונט סערוויילאַנס דאַטע איידער עס איז געווען רעלעאַסעד. דערנאָך פילע, פילע אנדערע פּראַדזשעקס האָבן פּרובירן צו נוצן דיגיטאַל שפּור דאַטן פֿאַר קרענק סערוויילאַנס דיטעקשאַן, זען Althouse et al. (2015) פֿאַר אַ באריכטן.
אין דערצו צו ניצן דיגיטאַל שפּור דאַטן צו פאָרויסזאָגן געזונט אַוטקאַמז, עס האט אויך געווען אַ ריזיק סומע פון אַרבעט ניצן טוויטטער דאַטן צו פאָרויסזאָגן וואַלן אַוטקאַמז; פֿאַר באריכטן זען Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (טש. 7), און Huberty (2015) .
ניצן זוכן דאַטן צו פּרידיקטינג ינפלוענציע פּרעוואַלאַנס און ניצן טוויטטער דאַטן צו פאָרויסזאָגן ילעקשאַנז זענען ביידע יגזאַמפּאַלז פון ניצן עטלעכע מין פון דיגיטאַל שפּור צו פאָרויסזאָגן עטלעכע מין פון געשעעניש אין דער וועלט. עס אַ ריזיק נומער פון שטודיום וואָס האָבן דעם גענעראַל ביניען. טיש 2.5 כולל אַ ביסל אנדערע יגזאַמפּאַלז.
דיגיטאַל שפּור | אַוטקאַם | סייטיישאַן |
---|---|---|
טוויטטער | באָקס אָפיס רעוועך פון קינאָ אין די יו | Asur and Huberman (2010) |
זוכן לאָגס | סאַלעס פון קינאָ, מוזיק, ביכער, און ווידעא גאַמעס אין די יו | Goel et al. (2010) |
טוויטטער | דאָוו דזשאָנעס ינדוסטריאַל דורכשניטלעך (יו לאַגער מאַרק) | Bollen, Mao, and Zeng (2011) |
דער זשורנאַל פּס פּאָליטיש וויסנשאַפֿט האט אַ סימפּאָסיום אויף גרויס דאַטן, קאַוסאַל ינפערענסע און פאָרמאַל טעאָריע, און Clark and Golder (2015) סאַמערייזיז יעדער צושטייַער. דער זשורנאַל פּראָסעעדינגס פון דער נאַציאָנאַלער אַקאַדעמיע פון ססיענסעס פון די פֿאַראייניקטע שטאַטן פון אַמעריקע האט אַ סימפּאָסיום אויף קאַוסאַל ינפערענסע און גרויס דאַטן, און Shiffrin (2016) סאַמערייזיז יעדער צושטייַער.
אין ווערטער פון נאַטירלעך יקספּעראַמאַנץ, Dunning (2012) גיט אַ ויסגעצייכנט בוך לענג באַהאַנדלונג. פֿאַר מער אויף ניצן די וויעטנאַם פּלאַן לאָטעריע ווי אַ נאַטירלעך עקספּערימענט, זען Berinsky and Chatfield (2015) . פֿאַר מאַשין וויסן אַפּראָוטשיז אַז פּרווון צו אויטאָמאַטיש אַנטדעקן נאַטירלעך יקספּעראַמאַנץ ין פון גרויס דאַטן קוואלן, זען Jensen et al. (2008) און Sharma, Hofman, and Watts (2015) .
אין טערמינען פון וואָס ריכטן, פֿאַר אַן אָפּטימיסטיש אָפּשאַצונג, זען Stuart (2010) , און פֿאַר אַ פּעסימיסטיש אָפּשאַצונג זען Sekhon (2009) . פֿאַר מער אויף וואָס ריכטן ווי אַ מין פון פּרונינג, זען Ho et al. (2007) . פֿאַר ביכער וואָס צושטעלן ויסגעצייכנט טריטמאַנץ פון וואָס ריכטן, זען Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , און Imbens and Rubin (2015) .