עטלעכע פון די אינפֿאָרמאַציע אַז קאָמפּאַניעס און גאַווערמאַנץ האָבן איז שפּירעוודיק.
געזונט פאַרזיכערונג קאָמפּאַניעס האָבן דיטיילד אינפֿאָרמאַציע וועגן די מעדיציניש זאָרגן באקומען דורך זייער קאַסטאַמערז. די אינפֿאָרמאַציע קען ווערן גענוצט פֿאַר וויכטיק פאָרשונג וועגן געזונט, אָבער אויב עס איז געווארן ציבור, עס קען פּאַטענטשאַלי פירן צו עמאָציאָנעל שאָדן (למשל, ימבעראַסינג) אָדער עקאָנאָמיש שאָדן (למשל אָנווער פון באַשעפטיקונג). פילע אנדערע דאַטן קוואלן אויך האָבן אינפֿאָרמאַציע וואָס איז שפּירעוודיק , וואָס איז טייל פון די סיבה וואָס זיי זענען אָפט ינאַקסעסאַבאַל.
צום באַדויערן, עס טורנס אויס צו זיין שווער צו באַשליסן וואָס אינפֿאָרמאַציע איז פאקטיש שפּירעוודיק (Ohm 2015) , ווי איז יללוסטרירט דורך די נעטפליקס פרייז. ווי איך וועל דיסקרייבד אין קאַפּיטל 5, אין 2006, נעטפליקס פריי 100,000,000 פֿילם רייטינגז צוגעשטעלט דורך כּמעט 500.000 מיטגלידער און האט אַ עפענען רופן ווו מענטשן פון אַלע איבער די וועלט אַרייַנגעשיקט אַלגערידאַמז וואָס קען פֿאַרבעסערן Netflix 'ס פיייקייַט צו רעקאָמענדירן קינאָ. איידער ריליסינג די דאַטן, נעטפליקס אַוועקגענומען קיין קלאָר ווי דער טאָג פּערסאַנאַלי יידענטאַפייינג אינפֿאָרמאַציע אַזאַ ווי נעמען. אָבער, נאָר צוויי וואָכן נאָך די דאַטן איז באפרייט אַרווינד נאַרייַאַנאַן און וויטאַלי שמאַטיקאָוו (2008) געוויזן אַז עס איז געווען מעגלעך צו לערנען וועגן דעם פֿילם רייטינגז פון מענטשן, ניצן אַ טריק אַז איך וועל ווייַזן איר אין קאַפּיטל 6. כאָטש אַ אַטאַקער קען אַנטדעקן אַ מענטשן ס פֿילם ראַטינגס, דאָרט נאָך טוט נישט ויסקומען עפּעס שפּירעוודיק דאָ. בשעת וואָס קען זיין אמת אין אַלגעמיין, פֿאַר בייַ מינדסטער עטלעכע פון די 500,000 מענטשן אין די דאַטאַסעט, די פֿילם ראַטינגס זענען שפּירעוודיק. אין פאַקט, אין ענטפער צו די מעלדונג און שייַעך-אידענטיפיקאציע פון די דאַטן, אַ קלאָוזעטעט לעסביאַן פרוי זיך איינגעשריבן אַ קלאַס-קאַמף פּאַסן קעגן נעטפליקס. דאָ ס ווי די פּראָבלעם איז געווען אויסגעדריקט אין דעם פּראָצעס (Singel 2009) :
"[ב] אָוויע און שאַץ דאַטן כּולל אינפֿאָרמאַציע פון אַ ... זייער פּערזענלעך און שפּירעוודיק נאַטור. די מאטעמאטישע פֿילם דאַטן אויסגעטיילט אַ פּערזענלעך אינטערעס פון נעטפליקס מיטגליד און / אָדער ראנגלענישן מיט פארשידענע העכסטע פּערזענלעך ישוז, אַרייַנגערעכנט סעקסואַליטי, גייַסטיק קראַנקייַט, אָפּזוך פון אַלקאַכאָליזאַם, און ינוואַלאַסיז פון ינסעסט, פיזיש זידלען, דינער גוואַלד, ניעף און שענדונג.
דעם בייַשפּיל ווייזט אַז עס קען זיין אינפֿאָרמאַציע וואָס עטלעכע מענטשן באַטראַכטן שפּירעוודיק ין פון וואָס קען דערשייַנען צו זיין אַ גוט דאַטאַבאַסע. ווייַטער, עס ווייזט אַז אַ הויפּט פאַרטיידיקונג וואָס ריסערטשערז ניצן צו באַשיצן שפּירעוודיק דאַטע-דע-לעגיטימאַציע-קענען פאַרלאָזן אין כידעשדיק וועגן. די צוויי געדאנקען זענען דעוועלאָפּעד אין גרעסערע דעטאַל אין קאַפּיטל 6.
די לעצטע זאַך צו האַלטן אין גלייבן וועגן שפּירעוודיק דאַטע איז אַז קאַלעקץ עס אָן מענטשן ס דערלויבעניש רייזאַז עטישע פראגעס, אַפֿילו אויב קיין ספּעציפיש שאָדן איז געפֿירט. ווי פיל וואַטשינג עמעצער גענומען אַ שפּריץ אָן זייער צושטימען זאל זיין געהאלטן אַ אָנווער פון דעם מענטש 'ס פּריוואַטקייט, קאַלעקטינג שפּירעוודיק אינפֿאָרמאַציע-און געדענקען ווי שווער עס קענען זיין צו באַשליסן וואָס איז שפּירעוודיק - אָן צושטימען קריייץ פּאָטענציעל פּריוואַטקייט קאַנסערנז. איך וועל צוריקקומען צו פֿראגן וועגן פּריוואַטקייט אין פּרק 6.
אין רעזולטאַט, גרויס דאַטן קוואלן, אַזאַ ווי רעגירונג און געשעפט אַדמיניסטראַטיווע רעקאָרדס, זענען בכלל נישט באשאפן פֿאַר דער ציל פון געזעלשאַפטלעך פאָרשונג. די גרויס דאַטע קוואלן פון הייַנט, און מסתּמא מאָרגן, טענד צו האָבן 10 קעראַקטעריסטיקס. פילע פּראָפּערטיעס וואָס זענען בכלל געראָטן פֿאַר פאָרשונג-גרויס, שטענדיק-אויף, און ניט-רעאַקטיוו-קומען פון די פאַקט אין די דיגיטאַל עלטער קאָמפּאַניעס און רעגירונגס זענען ביכולת צו זאַמלען דאַטן אין אַ וואָג וואָס איז געווען ניט מעגלעך ביז אַהער. און פילע פון די פּראָפּערטיעס אַז זענען בכלל געראטעוועט צו זיין שלעכט פֿאַר פאָרשונג-ינקאָמפּלעטע, ינאַקסעסאַבאַל, ניט-רעפּרעסענטאַטיווע, דריפטינג, אַלגערידאַמיקאַללי קאַנפאַונדיד, ינאַקסעסאַבאַל, גראָב און שפּירעוודיק - קומען פון די פאַקט אַז די דאַטן זענען נישט געזאמלט דורך ריסערטשערז פֿאַר פאָרשער. אַזוי ווייַט, איך רעדן וועגן רעגירונג און געשעפט דאַטן צוזאַמען, אָבער עס זענען עטלעכע דיפעראַנסיז צווישן די צוויי. אין מיין דערפאַרונג, רעגירונג דאַטע טענדז צו זיין ווייניקער ניט-רעפּרעסענטאַטיווע, ווייניקער אַלגערידאַמיקלי קאַנפאַונדיד, און ווייניקער דריפטינג. איינער די אנדערע האַנט, געזעלשאַפֿט אַדמיניסטראַטיווע רעקאָרדס טענד צו זיין מער שטענדיק-אויף. פארשטאנד די 10 אַלגעמיין קעראַקטעריסטיקס איז אַ נוציק ערשטער שריט צו לערנען פון גרויס דאַטן קוואלן. און איצט מיר ווענדן צו פאָרשונג סטראַטעגיעס מיר קענען נוצן מיט דעם דאַטן.