Некаторая інфармацыя , што кампаніі і ўрада адчувальна.
Медыцынскія страхавыя кампаніі маюць падрабязныя звесткі аб медыцынскай дапамогі, атрыманых іх кліентамі. Гэтая інфармацыя можа быць выкарыстана для важных даследаванняў пра здароўе, але калі гэта стала здабыткам грамадскасці, яна патэнцыйна можа прывесці да эмацыйнага шкоды (напрыклад, збянтэжанасці) або эканамічны ўрон (напрыклад, страта працы). Многія іншыя буйныя крыніцы дадзеных таксама інфармацыя, якая адчувальная, якая з'яўляецца адной з прычын , чаму яны часта недаступныя.
На жаль, гэта аказваецца даволі складана вырашыць , якая інфармацыя на самай справе адчувальная (Ohm 2015) , як гэта было паказана на Netflix Prize. Як я апішу ў главе 5, у 2006 годзе Netflix выпусціла 100 мільёнаў рэйтынгі фільмаў, прадастаўленыя амаль 500 000 членаў і мелі адкрыты выклік, дзе людзі з усяго свету, прадстаўленыя алгарытмы, якія маглі б палепшыць здольнасць Netflix, каб рэкамендаваць фільмы. Перад выпускам дадзеных, Netflix выдаленыя якія-небудзь відавочныя асабістую інфармацыю, такую як імёны. Але, усяго два тыдні пасля выхаду даных было выпушчана Эрвинд Нарайананы і Віталь Shmatikov (2008) паказалі , што можна даведацца аб рэйтынгах фільмаў канкрэтных людзей, выкарыстоўваючы трук , які я пакажу вам у главе 6. Нават калі зламыснік можа выявіць рэйтынгі фільма чалавека, там да гэтага часу, здаецца, не будзе нічога адчувальным тут. Нягледзячы на тое, што можа быць праўда, увогуле, па меншай меры, некаторыя з 500000 людзей у наборы дадзеных, рэйтынгі фільмаў былі адчувальныя. На самай справе, у адказ на вызваленне і паўторнай ідэнтыфікацыю дадзеных, замкнуўшыся жанчына лесбіянкі далучылася касцюм класа дзеянняў супраць Netflix. Вось як была выказана праблема ў гэтым судовым працэсе (Singel 2009) :
«[M] Ові і ацэнка даных змяшчае інфармацыю пра выгляд ... вельмі асабісты і канфідэнцыйны характар. Дадзеныя фільма ўдзельніка выстаўляе асабісты інтарэс для членаў Netflix і / або барацьбы з рознымі вельмі асабістымі пытаннямі, у тым ліку сэксуальнага паводзінаў, псіхічныя захворванні, акрыяння ад алкагалізму, і виктимизации ад інцэста, фізічнага гвалту, гвалту ў сям'і, распусту і згвалтаванне «.
Гэты прыклад паказвае, што можа быць інфармацыя, што некаторыя людзі лічаць адчувальныя ўнутры таго, што можа апынуцца дабраякаснай базай дадзеных. Акрамя таго, гэта паказвае, што галоўная абарона, што даследчыкі выкарыстоўваюць для абароны канфідэнцыйных дадзеных, дэ-апазнавальным можа не дзіўным чынам. Гэтыя дзве ідэі распрацоўваюцца больш падрабязна ў главе 6.
Апошняя рэч, каб мець на ўвазе, аб канфідэнцыйных дадзеных з'яўляецца тое, што збіраць яго без згоды людзей падымае этычныя пытанні, нават калі пэўная шкода не нанесена. Гэтак жа, як глядзець хтосьці прымае душ без іх згоды можа разглядацца як парушэнне недатыкальнасці прыватнага жыцця гэтай асобы, збор канфідэнцыйнай інфармацыі, і памятайце, як цяжка гэта можа быць, каб вырашыць, што з'яўляецца адчувальным без згоды стварае патэнцыйныя праблемы прыватнасці. Я вярнуся на пытанні пра асабістае жыццё ў главе 6.
У зняволенні, вялікія крыніцы дадзеных, такія як ўрадавыя і бізнес-адміністрацыйныя дакументы, як правіла, не ствараюцца з мэтай сацыяльных даследаванняў. Буйныя крыніцы дадзеных сёння, і, верагодна, заўтра, як правіла, маюць 10 характарыстык. Многія з уласцівасцяў, якія, як правіла, лічыцца добрым для навукова-вялікі, заўсёды на, і інэртны-зыходзяць з таго, у стагоддзе лічбавых тэхналогій кампаніі і ўрада могуць збіраць дадзеныя ў маштабах, не было магчыма раней. І многія з уласцівасцяў, якія, як правіла, лічацца дрэнна для навукова-няпоўных, недаступныя, нерепрезентативности, дрэйфуе, алгарытмічная пасаромлена, якую не маглі, брудны і адчувальны зыходзяць з таго, што гэтыя дадзеныя не былі сабраныя даследнікамі для даследчыкаў. Да гэтага часу я казаў пра дзяржаўныя і бізнес-дадзеных разам, але ёсць некаторыя адрозненні паміж імі. На маю вопыту, урад дадзеных маюць тэндэнцыю быць менш нерепрезентативностью, менш алгарытмічная пасаромлена, і менш неабсяжным. Адзін другога боку, бізнес-адміністрацыйныя дакументы, як правіла, больш заўсёды на. Разуменне гэтых 10 агульных характарыстык з'яўляецца карысным першым крокам на шляху да навучання з буйных крыніц дадзеных. А зараз мы пераходзім да стратэгіі пошуку можна выкарыстоўваць з гэтымі дадзенымі.