Некаторая інфармацыя , што кампаніі і ўрада адчувальна.
Медыцынскія страхавыя кампаніі падрабязную інфармацыю аб медыцынскай дапамогі, атрыманай іх кліентамі. Гэтая інфармацыя можа быць выкарыстана для важных даследаванняў пра здароўе, але калі яна стала здабыткам грамадскасці яна патэнцыйна можа прывесці да эмацыйнага шкоды (напрыклад, збянтэжанасці) і эканамічнага ўрону (напрыклад, страта працы). Далёка ад адметных, многіх буйных крыніц дадзеных ёсць інфармацыя, якая адчувальная. Няпросты характар гэтай інфармацыі з'яўляецца часткай той прычыне , што вялікія крыніцы дадзеных часта недаступныя (апісана вышэй).
Адзін са спосабаў, што даследчыкі спрабуюць справіцца з гэтай сітуацыяй з'яўляецца дэ-вызначыць наборы дадзеных, якія маюць канфідэнцыйную інфармацыю. Але, як я пакажу падрабязна ў главе 6 (этыка), гэты падыход сур'ёзна абмежаваны такімі спосабамі, якія не зьяўляюцца шырока цэніцца як сацыяльнымі навукоўцамі і навукоўцамі дадзеных.
У заключэнне адзначым, што вялікія крыніцы дадзеных сёння (і заўтра), як правіла, дзесяць характарыстык. Многія з добрых уласцівасцяў-вялікіх, заўсёды-на, і нереакционноспособные-зыходзяць з таго, у стагоддзе лічбавых тэхналогій кампаніі і ўрада могуць збіраць дадзеныя ў маштабе, што было немагчыма раней. І многія з дрэнных уласцівасцяў-няпоўнай, недаступнай, нерепрезентативного, Дрыфтынг, алгарытмічных брыдка ім, недаступнае, брудны і адчувальнай зыходзяць з таго, што дадзеныя не збіраюцца даследчыкамі для даследчыкаў. Разуменне гэтых характарыстык з'яўляюцца неабходным першым крокам да навучання з вялікіх аб'ёмаў дадзеных. І зараз мы пераходзім да стратэгіі даследаванняў мы можам выкарыстоўваць з гэтымі дадзенымі.