Niektóre informacje, że firmy i rządy jest wrażliwy.
Zakłady ubezpieczeń zdrowotnych mają szczegółowe informacje na temat opieki medycznej otrzymywanej przez ich klientów. Informacje te mogą zostać wykorzystane do ważnych badań dotyczących zdrowia, ale jeśli staną się publiczne, może to potencjalnie prowadzić do szkód emocjonalnych (np. Zawstydzenia) lub szkód gospodarczych (np. Utraty zatrudnienia). Wiele innych dużych źródeł danych ma również informacje, które są poufne , co jest jednym z powodów, dla których są one często niedostępne.
Niestety, bardzo trudno jest zdecydować, które informacje są rzeczywiście wrażliwe (Ohm 2015) , co zostało zilustrowane Nagrodą Netflix. Jak to opisuję w rozdziale 5, w 2006 roku Netflix opublikował 100 milionów ocen filmów dostarczonych przez prawie 500 000 członków i miał otwarte połączenie, w którym ludzie z całego świata przesłali algorytmy, które mogą poprawić zdolność Netflix do polecania filmów. Przed zwolnieniem danych serwis Netflix usunął wszelkie oczywiste informacje umożliwiające identyfikację osoby, takie jak nazwiska. Ale zaledwie dwa tygodnie po opublikowaniu danych Arvind Narayanan i Vitaly Shmatikov (2008) pokazali, że można dowiedzieć się o ocenach filmów konkretnych osób za pomocą podstępu, który pokażę w rozdziale 6. Nawet jeśli napastnik może odkryć oceny filmów danej osoby, nadal nie ma tu nic wrażliwego. Chociaż może to być prawda w ogóle, przynajmniej dla niektórych z 500 000 osób w zestawie danych, oceny filmów były wrażliwe. W rzeczywistości, w odpowiedzi na zwolnienie i ponowną identyfikację danych, zamknięta lesbijka dołączyła do pozwu zbiorowego przeciwko Netflix. Oto, w jaki sposób problem został wyrażony w tym pozwie (Singel 2009) :
"[M] o i dane oceny zawierają informacje o bardzo osobistym i wrażliwym charakterze. Dane filmowe członka narażają osobisty interes członka Netflix i / lub zmagają się z różnymi osobistymi problemami, takimi jak seksualność, choroba psychiczna, wyzdrowienie z alkoholizmu i wiktymizacja z powodu kazirodztwa, przemocy fizycznej, przemocy domowej, cudzołóstwa i gwałtu ".
Ten przykład pokazuje, że mogą istnieć informacje, które niektórzy uważają za poufne wewnątrz tego, co może wydawać się być łagodną bazą danych. Co więcej, pokazuje to, że główna obrona, którą badacze stosują w celu ochrony wrażliwych danych-de-identyfikacji, może zawieść w zaskakujący sposób. Te dwie koncepcje zostały bardziej szczegółowo rozwinięte w rozdziale 6.
Ostateczną rzeczą, o której należy pamiętać w przypadku danych wrażliwych, jest to, że zbieranie ich bez zgody ludzi rodzi pytania etyczne, nawet jeśli nie wyrządza się żadnej konkretnej szkody. Podobnie jak obserwowanie kogoś, kto bierze prysznic bez jego zgody, może być uznane za naruszenie prywatności tej osoby, gromadzenie poufnych informacji - i pamiętać, jak trudno jest zdecydować, co jest wrażliwe - bez zgody stwarza potencjalne obawy dotyczące prywatności. Powrócę do pytań dotyczących prywatności w rozdziale 6.
Podsumowując, duże źródła danych, takie jak administracja rządowa i rejestry administracyjne, generalnie nie są tworzone do celów badań społecznych. Dzisiejsze duże źródła danych i prawdopodobnie jutro mają zwykle 10 cech. Wiele właściwości, które ogólnie uważa się za dobre dla badań - duże, zawsze aktywne i niereaktywne - wynikają z faktu, że przedsiębiorstwa i rządy cyfrowe mogą gromadzić dane w skali, która wcześniej nie była możliwa. Wiele właściwości, które ogólnie uważa się za złe dla badań - niekompletne, niedostępne, niereprezentatywne, dryfujące, algorytmicznie mylone, niedostępne, brudne i wrażliwe - wynikają z faktu, że dane te nie zostały zebrane przez naukowców dla badaczy. Jak dotąd rozmawiałem o danych rządowych i biznesowych, ale są między nimi pewne różnice. Z mojego doświadczenia wynika, że dane rządowe wydają się być mniej niereprezentatywne, mniej zawiłe algorytmicznie i mniej dryfujące. Z drugiej strony rejestry administracyjne przedsiębiorstw są bardziej aktualne. Zrozumienie tych 10 ogólnych cech jest pomocnym pierwszym krokiem w kierunku uczenia się z dużych źródeł danych. Teraz przechodzimy do strategii badawczych, z których możemy korzystać przy tych danych.