Ryzyko informacyjne jest najczęstszym ryzykiem w badaniach społecznych; dramatycznie wzrosła; i jest to najtrudniejsze ryzyko do zrozumienia.
Drugim wyzwaniem etycznym w badaniach nad cyfrowymi epizodami jest ryzyko informacyjne , które może wyrządzić szkodę w wyniku ujawnienia informacji (National Research Council 2014) . Szkodliwe informacje wynikające z ujawnienia danych osobowych mogą być ekonomiczne (np. Utrata pracy), społeczne (np. Zawstydzenie), psychologiczne (np. Depresja), a nawet przestępcze (np. Aresztowanie za nielegalne zachowanie). Niestety, epoka cyfrowa dramatycznie zwiększa ryzyko informacyjne - jest o wiele więcej informacji o naszym zachowaniu. Ryzyko informacyjne okazało się bardzo trudne do zrozumienia i zarządzania w porównaniu z ryzykami, które były przedmiotem zainteresowania w badaniach społecznych w wieku analogowym, takich jak ryzyko fizyczne.
Jednym ze sposobów, że badacze społeczni zmniejszyć ryzyko informacyjny jest "anonimizacji" danych. "Anonimizacja" to proces usuwania widocznych identyfikatorów osobistych, takich jak imię i nazwisko, adres i numer telefonu z danymi. Jednak, takie podejście jest mniej skuteczny niż się zrealizować, a to, w rzeczywistości, głęboko i zasadniczo ograniczona. Z tego powodu, gdy opisuję "anonimizacja" będę używać cudzysłowu, aby pamiętać, że proces ten stwarza wrażenie anonimowości, ale nie jest prawdą, anonimowości.
Żywy przykład niepowodzenia "anonimizacji" pochodzi z końca lat 90. w Massachusetts (Sweeney 2002) . Komisja Ubezpieczeń Grupowych (GIC) była agencją rządową odpowiedzialną za zakup ubezpieczenia zdrowotnego dla wszystkich pracowników państwowych. Dzięki tym pracom GIC zebrał szczegółową dokumentację medyczną dotyczącą tysięcy pracowników państwowych. W celu przyspieszenia badań, GIC zdecydował się udostępnić te zapisy badaczom. Jednak nie udostępnili wszystkich swoich danych; raczej "anonimizują" te dane, usuwając informacje, takie jak nazwiska i adresy. Pozostawili jednak inne informacje, które ich zdaniem mogłyby być przydatne dla badaczy, takie jak informacje demograficzne (kod pocztowy, data urodzenia, pochodzenie etniczne i płeć) oraz informacje medyczne (dane wizyty, diagnoza, procedura) (rysunek 6.4) (Ohm 2010) . Niestety, ta "anonimizacja" nie była wystarczająca do ochrony danych.
Aby zilustrować braki GIC "anonimizacji", Latanya Sweeney - wówczas absolwentka MIT-zapłaciła 20 dolarów, aby zdobyć zapisy głosowania od miasta Cambridge, miasta gubernatora stanu Massachusetts Williama Welda. Te zapisy głosowania zawierały takie informacje, jak nazwisko, adres, kod pocztowy, data urodzenia i płeć. Fakt, że plik danych medycznych i plik wyborcy udostępniał kod pocztowy, datę urodzenia i płeć, oznaczał, że Sweeney mógłby je połączyć. Sweeney wiedział, że urodziny Welda przypadają na dzień 31 lipca 1945 r., A w głosowaniu było tylko sześć osób w Cambridge z tymi urodzinami. Co więcej, z tych sześciu osób tylko trzy były płci męskiej. I, z tych trzech mężczyzn, tylko jeden wspólny kod pocztowy Spawka. W związku z tym dane z głosowania pokazały, że ktoś w danych medycznych z kombinacją daty urodzenia, płci i kodu pocztowego Welda był William Weld. W istocie te trzy informacje dostarczały mu w danych niepowtarzalny odcisk palca . Wykorzystując ten fakt, Sweeney zdołał zlokalizować dokumentację medyczną Welda i, aby poinformować go o swoim wyczynie, przesłała mu kopię swoich zapisów (Ohm 2010) .
Praca Sweeneya ilustruje podstawową strukturę ataków ponownej identyfikacji - aby przyjąć termin ze społeczności bezpieczeństwa komputerowego. W tych atakach dwa zbiory danych, z których żaden sam w sobie nie ujawnia poufnych informacji, są ze sobą powiązane, a dzięki temu połączeniu wrażliwe informacje są narażone.
W odpowiedzi na pracę Sweeneya i inne związane z nią prace, badacze obecnie generalnie usuwają o wiele więcej informacji - wszystkie tak zwane "informacje identyfikujące osobę" (PII) (Narayanan and Shmatikov 2010) w trakcie procesu "anonimizacji". Ponadto wielu badaczy teraz zdajemy sobie sprawę, że niektóre dane - takie jak dokumentacja medyczna, zapisy finansowe, odpowiedzi na pytania ankietowe dotyczące nielegalnych zachowań - są prawdopodobnie zbyt wrażliwe na uwolnienie nawet po "anonimizacji". Jednak przykłady, które mam zamiar przekazać sugerują, że badacze społeczni potrzebują zmienić ich sposób myślenia. Pierwszym krokiem jest założenie, że wszystkie dane są potencjalnie identyfikowalne, a wszystkie dane są potencjalnie newralgiczne. Innymi słowy, zamiast myśleć, że ryzyko informacyjne dotyczy niewielkiego podzbioru projektów, należy założyć, że odnosi się - w pewnym stopniu - do wszystkich projektów.
Oba aspekty tej reorientacji zostały zilustrowane Nagrodą Netflix. Jak opisano w rozdziale 5, serwis Netflix opublikował 100 milionów ocen filmów dostarczonych przez prawie 500 000 członków i miał otwarty telefon, w którym ludzie z całego świata przesłali algorytmy, które mogą poprawić zdolność serwisu Netflix do polecania filmów. Przed zwolnieniem danych serwis Netflix usunął wszelkie oczywiste informacje umożliwiające identyfikację osoby, takie jak nazwiska. Zrobili też dodatkowy krok i wprowadzili nieznaczne zaburzenia w niektórych zapisach (np. Zmiana niektórych ocen z 4 gwiazd na 3 gwiazdki). Wkrótce odkryli jednak, że mimo ich wysiłków dane nadal nie były anonimowe.
Zaledwie dwa tygodnie po opublikowaniu danych Arvind Narayanan i Vitaly Shmatikov (2008) pokazali, że można poznać preferencje filmowe konkretnych osób. Sztuczka do ich ataku na ponowną identyfikację była podobna do Sweeneya: połączyć ze sobą dwa źródła informacji, jeden z potencjalnie wrażliwymi informacjami i bez oczywistych informacji identyfikujących i zawierający tożsamości ludzi. Każde z tych źródeł danych może być indywidualnie bezpieczne, ale gdy zostaną połączone, scalony zestaw danych może stworzyć ryzyko informacyjne. W przypadku danych Netflix, oto jak to może się stać. Wyobraź sobie, że podzielę się moimi przemyśleniami na temat akcji i filmów komediowych z moimi współpracownikami, ale wolę nie dzielić się moją opinią na temat filmów religijnych i politycznych. Moi współpracownicy mogliby wykorzystać informacje, które im udostępniłem, aby znaleźć moje dane w danych Netflix; Informacje, które udostępniam, mogą stanowić unikalny odcisk palca, podobnie jak data urodzenia Williama Welda, kod pocztowy i płeć. Następnie, jeśli znajdą w danych swój unikatowy odcisk palca, będą mogli poznać moje oceny wszystkich filmów, w tym filmów, których nie udostępniam. Oprócz tego ukierunkowanego ataku skoncentrowanego na pojedynczej osobie, Narayanan i Shmatikov pokazali również, że możliwe było przeprowadzenie szerokiego ataku - z udziałem wielu osób - poprzez połączenie danych Netflix z danymi oceny osobistej i filmu, które niektórzy ludzie wybrali. do publikowania w internetowej bazie danych filmów (IMDb). Po prostu każda informacja, która jest unikalnym odciskiem palca danej osoby - nawet ich zestaw ocen filmów - może być użyta do ich identyfikacji.
Mimo że dane Netflix można ponownie zidentyfikować w ukierunkowanym lub szerokim ataku, nadal może wydawać się, że jest to niewielkie ryzyko. W końcu oceny filmów nie wydają się zbyt delikatne. Chociaż może to być prawda ogólnie dla niektórych z 500 000 osób w zestawie danych, oceny filmów mogą być dość wrażliwe. W rzeczywistości, w odpowiedzi na ponowną identyfikację, zamknięta lesbijka dołączyła do pozwu zbiorowego przeciwko Netflix. Oto jak problem został wyrażony w ich pozwie (Singel 2009) :
"[M] o i dane oceny zawierają informacje o bardzo osobistym i wrażliwym charakterze. Dane filmowe członka narażają osobisty interes członka Netflix i / lub zmagają się z różnymi osobistymi problemami, takimi jak seksualność, choroba psychiczna, wyzdrowienie z alkoholizmu i wiktymizacja z powodu kazirodztwa, przemocy fizycznej, przemocy domowej, cudzołóstwa i gwałtu ".
Ponowna identyfikacja danych Netflix Prize pokazuje, że wszystkie dane są potencjalnie identyfikowalne i że wszystkie dane są potencjalnie wrażliwe. W tym momencie możesz myśleć, że odnosi się to tylko do danych, które mają być o ludziach. Co zaskakujące, tak nie jest. W odpowiedzi na żądanie ustawy o swobodzie informacji, rząd nowojorski opublikował zapisy dotyczące każdej jazdy taksówką w Nowym Jorku w 2013 r., W tym czasy i miejsca odbioru i odlotów, oraz opłaty za przewóz (przypomnij z rozdziału 2, że Farber (2015) używał podobnych danych, by przetestować ważne teorie w ekonomii pracy). Te dane o podróżach taksówkami mogą wydawać się łagodne, ponieważ nie wydają się dostarczać informacji o ludziach, ale Anthony Tockar zdał sobie sprawę, że ten zbiór danych taksówek rzeczywiście zawierał wiele potencjalnie poufnych informacji o ludziach. Aby to zilustrować, przyglądał się wszystkim podróżom rozpoczynającym się w klubie Hustler - dużym klubie ze striptizem w Nowym Jorku - między północą a 6 rano, a następnie znalazł swoje miejsca do opuszczenia. Poszukiwania te ujawniły - w istocie - listę adresów niektórych osób, które często odwiedzały Klub Hustlera (Tockar 2014) . Trudno sobie wyobrazić, że rząd miasta miał to na myśli, gdy publikował dane. W rzeczywistości ta sama technika może być wykorzystana do znalezienia adresów domowych osób, które odwiedzają jakiekolwiek miejsce w mieście - kliniki medycznej, budynku rządowego lub instytucji religijnej.
Te dwa przypadki nagród Netflix i danych taksówkowych w Nowym Jorku pokazują, że stosunkowo wprawni ludzie nie potrafią poprawnie oszacować ryzyka informacyjnego w publikowanych przez siebie danych - a te przypadki w żadnym wypadku nie są unikalne (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ponadto w wielu takich przypadkach problematyczne dane są nadal dostępne bezpłatnie w Internecie, co wskazuje na trudności w cofnięciu wydania danych. Podsumowując, te przykłady - a także badania z zakresu informatyki na temat prywatności - prowadzą do ważnego wniosku. Badacze powinni założyć, że wszystkie dane są potencjalnie identyfikowalne, a wszystkie dane są potencjalnie newralgiczne.
Niestety, nie ma prostego rozwiązania faktów, że wszystkie dane są potencjalnie identyfikowalne i że wszystkie dane są potencjalnie wrażliwe. Jednak jednym ze sposobów zmniejszenia ryzyka informacyjnego podczas pracy z danymi jest utworzenie i przestrzeganie planu ochrony danych . Ten plan zmniejszy prawdopodobieństwo wycieku danych i zmniejszy szkodę, jeśli jakiś wyciek w jakiś sposób wystąpi. Specyfika planów ochrony danych, takich jak forma szyfrowania, z czasem ulegnie zmianie, ale brytyjskie usługi danych pomagają w zorganizowaniu elementów planu ochrony danych w pięć kategorii, które nazywają pięcioma sejfami : bezpieczne projekty, bezpieczni ludzie , bezpieczne ustawienia, bezpieczne dane i bezpieczne wyjścia (tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Żaden z pięciu sejfów nie zapewnia indywidualnej ochrony. Ale razem tworzą potężny zestaw czynników, które mogą zmniejszyć ryzyko informacyjne.
Bezpieczny | Akcja |
---|---|
Bezpieczne projekty | Ogranicza projekty z danymi do tych, które są etyczne |
Bezpieczni ludzie | Dostęp jest ograniczony do osób, którym można zaufać danych (np. Osób, które przeszły szkolenie etyczne) |
Bezpieczne dane | Dane są identyfikowane i agregowane w możliwym zakresie |
Bezpieczne ustawienia | Dane są przechowywane na komputerach z odpowiednią ochroną fizyczną (np. Zamkniętym pomieszczeniem) i oprogramowaniem (np. Ochrona hasłem, szyfrowanie) |
Bezpieczne wyjście | Wyniki badań są sprawdzane, aby zapobiec przypadkowym naruszeniom prywatności |
Oprócz ochrony danych podczas korzystania z nich, jednym z etapów procesu badawczego, w którym ryzyko informacyjne jest szczególnie istotne, jest udostępnianie danych innym badaczom. Wymiana danych między naukowcami jest podstawową wartością starań naukowych i znacznie ułatwia rozwój wiedzy. Oto jak brytyjska Izba Gmin opisała znaczenie udostępniania danych (Molloy 2011) :
"Dostęp do danych ma zasadnicze znaczenie, jeśli naukowcy mają odtwarzać, weryfikować i wykorzystywać wyniki, które są zgłaszane w literaturze. Domniemanie musi polegać na tym, że jeżeli nie ma wyraźnego powodu, dane powinny być w pełni ujawnione i udostępnione publicznie. "
Jednak dzieląc się danymi z innym badaczem, możesz zwiększyć ryzyko informacyjne dla swoich uczestników. Może się więc wydawać, że udostępnianie danych tworzy fundamentalne napięcie między obowiązkiem udostępniania danych innym naukowcom a obowiązkiem minimalizowania ryzyka informacyjnego dla uczestników. Na szczęście ten dylemat nie jest tak poważny, jak się wydaje. Przeciwnie, lepiej jest myśleć o dzieleniu się danymi jako o kontinuum, przy czym każdy punkt tego continuum zapewnia inną mieszankę korzyści dla społeczeństwa i ryzyko dla uczestników (rysunek 6.6).
Na jednym krańcu możesz udostępniać swoje dane nikomu, co minimalizuje ryzyko dla uczestników, ale także minimalizuje zyski dla społeczeństwa. Z drugiej strony można zwolnić i zapomnieć , gdzie dane są "anonimizowane" i publikowane dla wszystkich. W odniesieniu do nieudzielania danych, zwolnienie i zapomnienie oferuje zarówno większe korzyści dla społeczeństwa, jak i większe ryzyko dla uczestników. Pomiędzy tymi dwoma skrajnymi przypadkami znajduje się szereg hybryd, w tym to, co nazwałbym podejściem do ogrodu otoczonego murem . Zgodnie z tym podejściem, dane są udostępniane osobom, które spełniają określone kryteria i które zgadzają się na przestrzeganie pewnych zasad (np. Nadzór z IRB i plan ochrony danych). Podejście do ogrodu otoczone murem zapewnia wiele korzyści wynikających z uwolnienia i zapomnienia przy mniejszym ryzyku. Takie podejście stwarza oczywiście wiele pytań - kto powinien mieć dostęp, pod jakimi warunkami i na jak długo, kto powinien płacić, aby utrzymywać i nadzorować murem ogród itp. - ale nie są one nie do pokonania. W rzeczywistości istnieją już działające ogrody z murami, które naukowcy mogą teraz wykorzystać, takie jak archiwum danych Międzyuczelnianego Konsorcjum ds. Badań Politycznych i Społecznych na Uniwersytecie w Michigan.
Gdzie zatem powinny się znaleźć dane z twojego badania na temat ciągłego braku dzielenia się, ogrodzony ogród i uwolnienia i zapomnienia? To zależy od szczegółów twoich danych: naukowcy muszą zrównoważyć Szacunek dla Osób, Miłosierdzia, Sprawiedliwości i Szacunku dla Prawa i Interesu Publicznego. Z tego punktu widzenia udostępnianie danych nie jest charakterystyczną zagadką etyczną; to tylko jeden z wielu aspektów badań, w których naukowcy muszą znaleźć odpowiednią równowagę etyczną.
Niektórzy krytycy są na ogół przeciwni dzieleniu się danymi, ponieważ, moim zdaniem, koncentrują się na ryzyku - które jest bez wątpienia realne - i ignorują jego korzyści. Aby zachęcić do koncentracji na ryzyku i korzyściach, chciałbym zaproponować analogię. Każdego roku samochody są odpowiedzialne za tysiące ofiar śmiertelnych, ale nie próbujemy zakazać jazdy. W rzeczywistości, wezwanie do zakazu jazdy byłoby absurdem, ponieważ prowadzenie samochodu umożliwia wiele wspaniałych rzeczy. Zamiast tego, społeczeństwo nakłada ograniczenia na to, kto może prowadzić (np. Na potrzebę pewnego wieku i na pewne testy) i na to, jak mogą prowadzić (np. Pod ograniczeniem prędkości). Społeczeństwo ma także ludzi, których zadaniem jest egzekwowanie tych zasad (np. Policja), a my karamy ludzi, którzy zostali przyłapani na ich łamaniu. Takie samo zrównoważone myślenie, jakie społeczeństwo stosuje do regulacji jazdy, może być również stosowane do udostępniania danych. Oznacza to, że zamiast dokonywać absolutystycznych argumentów za lub przeciw dzieleniu się danymi, myślę, że zrobimy największy postęp, skupiając się na tym, jak możemy zmniejszyć ryzyko i zwiększyć korzyści z udostępniania danych.
Podsumowując, ryzyko informacyjne gwałtownie wzrosło i jest bardzo trudne do przewidzenia i określenia ilościowego. Dlatego najlepiej jest założyć, że wszystkie dane są potencjalnie identyfikowalne i potencjalnie wrażliwe. Aby zmniejszyć ryzyko informacyjne podczas prowadzenia badań, naukowcy mogą tworzyć i stosować plan ochrony danych. Ponadto ryzyko informacyjne nie przeszkadza naukowcom w dzieleniu się danymi z innymi naukowcami.