Daļa no informācijas, kas uzņēmumiem un valdībām ir ir jutīgs.
Veselības apdrošināšanas kompānijām ir detalizēta informācija par viņu klientu saņemto medicīnisko aprūpi. Šo informāciju varētu izmantot svarīgam pētījumam par veselību, bet, ja tas kļuvis publiski, tas varētu izraisīt emocionālu kaitējumu (piemēram, apgrūtinājumu) vai ekonomisku kaitējumu (piemēram, nodarbinātības zudumu). Daudziem citiem lieliem datu avotiem ir arī jutīga informācija , kas ir daļa no iemesla, kādēļ tie bieži ir nepieejami.
Diemžēl izrādās, ka ir diezgan grūti izlemt, kura informācija patiešām ir sensitīva (Ohm 2015) , kā to ilustrē Netflix balva. Kā es to aprakstīšu 5. nodaļā, 2006. gadā Netflix izlaida 100 miljonus filmu reitingu, ko nodrošināja gandrīz 500 000 dalībnieku, un tiem bija atklāts izsaukums, kurā cilvēki no visas pasaules iesniedza algoritmus, kas varētu uzlabot Netflix spēju ieteikt filmas. Pirms datu izdošanas Netflix noņēma jebkādu acīmredzamu personīgi identificējošu informāciju, piemēram, vārdus. Bet tikai divas nedēļas pēc datu izdošanas Arvinds Narayanan un Vitālijs Šmatikovs (2008) parādīja, ka bija iespējams uzzināt par konkrētu cilvēku filmu vērtējumus, izmantojot triku, kuru es parādīšu 6. nodaļā. Pat ja uzbrucējs varētu atklāt cilvēka filmu vērtējumi, šeit joprojām nekas nav jūtams. Kaut gan tas varētu būt taisnība kopumā, vismaz daži no 500 000 cilvēku datu kopas filmu vērtējumi bija jutīgi. Faktiski, atbildot uz datu izlaišanu un atkārtotu identifikāciju, cieši noslēgta lesbietes sieviete pievienojās klases prasību pret Netflix. Lūk, kā šī problēma tika izteikta šajā tiesas prāvā (Singel 2009) :
"[M] ovie un reitinga dati satur informāciju par ... ļoti personisku un jutīgu raksturu. Dalībnieka filmas dati atklāj Netflix locekļa personīgo interesi un / vai cīņas ar dažādiem ļoti personīgiem jautājumiem, tostarp seksualitāti, garīgajām slimībām, atgūšanos pret alkoholismu un viktimizāciju no incest, fizisku vardarbību, vardarbību ģimenē, laulības pārkāpšanu un izvarošanu. "
Šis piemērs parāda, ka var būt informācija, ko daži cilvēki uzskata par sensitīvu datu bāzi. Turklāt tas parāda, ka galvenā aizsardzība, ko pētnieki izmanto, lai aizsargātu sensitīvus datus, novērstu identifikāciju, var izrādīties pārsteidzoši. Šīs divas idejas ir sīkāk izstrādātas 6. nodaļā.
Pēdējais lieta, kas jāpatur prātā par konfidenciāliem datiem, ir tāda, ka, vācot to bez cilvēku piekrišanas, rodas ētiskie jautājumi, pat ja tas nerada īpašu kaitējumu. Daudz, piemēram, vērojot, ka kāds dušā bez viņu piekrišanas varētu uzskatīt par šīs personas privātuma pārkāpumu, apkopojot slepeno informāciju, un atcerieties, cik grūti ir izlemt, kas ir jūtīgs, bez atļaujas rada potenciālas bažas par privātumu. Es atgriezīšos uz jautājumiem par konfidencialitāti 6. nodaļā.
Noslēgumā lielie datu avoti, piemēram, valdības un uzņēmējdarbības administratīvie ieraksti, parasti nav izveidoti sociālās izpētes nolūkos. Lielie datu avoti šodien, un, iespējams, rīt, parasti ir 10 pazīmes. Daudzas no īpašībām, kuras parasti tiek uzskatītas par labām pētniecībai - lielas, vienmēr pastāvīgas un nereaģējošas - nāk no fakta digitālajā laikmetā, un uzņēmumi un valdības spēj apkopot datus tādā mērogā, kas iepriekš nebija iespējams. Daudzas no īpašībām, kuras parasti tiek uzskatītas par sliktu pētījumiem - nepilnīgi, nepieejami, nereprezentatīvi, dreifējoši, algoritmiski sajaukti, nepieejami, netīri un jutīgi, izriet no fakta, ka pētnieki nav savākuši šos datus pētniekiem. Līdz šim esmu runājis par valdības un biznesa datiem kopā, taču starp tām pastāv dažas atšķirības. Pēc manas pieredzes valdības dati parasti ir mazāk reprezentatīvi, mazāk algoritmiski sajaukti un mazāk novirzoši. No otras puses, uzņēmējdarbības administratīvie ieraksti parasti ir biežāk. Izpratne par šīm 10 vispārīgajām īpašībām ir noderīgs pirmais solis ceļā uz mācīšanos no lieliem datu avotiem. Un tagad mēs vēršamies pie pētniecības stratēģijām, kuras mēs varam izmantot ar šiem datiem.