Niektoré z informácií, ktoré podniky a vlády je citlivý.
Zdravotné poisťovne majú podrobné informácie o lekárskej starostlivosti, ktorú dostávajú ich zákazníci. Tieto informácie by sa mohli použiť na dôležitý výskum v oblasti zdravia, ale ak by sa stali verejnými, mohlo by to viesť k emocionálnemu poškodeniu (napr. Rozpaky) alebo ekonomickej ujme (napr. Mnohé ďalšie veľké zdroje údajov majú citlivé informácie , čo je aj dôvod, prečo sú často nedostupné.
Bohužiaľ sa ukazuje, že je dosť zložité rozhodnúť sa, aké informácie sú skutočne citlivé (Ohm 2015) , ako to ilustrovala cena Netflix. Ako budem opísať v kapitole 5, Netflix v roku 2006 vydal 100 miliónov filmových hodnotení, ktoré poskytlo takmer 500 000 členov a otvoril hovor, kde ľudia z celého sveta predložili algoritmy, ktoré by mohli zlepšiť schopnosť spoločnosti Netflix doporučovať filmy. Pred uvoľnením údajov spoločnosť Netflix odstránila akékoľvek zjavné osobné informácie, napríklad názvy. Len dva týždne po prepustení údajov Arvind Narayanan a Vitaly Shmatikov (2008) ukázali, že bolo možné dozvedieť sa o hodnoteniach konkrétnych ľudí pomocou triku, ktorý vám ukážem v kapitole 6. Aj keď by útočník mohol objaviť osobných filmových hodnotení, stále tu nie je nič citlivé. Aj keď to môže byť pravda vo všeobecnosti, aspoň niektoré z 500 000 ľudí v súbore údajov boli hodnotenia filmov citlivé. V skutočnosti, v reakcii na uvoľnenie a opätovné identifikovanie údajov, uzavretá lesbická žena sa pripojila k tribunálnemu žalobu proti spoločnosti Netflix. Tu je vysvetlenie problému v tomto súdnom spore (Singel 2009) :
"[M] ovie a ratingové údaje obsahujú informácie ... veľmi osobnej a citlivej povahy. Filmové údaje člena odhaľujú osobný záujem člena Netflixu a / alebo zápasia s rôznymi osobnými problémami vrátane sexuality, duševnej choroby, zotavovania z alkoholizmu a viktimizácie z incestu, fyzického násilia, domáceho násilia, cudzoložstva a znásilnenia. "
Tento príklad ukazuje, že môžu existovať informácie, ktoré niektorí ľudia považujú za citlivú vo vnútri toho, čo sa môže zdať ako nepriaznivá databáza. Ďalej ukazuje, že hlavná obrana, ktorú výskumníci využívajú na ochranu citlivých údajov - identifikácie - môže prekvapivo zlyhať. Tieto dve myšlienky sú podrobnejšie rozpracované v kapitole 6.
Posledná vec, ktorú treba mať na pamäti citlivých údajov, je to, že ich zhromažďovanie bez súhlasu ľudí vyvoláva etické otázky, aj keď nie sú spôsobené žiadne konkrétne škody. Podobne ako sledovanie niekoho, kto by mal bez svojho súhlasu, by mohol byť považovaný za porušenie súkromia tejto osoby, zhromažďovanie citlivých informácií - a pamätajte si, ako ťažké rozhodnúť o tom, čo je citlivé - bez súhlasu vytvára potenciálne problémy týkajúce sa ochrany osobných údajov. V kapitole 6 sa vrátim k otázkam o ochrane osobných údajov.
Záverom, veľké zdroje údajov, ako napríklad vládne a podnikateľské administratívne záznamy, sa vo všeobecnosti nevytvárajú na účely sociálneho výskumu. Veľké dnešné zdroje údajov a pravdepodobne zajtra majú sklon mať 10 charakteristík. Mnohé vlastnosti, ktoré sú všeobecne považované za dobré pre výskum - veľké, stále a nereaktívne - pochádzajú zo skutočnosti, že spoločnosti digitálneho veku a vlády sú schopné zhromažďovať údaje v mierke, ktorá nebola predtým možná. A veľa vlastností, ktoré sú všeobecne považované za zlé pre výskum - neúplné, neprístupné, nereprezentatívne, unášané, algoritmicky zmätené, neprístupné, špinavé a citlivé - pochádzajú zo skutočnosti, že tieto údaje neboli zhromaždené výskumníkmi pre výskumníkov. Zatiaľ som hovoril o štátnych a obchodných údajoch spoločne, existujú však určité rozdiely medzi týmito dvoma. Podľa mojich skúseností vládne údaje majú tendenciu byť menej nereprezentatívne, menej algoritmicky zmätené a menej unášané. Na druhej strane, obchodné administratívne záznamy majú tendenciu byť stále častejšie. Pochopenie týchto 10 všeobecných charakteristík je užitočným prvým krokom k učeniu sa z veľkých zdrojov údajov. A teraz sa pozrieme na výskumné stratégie, ktoré môžeme použiť s týmito údajmi.