Některé z informací, které podniky a vlády je citlivý.
Zdravotní pojišťovny mají podrobné informace o lékařské péči, kterou dostávají jejich zákazníci. Tyto informace by mohly být použity k důležitému výzkumu o zdraví, ale pokud by se stal veřejným, mohlo by to vést k emocionálnímu poškození (např. K rozpakům) nebo k ekonomické újmě (např. Ke ztrátě zaměstnání). Mnoho dalších velkých zdrojů dat má také citlivé informace , což je také důvod, proč jsou často nepřístupné.
Bohužel se zdá být docela složité rozhodnout, jaká informace je skutečně citlivá (Ohm 2015) , jak ukázala cena Netflix. Jak jsem popsal v kapitole 5, Netflix v roce 2006 vydal 100 milionů filmových hodnocení poskytovaných téměř 500 000 členy a měl otevřený hovor, kdy lidé z celého světa předali algoritmy, které by mohly zlepšit schopnost Netflix doporučovat filmy. Před uvolněním dat společnost Netflix odstranila veškeré zjevné osobní identifikační údaje, například jména. Jen dva týdny poté, co byly údaje propuštěny, Arvind Narayanan a Vitaly Shmatikov (2008) ukázali, že bylo možné se naučit o hodnocení konkrétních lidí pomocí triku, který vám ukážeme v kapitole 6. I když útočník mohl objevit osobních hodnocení filmů, stále se zde nezdá být nic citlivého. Zatímco to může být obecně pravdivé, alespoň u některých z 500 000 lidí v datovém souboru byly hodnocení filmů citlivé. Ve skutečnosti, v reakci na uvolnění a opětovnou identifikaci dat, uzavřená lesbická žena se připojila k žalobě proti třídě proti Netflixu. Zde je vysvětlení problému v tomto soudním sporu (Singel 2009) :
"[M] ovie a ratingová data obsahují informace o ... vysoce osobní a citlivé povaze. Filmové údaje člena odhalují osobní zájem člena Netflixu a / nebo bojují s různými vysoce osobními problémy, včetně sexuality, duševní choroby, zotavení z alkoholismu a viktimizace z incestu, fyzického násilí, domácího násilí, cizoložství a znásilnění. "
Tento příklad ukazuje, že mohou existovat informace, které někteří lidé považují za citlivé uvnitř toho, co se může jevit jako neškodná databáze. Dále ukazuje, že hlavní obrana, kterou výzkumní pracovníci používají k ochraně citlivých identifikačních údajů, může překvapivě selhat. Tyto dvě myšlenky jsou podrobněji rozpracovány v kapitole 6.
Poslední věc, kterou je třeba mít na paměti v citlivých datech, je to, že shromažďování údajů bez souhlasu lidí vyvolává etické otázky, i když není způsobena žádná konkrétní újma. Stejně jako sledování někoho, kdo se bez jejich souhlasu osprchoval, by mohl být považován za porušení soukromí dané osoby, shromažďování citlivých informací - a pamatovat si, jak těžké může být rozhodovat o tom, co je citlivé - bez souhlasu vytváří potenciální obavy o soukromí. Vrátit se k otázkám ohledně soukromí v kapitole 6.
Závěrem lze konstatovat, že velké zdroje dat, například vládní a obchodní administrativní záznamy, nejsou obecně vytvořeny pro účely sociálního výzkumu. Velké dnešní zdroje dat a pravděpodobné zítřka mají obvykle 10 charakteristik. Mnoho vlastností, které jsou obecně považovány za dobré pro výzkum - velké, neustále a neustále - pocházejí ze skutečnosti, že podniky digitálního věku a vlády jsou schopny shromažďovat data v měřítku, který nebyl dříve možný. A mnoho vlastností, které jsou obecně považovány za špatné pro výzkum - neúplné, nepřístupné, nereprezentativní, unášené, algoritmicky zmatené, nepřístupné, špinavé a citlivé - pocházejí ze skutečnosti, že tyto údaje nebyly shromážděny výzkumnými pracovníky pro výzkumné pracovníky. Zatím jsem mluvil o vládních a obchodních údajích dohromady, ale mezi těmito dvěma existují určité rozdíly. Podle mých zkušeností vládní údaje mají tendenci být méně nereprezentativní, méně algoritmicky zmatené a méně unášené. Na druhou stranu obchodní administrativní záznamy mají tendenci být stále více. Pochopení těchto 10 obecných charakteristik je užitečným prvním krokem k učení z velkých zdrojů dat. A nyní se zaměřujeme na výzkumné strategie, které můžeme s těmito daty použít.