Osa tiedoista, että yritykset ja hallitukset ovat on herkkä.
Sairausvakuutusyhtiöillä on yksityiskohtaiset tiedot asiakkaiden saamasta sairaanhoidosta. Näitä tietoja voitaisiin käyttää terveyteen liittyvään tärkeään tutkimukseen, mutta jos se julkistettaisiin, se voisi mahdollisesti aiheuttaa tunteita sisältäviä haittoja (esim. Hämmennystä) tai taloudellisia haittoja (esim. Työpaikan menetys). Monilla muilla suurilla tietolähteillä on myös arkaluonteisia tietoja , jotka ovat osa sitä syytä, miksi ne ovat usein saavuttamattomia.
Valitettavasti on hankalaa päättää, mitkä tiedot ovat todella herkkiä (Ohm 2015) , kuten Netflix-palkinto kuvasi. Kuten kuvataan luvussa 5, vuonna 2006 Netflix julkaisi 100 miljoonaa elokuvan luokitusta, jonka lähes 500 000 jäsentä toimitti ja kävi avoimen puhelun, jossa ihmiset kaikkialta maailmasta lähettivät algoritmeja, jotka voisivat parantaa Netflixin suosimista elokuville. Ennen tietojen luovuttamista Netflix poisti kaikki ilmeiset henkilökohtaiset tunnistetiedot, kuten nimet. Kuitenkin vain kaksi viikkoa julkaisun jälkeen Arvind Narayanan ja Vitaly Shmatikov (2008) osoittivat, että oli mahdollista oppia tiettyjen ihmisten elokuvateoksista käyttäen temppua, jonka näytän sinulle luvussa 6. Vaikka hyökkääjä voisi löytää henkilön elokuvamallit, silti ei näytä olevan mitään herkkä täällä. Vaikka tämä saattaa olla totta yleisesti, ainakin osa 500 000 ihmisestä tietokokonaisuudessa, elokuvien arviot olivat herkkiä. Itse asiassa vastauksena tiedoston vapauttamiseen ja uudelleen tunnistamiseen, suljettu lesbo nainen liittyi luokkahaasteeseen Netflixia vastaan. Näin ongelma ilmaistiin tässä oikeudenkäynnissä (Singel 2009) :
"[M] ovie ja luokitustiedot sisältävät tietoja ... erittäin henkilökohtaisesta ja arkaluonteisesta luonteesta. Jäsenen elokuva-aineisto paljastaa Netflixin jäsenen henkilökohtaisen kiinnostuksen ja / tai kamppailun erilaisilla erittäin henkilökohtaisilla kysymyksillä, kuten seksuaalisuudella, mielenterveydellisellä sairaudella, alkoholiolääkityksestä ja uhriksi incestistä, fyysisestä hyväksikäytöstä, perheväkivallasta, aviorikoksesta ja raiskauksesta. "
Tämä esimerkki osoittaa, että voi olla tietoja, joita jotkut ihmiset pitävät arkaluonteisina sisälle, mikä saattaa näyttää hyvältä tietokannalta. Lisäksi se osoittaa, että tärkein puolustus, jota tutkijat käyttävät suojaamaan arkaluonteisia tietoja - tunnistaminen - voi epäonnistua yllättäen. Nämä kaksi ideaa on kehitetty yksityiskohtaisemmin luvussa 6.
Viimeinen asia, joka pitää mielessä arkaluonteisia tietoja, on se, että kerääminen ilman ihmisten suostumusta herättää eettisiä kysymyksiä, vaikka mitään erityistä vahinkoa ei aiheudu. Niin kuin katsella jonkun suihkussa ilman heidän suostumustaan, sitä voidaan pitää henkilön tietosuojan rikkomisena, arkaluontoisten tietojen keräämisessä ja muistaa, kuinka vaikeaa voi olla päättää, mikä on herkkää - ilman suostumusta luo mahdollisia yksityisyydensuojaa. Palaan kysymyksiin yksityisyydestä luvussa 6.
Yhteenvetona voidaan päätellä, että suuria tietolähteitä, kuten hallinto- ja yritystiedostoja, ei yleensä luota sosiaaliseen tutkimukseen. Tänään suurilla tietolähteillä, ja todennäköisesti huomenna, on yleensä 10 ominaisuutta. Monet ominaisuuksista, joita pidetään yleisesti hyvänä tutkimukselle - suuret, jatkuvat ja reagoivat - tulevat digitaalisen aikakauden yritysten ja hallitusten kyvystä kerätä tietoja sellaisella asteikolla, joka ei ollut aiemmin mahdollista. Ja monet niistä ominaisuuksista, joita yleisesti pidetään huonoina tutkimuksellisia puutteellisia, saavuttamattomia, ei-edustavia, ajelehtivia, algoritmisesti sekaantuneita, saavuttamattomia, likaisia ja herkkiä, johtuvat siitä, että tutkijat eivät keränneet näitä tietoja tutkijoille. Toistaiseksi olen puhunut hallitusten ja yritystiedoista yhdessä, mutta näiden kahden välillä on eroja. Kokemukseni mukaan hallituksen tiedot ovat yleensä vähemmän edustavia, vähemmän algoritmisesti hämmentyneitä ja vähemmän ajelehtivia. Toisaalta yritysten hallinnolliset tietueet ovat yleensä aina jatkuvia. Näiden 10 yleisen ominaisuuden ymmärtäminen on hyödyllinen ensimmäinen askel kohti oppimista suurista tietolähteistä. Ja nyt kääntymme tutkimusstrategioihin, joita voimme käyttää näiden tietojen kanssa.