2.3.2.7 Sensitive

Osa tiedoista, että yritykset ja hallitukset ovat on herkkä.

Health vakuutusyhtiöt ovat yksityiskohtaisia ​​tietoja sairaanhoidon saamat asiakkailleen. Tätä tietoa voidaan käyttää tärkeää tutkimusta terveyden, mutta jos se tuli julkiseksi se voi johtaa emotionaalista haittaa (esim hämmennystä) ja taloudellisten haittojen (esim työn menettäminen). Kaukana erottuva, monet suuret tietolähteitä on tietoa, joka on herkkä. Määrin arkaluontoisia tämä tieto on osa syy, että suuret tietolähteet ovat usein saavuttamattomissa (kuvattu edellä).

Yksi tapa, että tutkijat yrittävät käsitellä tämä tilanne on de-tunnistaa aineistoja, jotka ovat arkaluonteisia tietoja. Mutta, koska minä näytän yksityiskohtaisesti luvussa 6 (Ethics) tämä lähestymistapa vakavasti rajoitettu tavoilla, jotka eivät ole laajalti arvostavat sekä yhteiskuntatieteilijät ja tietojen tutkijat.

Lopuksi suuri tietolähteet tänään (ja huomenna) on yleensä kymmenen ominaisuuksia. Monet hyvät ominaisuudet-iso, aina päällä, ja ei-reaktiivinen tullutta siitä digitaaliaikaan yritykset ja hallitukset pystyvät keräämään tietoja asteikolla, joka ei ollut mahdollista aikaisemmin. Ja monet huonoja ominaisuuksia-puutteellinen, saavuttamattomissa, ei-edustaja, kisassaan algoritmeilla sekoiteta, saavuttamattomissa, likainen, ja herkkä-tulevat siitä, että tietoja ei kerätä tutkijat tutkijoille. Ymmärtäminen nämä ominaisuudet ovat välttämätön ensimmäinen askel oppimisen iso data. Ja nyt kääntyä tutkimukseen strategioita voimme käyttää näitä tietoja.