Iuj de la informoj kiuj entreprenoj kaj registaroj havas estas sentema.
Sanaj asekuroj kompanioj havas detalan informon pri la medicina prizorgado ricevita de siaj klientoj. Ĉi tiu informo povus esti uzita por grava esplorado pri sano, sed se ĝi fariĝis publika, ĝi eble povus konduki al emociaj damaĝoj (ekz., Embaraso) aŭ ekonomia difekto (ekz. Perdo de dungado). Multaj aliaj grandaj datumaj fontoj ankaŭ havas informojn, kiuj estas sentemaj , kiuj estas parto de la kialo, kial ili ofte estas nealireblaj.
Bedaŭrinde, ĝi rezultas esti sufiĉe malfacila decidi, kia informo estas vere sentema (Ohm 2015) , kiel estis ilustrita de la Netflix-Premio. Kiel mi priskribos en la ĉapitro 5, en 2006 Netflix publikigis 100 milionojn da filmoj donitaj de preskaŭ 500,000 membroj kaj havis malfermitan vokon, kie homoj el la tuta mondo prezentis algoritmojn, kiuj povus plibonigi la kapablon de Netflix por rekomendi filmojn. Antaŭ liberigi la datumojn, Netflix forigis ajnan evidentan identan informon, kiel nomojn. Sed nur du semajnojn post kiam la datumoj estis liberigitaj, Arvind Narayanan kaj Vitaly Shmatikov (2008) montris, ke ĝi eblis lerni pri specifaj filmaj taksadoj per lertaĵo, kiun mi montros al vi en ĉapitro 6. Kvankam atacanto povus malkovri Personaj filmoj, Tie ankoraŭ ŝajnas esti nenio sentema ĉi tie. Dum tio povus esti vera en ĝenerala, ĉar almenaŭ iuj el la 500,000 homoj en la datumaro, filmaj taksadoj estis sentemaj. Fakte, en respondo al la liberigo kaj re-identigo de la datumoj, ŝlosila lesba virino aliĝis al klaso-agado kontraŭ Netflix. Jen kiel la problemo esprimis en ĉi tiu juĝo (Singel 2009) :
"[M] ovie kaj rating datumoj enhavas informojn pri ... tre persona kaj sentema naturo. La datumoj de la membro de la membro elmontras personan intereson kaj / aŭ luktojn de Netflix kun diversaj tre personaj aferoj, inkluzive de sekseco, mensa malsano, reakiro de alkoholismo kaj viktimo de incesto, fizika misuzo, hejma perforto, adulto kaj seksperfortado. "
Ĉi tiu ekzemplo montras, ke ekzistas informoj, ke iuj homoj konsideras sentivajn interne de kio ŝajnas esti beniga datumbazo. Plie, ĝi montras, ke ĉefa defendo, kiun esploristoj uzas por protekti sentemajn datumojn-de-identigo-povas malsukcesi en surprizaj manieroj. Ĉi tiuj du ideoj disvolvas pli detale en la ĉapitro 6.
La lasta afero memorigi pri sentemaj datumoj estas, ke kolektanta ĝin sen konsento de homoj levas etikajn demandojn, eĉ se neniu specifa damaĝo kaŭzas. Multe, kiel rigardi iun prenante duŝon sen ilia konsento, oni povus konsideri malobservon pri la privateco de tiu persono, kolektante sentivan informon - kaj memori kiom malfacile ĝi povas decidi kio estas sentema - sen konsento kreas eblajn privatajn zorgojn. Mi revenos al demandoj pri privateco en ĉapitro 6.
En konkludo, grandaj datumaj fontoj, kiel registaroj kaj komercaj administraj registroj, ĝenerale ne estas kreitaj por socia esplorado. La grandaj datumaj fontoj de hodiaŭ, kaj verŝajne morgaŭ, inklinas havi 10 karakterizaĵojn. Multaj el la propraĵoj, kiuj ĝenerale konsideras bone por esplorado-grandaj, ĉiam-kaj ne-reactivaj- venas de la fakto en la ciferecaj aĝoj kompanioj kaj registaroj kapablas kolekti datumojn ĉe skalo, kiu ne eblis antaŭe. Kaj multaj el la propraĵoj, kiuj ĝenerale konsideras malbonan por esplorado-nekompletaj, nealireblaj, ne reprezentaj, drifantaj, algoritme konfuzitaj, nealireblaj, malpuraj kaj sentemaj- venas de la fakto, ke ĉi tiuj datumoj ne estis kolektitaj de esploristoj por esploristoj. Ĝis nun mi parolis pri registaraj kaj komercaj datumoj kune, sed ekzistas iuj diferencoj inter la du. En mia sperto, registaraj datumoj inklinas esti malpli ne reprezentaj, malpli algoritme konfuzitaj kaj malpli drifantaj. Aliflanke, komercaj administraj registroj inklinas esti pli ĉiam. Kompreni ĉi tiujn 10 ĝeneralajn trajtojn estas helpema unua paŝo al lernado de grandaj datumaj fontoj. Kaj nun ni turniĝas al esploradaj strategioj, kiujn ni povas uzi kun ĉi tiu datumo.