Որոշ տեղեկությունների, որ ընկերությունները ու կառավարությունների զգայուն:
Առողջության ապահովագրական ընկերությունները մանրամասն տեղեկություններ են ստանում իրենց հաճախորդների կողմից ստացված բժշկական օգնության մասին: Այս տեղեկատվությունը կարող է օգտագործվել առողջության վերաբերյալ կարեւոր հետազոտությունների համար, բայց եթե այն դարձավ հրապարակայնորեն, այն կարող է պոտենցիալ հանգեցնել էմոցիոնալ վնասների (օրինակ, շփոթության) կամ տնտեսական վնասների (օրինակ `աշխատանքի կորստի): Շատ այլ մեծ տվյալների աղբյուրները նաեւ ունեն տեղեկություններ, որոնք զգայուն են , ինչը պատճառ է հանդիսանում, թե ինչու հաճախ դրանք անհասանելի են:
Ցավոք, պարզ է դառնում, որ բավականին բարդ է որոշել, թե ինչ տեղեկատվություն է իրականում զգայուն (Ohm 2015) , ինչպես պատկերազարդել է Netflix մրցանակը: Ինչպես ես նկարագրեմ 5-րդ գլխում, 2006-ին Netflix- ը թողարկեց 100 միլիոն ֆիլմերի վարկանիշ, գրեթե 500,000 անդամների կողմից, եւ բաց կանչեց, որտեղ ամբողջ աշխարհում մարդիկ ներկայացրին ալգորիթմներ, որոնք կարող էին բարելավել Netflix- ի ֆիլմերը: Նախքան տվյալների ազատելը, Netflix- ը հեռացրեց անհայտ անձին նույնականացնող ցանկացած տեղեկություն, ինչպիսիք են անունները: Արվինդ Նարայանանը եւ Վիտալի Շմատիկովը (2008) Ցույց են տվել, որ կարելի էր իմանալ կոնկրետ մարդկանց ֆիլմերի վարկանիշների մասին, օգտագործելով խաբեբայություն, որը ձեզ ցույց կտամ գլուխ 6-ում: Չնայած հարձակվողը կարող է հայտնաբերել անձի ֆիլմերի վարկանիշները, այստեղ դեռեւս կարծես թե զգայուն բան չէ: Թեեւ դա կարող է ընդհանուր առմամբ ճշգրիտ լինել, առնվազն 500,000 մարդկանցից մի քանիսը, կինոնկարները զգայուն էին: Իրականում, ի պատասխան տվյալների ազատման եւ վերահաստատման տվյալների, փակ լեսբի կինը միացավ դասական գործողությունների հայցին Netflix- ի դեմ: Ահա թե ինչպես է խնդիրը արտահայտվել այս դատարանում (Singel 2009) :
«[M] ovie եւ վարկանիշային տվյալները պարունակում են ... բարձր անձնական եւ զգայուն բնույթ: Անդամի կինոնկարները բացահայտում են Netflix- ի անձնական հետաքրքրությունը եւ / կամ պայքարում են տարբեր բարձր անձնական հարցերով, ներառյալ սեռականությունը, հոգեկան հիվանդությունը, ալկոհոլիզմի վերականգնումը եւ անզգայացումը, ֆիզիկական բռնությունը, ընտանեկան բռնությունը, շնությունը եւ բռնաբարությունը:
Այս օրինակը ցույց է տալիս, որ տեղեկություններ կարող են լինել, որ որոշ մարդիկ հաշվի են առնում այն զգայուն ներսում, ինչը, կարծես, բարենպաստ տվյալների բազա է: Այնուհետեւ, այն ցույց է տալիս, որ հիմնական պաշտպանությունը, որը հետազոտողներն աշխատում են, զգայուն տվյալների պաշտպանվածությունը պաշտպանելու համար, կարող են ձախողվել: Այս երկու գաղափարները մանրամասնորեն մշակված են գլուխ 6-ում:
Վերջնական բանը, որ պետք է հաշվի առնել զգայուն տվյալների մասին, այն է, առանց մարդկանց համաձայնության հավաքելը, բարձրացնում է էթիկական հարցերը, նույնիսկ եթե որեւէ կոնկրետ վնաս չի առաջանում: Շատ դիտելիս, առանց լիցք հաղորդելու մարդկանց, առանց իրենց համաձայնության, կարող է համարվել այդ անձի գաղտնիության խախտում, զգայուն տեղեկատվություն հավաքել եւ հիշել, թե որքան դժվար է որոշել, թե ինչն է զգայուն, առանց համաձայնության ստեղծում հնարավոր գաղտնիության մտահոգությունները: Ես կվերադառնամ 6-րդ գլխի գաղտնիության հարցերին:
Ի վերջո, մեծ տվյալների աղբյուրները, ինչպիսիք են կառավարության եւ բիզնեսի վարչական գրառումները, սովորաբար չեն ստեղծվում սոցիալական հետազոտության նպատակներով: Այսօրվա մեծ տեղեկատվական աղբյուրները, հավանաբար վաղը, հակված են ունենալ 10 առանձնահատկություններ: Այն հատկություններից շատերը, որոնք ընդհանուր առմամբ համարվում են հետազոտության համար մեծ, միշտ, եւ ոչ ակտիվ, գալիս են թվային տարիքի ընկերությունների փաստից, եւ կառավարությունները կարողանում են տվյալների հավաքել այնպիսի մասշտաբով, որը հնարավոր չէ նախկինում: Ընդհանրապես, հատկապես հետազոտական-թերի, անհասանելի, ոչ ներկայացուցչական, կախված, ալգորիթմային խառնաշփոթ, անմատչելի, կեղտոտ եւ զգայուն համարվող հատկություններից շատերը գալիս են այն հանգամանքից, որ այդ տվյալները հավաքագրված չեն հետազոտողների համար: Առայժմ ես խոսում եմ կառավարության եւ գործարար տվյալների մասին, բայց կան երկու տարբերություններ: Իմ փորձով կառավարական տվյալները ձգտում են լինել ոչ պակաս ոչ ներկայացուցչություն, պակաս ալգորիթմային խառնաշփոթ եւ քիչ քողարկում: Մյուս կողմից, բիզնեսի վարչական գրառումները հակված են ավելի հաճախակի լինել: Հասկանալով այս 10 ընդհանուր հատկանիշները օգտակար տվյալների մեծ աղբյուրներից սովորելու առաջին քայլն է: Եվ հիմա մենք դիմում ենք հետազոտության ռազմավարությանը, որը մենք կարող ենք օգտագործել այս տվյալների հետ: