ኩባንያዎች እና መንግስታት ያላቸው መረጃዎች ውስጥ አንዳንዶቹ ትብ ነው.
የጤና ኢንሹራንስ ኩባንያዎች ደንበኞቻቸው ስለተቀበላቸው የሕክምና እንክብካቤ ዝርዝር መረጃ አላቸው. ይህ መረጃ ለጤንነት ጠቃሚ ምርምር ለማድረግ ጥቅም ላይ ሊውል ይችላል, ነገር ግን በህዝብ ዘንድ ከታወቀ, ለስሜታዊ ጉዳቶች (ለምሳሌ, አሳፋሪ) ወይም የኢኮኖሚ ችግር (ለምሳሌ የስራ ቅጥር) ሊያመጣ ይችላል. ሌሎች በርካታ ትላልቅ የመረጃ ምንጮችም ስሱ ጠቀሜታ ያላቸው መረጃዎች ያሏቸው ሲሆን ይህም ብዙ ጊዜ የማይደረሱበት ነው.
እንደ አለመታደል ሆኖ በ Netflix ሽልማት እንደተገለጸው, የትኛው መረጃ በእውነቱ ስሜታዊ ነው (Ohm 2015) ለመወሰን በጣም አስቸጋሪ ይሆናል. በምዕራፍ 5 ውስጥ እንደሚገልጸው በ 2006 Netflix በ 500,000 አባላትን የ 100 ሚልዮን የፊልም አጫጭር ማስታወቂያዎች አውጥተው እና የኔትወርክስን ፊልም እንዲመክሩ የአቅም ማሻሻያ ሊያደርግ የሚችል በአለም ዙሪያ ያሉ ሰዎች የአልጎሪዝም አቅርቦቶችን አቀረቡ. ውሂቡን ከመገልበጡ በፊት, Netflix እንደ ስሞችን የመሳሰሉ ግልጽ የሆኑ ማንነትን ለይቶ የሚያውቅ መረጃን አስወግዷል. ሆኖም ግን, መረጃው ከተወጣ ሁለት ሳምንታት በኋላ አርቪንዳ ናአንአን እና ቪክቶሪ ሻምቲኮቭ (2008) በምዕራፍ 6 ላይ ላሳየኋቸውን ስዕሎች በመጠቀም ስለ የተወሰኑ ሰዎች የፊልም ደረጃዎች መማር እንደሚቻል ያሳያሉ. የአንድ ሰው የፊልም ደረጃዎች, እዚህ ግን እዚህ ምንም የሚረብሽ አይመስልም. ይህ በአጠቃላይ እውነት ሊሆን ቢችልም, ቢያንስ ቢያንስ 500,000 ሰዎች በውሂብ ስብስቡ ውስጥ ቢኖሩም የፊልም ደረጃዎች አሳሳቢ ናቸው. እንዲያውም, መረጃው እንዲለቀቅ እና እንደገና እንዲታወቅ በመደረጉ, በሴት ላይ የተቀመጠች ሴት ሌብስኪን በ Netflix ላይ በተደረገው የክስ ሂደት ላይ ትግባባለች. በዚህ ጉዳይ ላይ ችግሩ እንዴት እንደተገለጸ ይኸው (Singel 2009) :
«[M] የ ovie እና የደረጃ አሰጣጥ ውሂብ ከፍተኛ የሆነ ግላዊ እና ስሜት የሚነካ ባህሪ መረጃዎችን ይዟል. የአባላት ፊልም ዘገባ የ Netflix ን አባል የግል ፍላጎትን እና / ወይም የጾታዊ ግንኙነትን, የአእምሮ ሕመምን, የአልኮል ሱሰኝነትን እና ከስጋለ-ሥጋ, አካላዊ ጥቃት, የቤት ውስጥ ብጥብጥ, ዝሙት እና አስገድዶ መድፈርን ጨምሮ.
ይህ ምሳሌ እንደሚያሳየው አንዳንድ ሰዎች በተገቢው የመረጃ ስብስብ ውስጥ ሊታወቁ የሚችሉትን መረጃ ሊመርጡ ይችላሉ. በተጨማሪም, ተመራማሪዎች ሚስጥራዊ መረጃን-ዲታ-መታወቂያዎችን ለመጠበቅ የሚጠቀሙባቸው ዋና ዋና መከላከያዎች በአስደንጋጭ መንገዶች ሊሳካላቸው እንደሚችል ያሳያል. እነዚህ ሁለት ሐሳቦች በምዕራፍ 6 ውስጥ በበለጠ ተብራርተዋል.
ስሱ መረጃዎችን በአእምሯቸው ውስጥ ለማስቀመጥ የመጨረሻው ነገር የሰዎች ፈቃድ ሳይኖር መሰብሰብ አስፈላጊ አይደለም. አንድ ሰው የእነርሱ ፈቃድ ሳይጎድል ሲታጠብ ሲመለከት መመልከት ግለሰብን ግላዊነትን የሚያጣስ, ምስጢራዊ መረጃዎችን በመሰብሰብ - እና ያለምንም ፍሰሃት ለመወሰን ምን ያህል ከባድ እንደሆነ ያስታውሱ. በምዕራፍ 6 ውስጥ ስለ ግል ጉዳዮቼ መልስ እመለሳለሁ.
በመጨረሻም, እንደ የመንግስት እና የንግድ አስተዳደራዊ መዝገቦችን የመሳሰሉ ትላልቅ የመረጃ ምንጮች ለህብረተሰቡ ምርምር አላማ አይዘጋጁም. ዛሬ የዛሬው ትልቁ ምንጮች, እና ምናልባትም ነገ ሊሆኑ ይችላሉ, 10 ባህሪያት አላቸው. በአጠቃሊይ በአጠቃሊይ ሇጥቋሜ, ሁሌ ጊዜ እና አሌተዯገፈ-ቢሆኑም ምርምር ተብሇው ከሚመሇከቱት ባህሪያት ውስጥ የዲጂታል ዘመን አለም ኩባንያዎች እና መንግስታት ከሚታየው እውነታ የሚመጣው ውሂብን ከዚህ በፊት ሉታገዴ በማይችሇው መጠን ሊይ ይሰበስባለ. እንዲሁም በአጠቃላይ ለምርምር-የማይሟሉ, የማይገፋፉ, የማያባክን, ቀስ በቀስ, በአልጎሪዝም የተደባለቁ, የማይደረስባቸው, ቆሻሻን እና ስሱ-ተኮር የሆኑ ብዙ ባህሪያት - እነዚህ መረጃዎች ለተመራማሪዎች በተመራማሪዎች አልተሰበሰቡም ከሚለው እውነታ የመጣ ነው. እስካሁን ድረስ ስለ መንግስት እና የንግድ መረጃ አንድ ላይ ተነጋግሬአለሁ, ነገር ግን በሁለቱ መካከል ልዩነቶች አሉ. በእኔ ልምድ የመንግስት መረጃ ውክልና የሌለው, ቀስ በቀስ አልጎሪምቲካዊ እፍረት እና ቀስ በቀስ እየራቀ ይሄዳል. በሌላ በኩል ደግሞ የንግድ ሥራ አስተዳደሮች ሁልጊዜ ሁልጊዜ የበዛባቸው ናቸው. እነዚህን 10 አጠቃላይ ባህሪያትን መረዳታችን ከትልቅ የውሂብ ምንጮች ለመማር ጠቃሚ የመጀመሪያ እርምጃ ነው. እና አሁን በዚህ ውሂብ ልንጠቀምባቸው የምንችላቸውን የጥናት ዘዴዎች እንመለከታለን.