2.3.10

មួយចំនួននៃពដែលក្រុមហ៊ុននិងរដ្ឋាភិបាលមានគឺប្រកាន់អក្សរតូចធំ។

ក្រុមហ៊ុនធានារ៉ាប់រងសុខភាពមានព័ត៌មានលម្អិតអំពីការថែទាំសុខភាពដែលអតិថិជនទទួលបាន។ ព័ត៌មាននេះអាចត្រូវបានប្រើសម្រាប់ការស្រាវជ្រាវសំខាន់ៗអំពីសុខភាពប៉ុន្តែប្រសិនបើវាក្លាយជាសាធារណៈវាអាចបង្កឱ្យមានផលប៉ះពាល់ដល់អារម្មណ៍ (ឧទាហរណ៍ការអាម៉ាស់) ឬផលប៉ះពាល់សេដ្ឋកិច្ច (ឧទាហរណ៍ការបាត់បង់ការងារ) ។ ប្រភពទិន្នន័យដ៏ធំជាច្រើនទៀតក៏មានព័ត៌មានដែល ងាយយល់ ដែលជាផ្នែកមួយនៃហេតុផលដែលពួកគេមិនអាចប្រើប្រាស់បាន។

ជាអកុសលវាប្រែទៅជាពិបាកណាស់ក្នុងការសម្រេចថាតើព័ត៌មានអ្វីដែលពិតជាមានភាពរសើប (Ohm 2015) ដូចដែលបានបង្ហាញដោយ Netflix Prize ។ ដូចដែលខ្ញុំនឹងរៀបរាប់នៅក្នុងជំពូកទី 5 ក្នុងឆ្នាំ 2006 ក្រុមហ៊ុន Netflix បានចេញនូវការផ្តល់ចំណាត់ថ្នាក់ខ្សែភាពយន្តចំនួន 100 លានដែលផ្តល់ដោយសមាជិកជិត 500.000 នាក់ហើយមានការបើកចំហរដែលមនុស្សពីទូទាំងពិភពលោកបានដាក់ស្នើក្បួនដោះស្រាយដែលអាចបង្កើនសមត្ថភាពរបស់ក្រុមហ៊ុន Netflix ក្នុងការផ្ដល់អនុសាសន៍ភាពយន្ត។ មុនពេលចេញផ្សាយទិន្នន័យក្រុមហ៊ុន Netflix បានលុបព័ត៌មានកំណត់អត្តសញ្ញាណជាលក្ខណៈបុគ្គលដូចជាឈ្មោះ។ ប៉ុន្តែពីរសប្តាហ៍បន្ទាប់ពីទិន្នន័យត្រូវបានចេញផ្សាយ Arvind Narayanan និង Vitaly Shmatikov (2008) បានបង្ហាញថាវាអាចទៅរួចក្នុងការរៀនអំពីការផ្តល់ចំណាត់ថ្នាក់ខ្សែភាពយន្តរបស់មនុស្សដោយប្រើល្បិចដែលខ្ញុំនឹងបង្ហាញអ្នកនៅក្នុងជំពូកទី 6. ទោះបីជាអ្នកវាយប្រហារអាចរកឃើញ ការដាក់ចំណាត់ថ្នាក់ខ្សែភាពយន្តរបស់មនុស្សនៅទីនោះនៅតែមិនមានអ្វីដែលប្រកាន់អក្សរតូចធំនៅទីនេះ។ ខណៈពេលដែលវាអាចជាការពិតជាទូទៅយ៉ាងហោចណាស់មានមនុស្ស 500.000 នាក់នៅក្នុងសំណុំទិន្នន័យនេះការវាយតម្លៃខ្សែភាពយន្តមានលក្ខណៈរសើប។ ជាការពិតក្នុងការឆ្លើយតបនឹងការដោះលែងនិងការកំណត់អត្តសញ្ញាណទិន្នន័យឡើងវិញស្ត្រីសិចស៊ីម្នាក់បានចូលរួមក្នុងសំណុំរឿងប្តឹងក្រុមហ៊ុន Netflix ។ នេះជារបៀបដែលបញ្ហាត្រូវបានបង្ហាញនៅក្នុងពាក្យបណ្តឹងនេះ (Singel 2009) :

"[M] ovie និងចំណាត់ថ្នាក់ទិន្នន័យមានផ្ទុកព័ត៌មាននៃលក្ខណៈផ្ទាល់ខ្លួននិងរសើបខ្ពស់។ ទិន្នន័យខ្សែភាពយន្តរបស់សមាជិកបង្ហាញពីការចាប់អារម្មណ៍ផ្ទាល់ខ្លួនរបស់សមាជិកក្រុម Netflix និងការតស៊ូជាមួយបញ្ហាផ្ទាល់ខ្លួនជាច្រើនរួមទាំងបញ្ហាផ្លូវភេទជំងឺផ្លូវចិត្តការជាសះស្បើយពីគ្រឿងស្រវឹងនិងការរងគ្រោះពីការរួមភេទការរំលោភបំពានលើរាងកាយអំពើហិង្សាក្នុងគ្រួសារអំពើផិតក្បត់និងការរំលោភ។

ឧទាហរណ៍នេះបង្ហាញថាអាចមានព័ត៌មានដែលមនុស្សខ្លះគិតថាមានភាពរសើបនៅខាងក្នុងនៃអ្វីដែលទំនងជាមូលដ្ឋានទិន្នន័យស្អាតស្អំ។ លើសពីនេះទៀតវាបង្ហាញថាការការពារសំខាន់ដែលអ្នកស្រាវជ្រាវប្រើដើម្បីការពារទិន្នន័យដែលកំណត់អត្តសញ្ញាណ - អាចបរាជ័យក្នុងវិធីគួរឱ្យភ្ញាក់ផ្អើល។ គំនិតទាំងពីរនេះត្រូវបានបង្កើតឡើងក្នុងលម្អិតកាន់តែច្រើននៅក្នុងជំពូកទី 6 ។

រឿងចុងក្រោយដែលត្រូវចងចាំអំពីទិន្នន័យរសើបគឺថាការប្រមូលវាដោយគ្មានការព្រមព្រៀងរបស់ប្រជាជនបង្កឱ្យមានសំណួរសីលធម៌សូម្បីតែគ្មានគ្រោះថ្នាក់អ្វីក៏ដោយ។ ដូចជាការមើលអ្នកណាម្នាក់ទទួលយកផ្កាឈូកដោយគ្មានការព្រមព្រៀងរបស់ពួកគេអាចត្រូវបានចាត់ទុកថាជាការរំលោភលើសិទ្ធិឯកជនរបស់បុគ្គលនោះប្រមូលព័ត៌មានរសើបនិងចងចាំថាវាពិបាកក្នុងការសំរេចថាអ្វីដែលងាយរងគ្រោះ - ដោយគ្មានការព្រមព្រៀងបង្កើតអោយមានការព្រួយបារម្ភអំពីសិទ្ធិឯកជន។ ខ្ញុំនឹងវិលត្រឡប់ទៅរកសំណួរអំពីភាពឯកជននៅក្នុងជំពូកទី 6 ។

នៅក្នុងសេចក្តីសន្និដ្ឋានប្រភពទិន្នន័យដ៏ធំដូចជាកំណត់ត្រារដ្ឋបាលនិងរដ្ឋបាលអាជីវកម្មមិនត្រូវបានបង្កើតឡើងសម្រាប់គោលបំណងនៃការស្រាវជ្រាវសង្គមនោះទេ។ ប្រភពទិន្នន័យធំ ៗ នាពេលបច្ចុប្បន្ននិងប្រហែលជានៅថ្ងៃស្អែកគឺមានចរិតលក្ខណៈ 10 ។ ភាគច្រើននៃទ្រព្យសម្បត្តិដែលត្រូវបានគេចាត់ទុកថាល្អសម្រាប់ការស្រាវជ្រាវធំ ៗ ជានិច្ចកាលនិងមិនមែនសកម្មភាព - មកពីការពិតនៅក្នុងក្រុមហ៊ុនឌីជីថលនិងរដ្ឋាភិបាលដែលអាចប្រមូលទិន្នន័យបានក្នុងទំហំដែលមិនអាចធ្វើបានពីមុន។ ហើយលក្ខណៈសម្បត្តិជាទូទៅដែលគេចាត់ទុកថាមិនល្អសម្រាប់ការស្រាវជ្រាវដែលមិនពេញលេញមិនអាចទទួលបានតំណាងមិនបង្ហាញភាពរសាត់ក្បួនដោះស្រាយដែលមិនមានលទ្ធភាពកខ្វក់និងងាយរងគ្រោះកើតឡើងពីការពិតដែលទិន្នន័យទាំងនេះមិនបានប្រមូលដោយអ្នកស្រាវជ្រាវសម្រាប់អ្នកស្រាវជ្រាវ។ រហូតមកដល់ពេលនេះខ្ញុំបាននិយាយអំពីរដ្ឋាភិបាលនិងទិន្នន័យអាជីវកម្មជាមួយគ្នាប៉ុន្តែមានភាពខុសគ្នាមួយចំនួនរវាងអ្នកទាំងពីរ។ តាមបទពិសោធរបស់ខ្ញុំទិន្ន័យរដ្ឋាភិបាលមានទំនោរមិនសូវមានតំណាងតិចតួចតិចតួចត្រូវបានធ្វើឱ្យស្មុគស្មាញនិងតិចជាងមុន។ ម្យ៉ាងវិញទៀតការកត់ត្រាផ្នែករដ្ឋបាលអាជីវកម្មមាននិន្នាការបន្តទៀត។ ការយល់ដឹងពីចរិកលក្ខណៈទូទៅទាំង 10 នេះគឺជាជំហានដំបូងដែលមានប្រយោជន៍ក្នុងការរៀនសូត្រពីប្រភពទិន្នន័យធំ ៗ ។ ហើយឥលូវនេះយើងបែរទៅរកយុទ្ធសាស្រ្តស្រាវជ្រាវដែលយើងអាចប្រើជាមួយទិន្នន័យនេះ។