ប្រភពទិន្នន័យធំអាចត្រូវបានផ្ទុកដោយសារធាតុចិញ្ចឹមនិងសារឥតបានការ។
អ្នកស្រាវជ្រាវមួយចំនួនជឿថាប្រភពទិន្នន័យធំជាពិសេសប្រភពនៅលើអ៊ីនធឺណេតមានភាពល្អប្រសើរព្រោះវាត្រូវបានប្រមូលដោយស្វ័យប្រវត្តិ។ តាមពិតអ្នកដែលបានធ្វើការជាមួយប្រភពទិន្នន័យធំដឹងថាពួកគេតែងតែ កខ្វក់ ។ នោះមានន័យថាពួកគេជាញឹកញាប់រួមបញ្ចូលទិន្នន័យដែលមិនឆ្លុះបញ្ចាំងពីសកម្មភាពជាក់ស្តែងនៃចំណាប់អារម្មណ៍ដល់អ្នកស្រាវជ្រាវ។ អ្នកវិទ្យាសាស្រ្តសង្គមភាគច្រើនស្គាល់រួចហើយពីដំណើរការលាងសម្អាតទិន្នន័យស្ទង់មតិសង្គមធំ ៗ ប៉ុន្តែការសម្អាតប្រភពទិន្នន័យធំ ៗ ហាក់ដូចជាពិបាកជាង។ ខ្ញុំគិតថាប្រភពចុងក្រោយបំផុតនៃការលំបាកនេះគឺថាប្រភពទិន្នន័យធំ ៗ ជាច្រើនមិនត្រូវបានប្រើប្រាស់សម្រាប់ការស្រាវជ្រាវហើយដូច្នេះពួកគេមិនត្រូវបានប្រមូលរក្សាទុកនិងចងក្រងជាឯកសារដែលជួយសម្របសម្រួលទិន្នន័យទេ។
គ្រោះថ្នាក់នៃទិន្នន័យឌីជីថលកខ្វក់ត្រូវបានបង្ហាញដោយការសិក្សារបស់ Back និងមិត្តរួមការងារ (2010) នៃការឆ្លើយតបខាងអារម្មណ៍ចំពោះការវាយប្រហារនៅថ្ងៃទី 11 ខែកញ្ញាឆ្នាំ 2001 ដែលខ្ញុំបានរៀបរាប់ពីមុននៅក្នុងជំពូក។ អ្នកស្រាវជ្រាវជាទូទៅសិក្សាអំពីការឆ្លើយតបទៅនឹងព្រឹត្តិការណ៍សោកនាដកម្មដោយប្រើទិន្នន័យថយក្រោយដែលប្រមូលបានក្នុងរយៈពេលរាប់ខែឬច្រើនឆ្នាំ។ ប៉ុន្តែត្រឡប់មកវិញនិងមិត្តរួមការងារបានរកឃើញនូវប្រភពដានឌីជីថលជានិច្ចដែលជាសារដែលបានកត់ត្រាដោយស្វ័យប្រវត្តិនិងសារដែលបានកត់ត្រាដោយស្វ័យប្រវត្តិពីយានយន្តអាមេរិចចំនួន 85.000 នាក់ហើយនេះបានជួយឱ្យពួកគេធ្វើការឆ្លើយតបខាងអារម្មណ៍លើពេលវេលាដ៏ល្អ។ ពួកគេបានបង្កើតកំណត់ពេលផ្លូវអារម្មណ៍រាល់នាទីគិតត្រឹមថ្ងៃទី 11 ខែកញ្ញាដោយសរសេរកូដមាតិការនៃការផ្ញើសារតាមភេរវករដោយភាគរយនៃពាក្យដែលទាក់ទងនឹង (1) ភាពទុក្ខព្រួយ (ឧទាហរណ៍ "យំ" និង "ទុក្ខសោក") (2) ការថប់បារម្ភ ( ឧ។ "ព្រួយបារម្ភ" និង "ភ័យខ្លាច") និង (3) កំហឹង (ឧទាហរណ៍ "ស្អប់" និង "រិះគន់") ។ ពួកគេបានរកឃើញថាភាពទុក្ខសោកនិងការថប់បារម្ភប្រែប្រួលពេញមួយថ្ងៃដោយគ្មានគំរូដ៏រឹងមាំនោះទេប៉ុន្តែថាមានការកើនឡើងនៃកំហឹងពេញមួយថ្ងៃ។ ការស្រាវជ្រាវនេះហាក់ដូចជាគំនូរដ៏អស្ចារ្យមួយនៃប្រភពទិន្នន័យដែលជានិច្ចកាលបើប្រភពទិន្នន័យប្រពៃណីត្រូវបានប្រើវានឹងមិនអាចទទួលបាននូវពេលវេលាកំណត់ច្បាស់លាស់នៃការឆ្លើយតបភ្លាមៗទៅនឹងព្រឹត្តិការណ៍ដែលមិនបានរំពឹងទុកនោះទេ។
តែមួយឆ្នាំក្រោយមក Cynthia Pury (2011) មើលទិន្នន័យយ៉ាងប្រុងប្រយ័ត្ន។ នាងបានរកឃើញថាមានចំនួនច្រើននៃសារដែលខឹងសម្បារខឹងដែលត្រូវបានបង្កើតឡើងដោយភេយ័រតែមួយហើយពួកគេទាំងអស់គ្នាគឺដូចគ្នា។ នេះជាអ្វីដែលសារខឹងដែលគេសង្ស័យថា:
"ម៉ាស៊ីនចាប់ផ្ដើមតៃវ៉ាន់ [ឈ្មោះ] ក្នុងគណៈរដ្ឋមន្រ្តី [ឈ្មោះ] នៅ [ទីតាំង]: សំខាន់: [កាលបរិច្ឆេទនិងពេលវេលា]"
សារទាំងនេះត្រូវបានគេដាក់ឈ្មោះថាខឹងព្រោះពួកគេបានបញ្ចូលពាក្យ "CRITICAL" ដែលជាទូទៅអាចបង្ហាញពីកំហឹងប៉ុន្តែក្នុងករណីនេះមិនបានទេ។ ការលុបសារដែលបានបង្កើតឡើងដោយឧបករណ៍ចំលងដោយស្វ័យប្រវត្តិតែមួយនេះនឹងលុបបំបាត់ការកើនឡើងនៃកំហឹងនៅក្នុងកំឡុងពេលនៃថ្ងៃ (រូបភាព 2.4) ។ នៅក្នុងពាក្យផ្សេងទៀតដែលជាលទ្ធផលសំខាន់នៅក្នុងការ Back, Küfner, and Egloff (2010) គឺជាវត្ថុបុរាណរបស់ភេយ័រមួយ។ ឧទាហរណ៍នេះបង្ហាញពីការវិភាគយ៉ាងសាមញ្ញពីទិន្នន័យដែលស្មុគស្មាញនិងស្មុគស្មាញដែលមានសក្តានុពលក្នុងការធ្វើខុសធ្ងន់ធ្ងរ។
ខណៈពេលដែលទិន្នន័យកខ្វក់ដែលត្រូវបានបង្កើតដោយមិនអចិន្ត្រៃយ៍ - ដូចជាការស្រាវជ្រាវរំខានមួយដែលអាចត្រូវបានរកឃើញដោយអ្នកស្រាវជ្រាវដ៏ប្រុងប្រយ័ត្នក៏មានប្រព័ន្ធអនឡាញមួយចំនួនដែលទាក់ទាញអ្នកផ្ញើសារឥតបានការដោយចេតនា។ អ្នកផ្ញើសារឥតបានការទាំងនេះបង្កើតទិន្នន័យក្លែងក្លាយយ៉ាងសកម្មនិង - ជារឿយៗត្រូវបានលើកទឹកចិត្តដោយប្រាក់ចំណេញ - ធ្វើការយ៉ាងលំបាកដើម្បីរក្សាសារឥតបានការរបស់ពួកគេលាក់បាំង។ ឧទាហរណ៍សកម្មភាពនយោបាយនៅលើ Twitter ហាក់ដូចជារួមបញ្ចូលយ៉ាងហោចណាស់សារធាតុ spam ដែលស្មុគស្មាញខ្លះដែលហេតុផលនយោបាយមួយចំនួនត្រូវបានគេធ្វើឱ្យមានប្រជាប្រិយភាពជាងអ្វីដែលពួកគេពិតជាមាន (Ratkiewicz et al. 2011) ។ ជាអកុសលការលុបសារឥតបានការដោយចេតនានេះអាចជាការពិបាកណាស់។
ជាការពិតអ្វីដែលត្រូវបានចាត់ទុកថាទិន្នន័យកខ្វក់អាចពឹងផ្អែកលើសំណួរស្រាវជ្រាវ។ ឧទាហរណ៍ការកែប្រែជាច្រើនចំពោះវិគីភីឌាត្រូវបានបង្កើតដោយប្លាសស្វ័យប្រវត្តិ (Geiger 2014) ។ ប្រសិនបើអ្នកចាប់អារម្មណ៍លើអេកូឡូស៊ីនៃវិគីភីឌានោះការកែប្រែដែលបង្កើតដោយបូតទាំងនេះមានសារៈសំខាន់ណាស់។ ប៉ុន្តែប្រសិនបើអ្នកចាប់អារម្មណ៍អំពីរបៀបដែលមនុស្សរួមចំណែកក្នុងវិគីភីឌានោះការកែប្រែដែលបង្កើតដោយ bot គួរតែត្រូវបានដកចេញ។
មិនមានបច្ចេកទេសស្ថិតិណាមួយឬវិធីសាស្រ្តដែលអាចធានាថាអ្នកបានសម្អាតទិន្នន័យកខ្វក់ឱ្យបានគ្រប់គ្រាន់។ នៅទីបញ្ចប់ខ្ញុំគិតថាវិធីល្អបំផុតដើម្បីចៀសវាងការបញ្ឆោតដោយទិន្នន័យកខ្វក់គឺត្រូវយល់ដឹងច្រើនអំពីរបៀបដែលទិន្នន័យរបស់អ្នកត្រូវបានបង្កើត។