ប្រភពទិន្នន័យធំអាចត្រូវបានផ្ទុកដោយសារធាតុចិញ្ចឹមនិងសារឥតបានការ។
អ្នកស្រាវជ្រាវខ្លះជឿថាប្រភពទិន្នន័យធំ, ជាពិសេសអ្នកមកពីប្រភពអនឡាញគឺជាល្អដោយសារពួកគេត្រូវបានប្រមូលដោយស្វ័យប្រវត្តិ។ នៅក្នុងការពិត, ប្រជាជនដែលបានធ្វើការជាមួយប្រភពទិន្នន័យធំដឹងថាពួកគេមានភាពកខ្វក់ជាញឹកញាប់។ នោះគឺជា, ពួកគេជាញឹកញាប់រួមបញ្ចូលទិន្នន័យដែលមិនបានឆ្លុះបញ្ចាំងពីសកម្មភាពពិតប្រាកដនៃការចាប់អារម្មណ៍ដល់អ្នកស្រាវជ្រាវ។ អ្នកវិទ្យាសាស្ដ្រសង្គមជាច្រើនមានរួចទៅហើយស៊ាំនឹងដំណើរការនៃការលាងសម្អាតទិន្នន័យស្ទង់មតិរបស់សង្គមខ្នាតធំ, ប៉ុន្តែការលាងសម្អាតប្រភពទិន្នន័យធំគឺមានការលំបាកបន្ថែមទៀតសម្រាប់មូលហេតុពីរ: 1) ពួកគេមិនត្រូវបានបង្កើតឡើងដោយក្រុមអ្នកស្រាវជ្រាវសម្រាប់អ្នកស្រាវជ្រាវនិង 2) អ្នកស្រាវជ្រាវជាទូទៅមានការយល់ដឹងតិចនៃរបៀប ពួកគេត្រូវបានបង្កើតឡើង។
គ្រោះថ្នាក់នៃទិន្នន័យដានឌីជីថលកខ្វក់នេះត្រូវបានបង្ហាញដោយត្រឡប់វិញនិងសហការី " (2010) ការសិក្សានៃការឆ្លើយតបទៅនឹងការវាយប្រហាររបស់ផ្លូវអារម្មណ៍ខែកញ្ញា 11, 2001 ក្រុមអ្នកស្រាវជ្រាវបានជាធម្មតាសិក្សាដើម្បីឆ្លើយតបទៅនឹងព្រឹត្តិការណ៍សោកនាដកម្មប្រើទិន្នន័យឡើងវិញដែលប្រមូលបាននៅខែឬសូម្បីតែឆ្នាំ។ ប៉ុន្តែត្រឡប់មកវិញនិងសហការីបានរកឃើញសារដែលតែងតែលើប្រភពនៃដាន-ឌីជីថលត្រាពេលវេលាដែលបានកត់ទុកដោយស្វ័យប្រវត្តិពីអាមេរិកនិង 85.000 ភេកយ័រក្រុមអ្នកស្រាវជ្រាវនេះបានអនុញ្ញាតការឆ្លើយតបផ្លូវអារម្មណ៍ទៅសិក្សានៅលើពេលវេលាសមរម្យដែលល្អជាងគេច្រើន។ ត្រឡប់មកវិញនិងសហការីបានបង្កើតកំណត់ពេលវេលាផ្លូវអារម្មណ៍នាទីដោយនាទីទី 11 ខែកញ្ញាដោយការសរសេរកូដមាតិកាអារម្មណ៍នៃសារភេកយ័រដោយភាគរយនៃពាក្យដែលទាក់ទងទៅនឹង (1) ភាពទុក្ខព្រួយ (ឧទាហរណ៍ស្រែកថាទុក្ខព្រួយ), (2) ការថប់បារម្ភ (ឧទា, ការព្រួយបារម្ភភ័យខ្លាច) និង (3) កំហឹង (ឧទាហរណ៍ស្អប់សំខាន់) ។ ពួកគេបានរកឃើញថាភាពទុក្ខព្រួយនិងការថប់បារម្ភប្រែប្រួលពេញមួយថ្ងៃដោយគ្មានគំរូខ្លាំងនោះទេប៉ុន្តែថាមានការកើនឡើងភាពទាក់ទាញនៅក្នុងកំហឹងពេញមួយថ្ងៃ។ ការស្រាវជ្រាវនេះហាក់ដូចជាឧទាហរណ៍អស្ចារ្យនៃអំណាចនៃជានិច្ចប្រភពទិន្នន័យ: ដោយប្រើវិធីសាស្រ្តស្ដង់ដារវានឹងមិនអាចមានការកំណត់ពេលវេលាដែលមានគុណភាពខ្ពស់នៃការឆ្លើយតបជាបន្ទាន់ទៅជាព្រឹត្តិការណ៍មិនបានរំពឹងទុក។
គ្រាន់តែមួយឆ្នាំក្រោយមក, ទោះជាយ៉ាងណា, យុវតី Cynthia Puri (2011) បានមើលទៅលើទិន្នន័យកាន់តែច្រើនដោយប្រុងប្រយ័ត្ន។ នាងបានរកឃើញថាមួយចំនួនធំនៃសារខឹងសន្មត់នេះត្រូវបានបង្កើតដោយភេកយ័រតែមួយហើយពួកគេដូចគ្នាទាំងអស់។ នេះជាអ្វីដែលសន្មត់ជាអ្នកដែលសារខឹងបាននិយាយថា:
"ម៉ាស៊ីនចាប់ផ្ដើមតៃវ៉ាន់ [ឈ្មោះ] ក្នុងគណៈរដ្ឋមន្រ្តី [ឈ្មោះ] នៅ [ទីតាំង]: សំខាន់: [កាលបរិច្ឆេទនិងពេលវេលា]"
សារទាំងនេះត្រូវបានដាក់ស្លាកខឹងព្រោះពួកគេបានរួមបញ្ចូលទាំងពាក្យ "សំខាន់" ដែលជាទូទៅអាចបង្ហាញកំហឹងប៉ុន្តែមិននៅក្នុងករណីនេះ។ ការដោះសារដែលបានបង្កើតដោយភេកយ័រតែមួយនេះទាំងស្រុងដោយស្វ័យប្រវត្តិដែលជាកំណើនលុបបំបាត់នៅក្នុងកំហឹងជាក់ស្តែងនៅថ្ងៃ (រូបភាព 2.2) នេះ។ នៅក្នុងពាក្យផ្សេងទៀតដែលជាលទ្ធផលចម្បងក្នុងការ Back, Küfner, and Egloff (2010) គឺវត្ថុបុរាណរបស់ភេកយ័រមួយបាន។ ជាឧទាហរណ៍នេះបង្ហាញការវិភាគនៃទិន្នន័យសាមញ្ញដែលទាក់ទងស្មុគស្មាញនិងស្មុគស្មាញដោយទំនាក់ទំនងនេះមានសក្តានុពលដើម្បីទៅខុសធ្ងន់ធ្ងរនេះ។
ខណៈពេលដែលទិន្នន័យកខ្វក់ដែលត្រូវបានបង្កើតដោយអចេតនាដូចជាសំឡេងរំខានមួយភេកយ័រពីអាចត្រូវបានរកឃើញដោយអ្នកស្រាវជ្រាវប្រុងប្រយ័ត្នសមរម្យ, មានប្រព័ន្ធអនឡាញមួយចំនួនផងដែរដែលទាក់ទាញផ្ញើសារឥតចេតនា។ ផ្ញើសារឥតទាំងនេះបង្កើតទិន្នន័យក្លែងក្លាយយ៉ាងសកម្មនិងជាញឹកញាប់ជម្រុញដោយការរកប្រាក់ចំណេញ-ការងារលំបាកណាស់ក្នុងការរក្សាសារឥតបានការរបស់ពួកគេលាក់បាំង។ ឧទាហរណ៍សកម្មភាពនយោបាយនៅលើ Twitter ហាក់ដូចជាយ៉ាងហោចណាស់សារឥតបានការរួមបញ្ចូលទាំងការស្មុគ្រស្មាញហេតុផលមួយចំនួនដែលមូលហេតុនយោបាយមួយចំនួនត្រូវបានធ្វើឡើងដើម្បីឱ្យមើលទៅមានប្រជាប្រិយភាពដោយចេតនាច្រើនជាងការដែលពួកគេពិតប្រាកដគឺ (Ratkiewicz et al. 2011) ។ ក្រុមអ្នកស្រាវជ្រាវបានធ្វើការជាមួយទិន្នន័យដែលអាចមានសារឥតបានការដោយចេតនានឹងប្រឈមមុខនឹងបញ្ហាប្រឈមនៃការបញ្ចុះបញ្ចូលទស្សនិកជនរបស់ខ្លួនថាពួកគេបានរកឃើញនិងបានយកចេញសារឥតបានការពាក់ព័ន្ធ។
ជាចុងក្រោយអ្វីដែលត្រូវបានចាត់ទុកថាជាទិន្នន័យដែលកខ្វក់អាចពឹងផ្អែកនៅក្នុងវិធីល្បិចលើសំណួរស្រាវជ្រាវរបស់អ្នក។ ឧទាហរណ៍កំណែប្រែជាច្រើនទៅវិគីភីឌាត្រូវបានបង្កើតដោយរូបយន្តដោយស្វ័យប្រវត្តិ (Geiger 2014) ។ ប្រសិនបើអ្នកមានចំណាប់អារម្មណ៍ក្នុងប្រព័ន្ធអេកូឡូស៊ីរបស់វិគីភីឌា, បន្ទាប់មករូបយន្តទាំងនេះគឺមានសារៈសំខាន់។ ប៉ុន្តែប្រសិនបើអ្នកមានចំណាប់អារម្មណ៍នៅក្នុងរបៀបរួមចំណែកដល់វិគីភីឌាមនុស្ស, កំណែប្រែទាំងនេះធ្វើឡើងដោយរូបយន្តទាំងនេះគួរត្រូវបានដកចេញ។
នេះជាវិធីល្អបំផុតដើម្បីជៀសវាងការត្រូវបានបោកបញ្ឆោតដោយទិន្នន័យកខ្វក់គឺដើម្បីយល់ពីរបៀបដែលទិន្នន័យរបស់អ្នកត្រូវបានបង្កើតឡើងដើម្បីអនុវត្តការវិភាគរុករកប្រេងសាមញ្ញដូចជាការធ្វើឱ្យចំណុចពង្រាយសាមញ្ញ។