ជានិច្ចនៅលើទិន្នន័យធំអាចធ្វើឱ្យការសិក្សានៃព្រឹត្តិការណ៍មិនបានរំពឹងទុកនិងការវាស់ពេលវេលាពិតប្រាកដនោះទេ។
ប្រព័ន្ធទិន្នន័យធំជាច្រើនមានជានិច្ច; ពួកគេត្រូវបានគេប្រមូលទិន្នន័យជានិច្ច។ លក្ខណៈជានិច្ចនេះផ្ដល់នូវអ្នកស្រាវជ្រាវជាមួយនឹងទិន្នន័យដែលមានបណ្តោយ (ពោលគឺទិន្នន័យនៅលើពេលវេលា) ។ ក្នុងនាមជានិច្ចមានផលប៉ះពាល់សំខាន់ពីរសម្រាប់ការស្រាវជ្រាវ។
ដំបូងប្រមូលផ្តុំទិន្នន័យតែងតែអាចឱ្យអ្នកស្រាវជ្រាវសិក្សាព្រឹត្តិការណ៍ដែលមិនបានរំពឹងទុកតាមរបៀបដែលមិនអាចទៅរួច។ ឧទាហរណ៍ក្រុមអ្នកស្រាវជ្រាវដែលចាប់អារម្មណ៍ក្នុងការសិក្សាពីការកាន់កាប់របស់ Occupy Gezi នៅក្នុងប្រទេសទួកគីនៅរដូវក្តៅឆ្នាំ 2013 នឹងផ្តោតលើឥរិយាបថរបស់ក្រុមបាតុករក្នុងអំឡុងពេលព្រឹត្តិការណ៍នេះ។ លោក Ceren Budak និងលោក Duncan Watts (2015) អាចធ្វើបានច្រើនតាមរយៈការប្រើប្រាស់ Twitter ដើម្បីសិក្សាអ្នកតវ៉ាដែលបានប្រើប្រាស់ Twitter មុនពេលក្នុងអំឡុងពេលនិងក្រោយព្រឹត្តិការណ៍។ ហើយពួកគេអាចបង្កើតក្រុមប្រៀបធៀបនៃអ្នកមិនចូលរួមមុន, កំឡុងពេលនិងក្រោយព្រឹត្តិការណ៍ (រូបភាព 2.2) ។ សរុបមក បន្ទះអតីតកាល របស់ពួកគេរួមបញ្ចូលទាំងសារធារណៈរបស់ប្រជាជន 30.000 នាក់ក្នុងរយៈពេលពីរឆ្នាំ។ ដោយការបង្កើនទិន្នន័យដែលបានប្រើជាទូទៅពីការតវ៉ាជាមួយព័ត៌មានផ្សេងទៀតនេះ Budak និង Watts អាចរៀនបានច្រើនថែមទៀត។ ពួកគេអាចប៉ាន់ស្មានថាតើមនុស្សប្រភេទណាដែលទំនងជាចូលរួមក្នុងការតវ៉ារបស់ហ្សេស៊ីនិងប៉ាន់ប្រមាណការផ្លាស់ប្តូរឥរិយាបទនៃ អ្នកចូលរួមនិងអ្នកមិនមែនជាអ្នកចូលរួមទាំងក្នុងរយៈពេលខ្លី (ប្រៀបធៀបមុនពេល Gezi រហូតដល់ Gezi) និងក្នុងរយៈពេលវែង (ប្រៀបធៀបមុន Gezi ជាមួយ post-Gezi) ។
ការសង្ស័យអាចចង្អុលបង្ហាញថាការប៉ាន់ប្រមាណមួយចំនួននេះអាចត្រូវបានធ្វើឡើងដោយមិនមានជានិច្ច - ប្រភពប្រមូលទិន្នន័យ (ឧទាហរណ៍ការប៉ាន់ប្រមាណរយៈពេលវែងនៃការផ្លាស់ប្តូរអាកប្បកិរិយា) ហើយនោះជាការត្រឹមត្រូវទោះបីជាការប្រមូលទិន្នន័យសម្រាប់មនុស្ស 30.000 នាក់នោះនឹងមានយ៉ាងពិតប្រាកដ។ មានតំលៃថ្លៃ។ ទោះបីជាខ្ញុំបានផ្តល់ថវិកាមិនកំណត់ក៏ដោយខ្ញុំមិនអាចគិតពីវិធីសាស្រ្តផ្សេងទៀតដែលអនុញ្ញាតឱ្យអ្នកស្រាវជ្រាវ ធ្វើដំណើរវិលត្រលប់មកវិញ និងតាមដានដោយផ្ទាល់នូវអាកប្បកិរិយារបស់អ្នកចូលរួមក្នុងអតីតកាល។ ជម្រើសដែលនៅជិតបំផុតនោះគឺដើម្បីប្រមូលយករបាយការណ៍ពីឥរិយាបថឡើងវិញប៉ុន្តែរបាយការណ៍ទាំងនេះនឹងមានភាពត្រឹមត្រូវតិចតួចនិងមានភាពត្រឹមត្រូវ។ តារាង 2.1 ផ្តល់នូវឧទាហរណ៍ផ្សេងទៀតនៃការសិក្សាដែលប្រើប្រភពទិន្នន័យតែងតែដើម្បីសិក្សាព្រឹត្តិការណ៍ដែលមិនបានរំពឹងទុក។
ព្រឹត្តិការណ៍ដែលមិនបានរំពឹងទុក | បើកប្រភពទិន្នន័យជានិច្ច | ការដកស្រង់ |
---|---|---|
កាន់កាប់ចលនាគីហ្សីនៅប្រទេសទួរគី | Budak and Watts (2015) | |
បាតុកម្មឆ័ត្រនៅហុងកុង | Zhang (2016) | |
ការបាញ់របស់ប៉ូលីសនៅក្នុងទីក្រុងញូវយ៉ក | របាយការណ៍បញ្ឈប់និងហ្រ្វី | Legewie (2016) |
បុគ្គលចូលរួមជាមួយ ISIS | Magdy, Darwish, and Weber (2016) | |
ការវាយប្រហារថ្ងៃទី 11 ខែកញ្ញាឆ្នាំ 2001 | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
ការវាយប្រហារថ្ងៃទី 11 ខែកញ្ញាឆ្នាំ 2001 | សារភេក្ករ | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
បន្ថែមលើការសិក្សាព្រឹត្តិការណ៍ដែលមិនរំពឹងទុកប្រព័ន្ធទិន្នន័យធំ ៗ ជានិច្ចកាលក៏អាចឱ្យក្រុមអ្នកស្រាវជ្រាវបង្កើតការប៉ាន់ប្រមាណជាក់ស្តែងដែលអាចមានសារៈសំខាន់នៅក្នុងការកំណត់ដែលអ្នកបង្កើតគោលនយោបាយនៅក្នុងរដ្ឋាភិបាលឬឧស្សាហកម្មចង់ឆ្លើយតបផ្អែកលើការយល់ដឹងពីស្ថានភាព។ ឧទាហរណ៍ទិន្នន័យប្រព័ន្ធផ្សព្វផ្សាយសង្គមអាចត្រូវបានប្រើដើម្បីដឹកនាំការឆ្លើយតបជាបន្ទាន់ទៅនឹងគ្រោះមហន្តរាយធម្មជាតិ (Castillo 2016) និងប្រភពទិន្នន័យធំ ៗ ផ្សេងគ្នាដែលអាចត្រូវបានគេប្រើប្រាស់ដើម្បីធ្វើការប៉ាន់ប្រមាណជាក់ស្តែងនៃសកម្មភាពសេដ្ឋកិច្ច (Choi and Varian 2012) ។
នៅក្នុងការសន្និដ្ឋានប្រព័ន្ធទិន្នន័យតែងតែធ្វើឱ្យក្រុមអ្នកស្រាវជ្រាវអាចសិក្សាពីព្រឹត្តិការណ៍ដែលមិនរំពឹងទុកនិងផ្តល់ព័ត៌មានទាន់ពេលវេលាដល់អ្នកធ្វើគោលនយោបាយ។ ទោះយ៉ាងណាខ្ញុំមិនគិតថាប្រព័ន្ធទិន្នន័យដែលតែងតែប្រើបានល្អសម្រាប់តាមដានការផ្លាស់ប្តូរក្នុងរយៈពេលយូរ។ នោះគឺដោយសារប្រព័ន្ធទិន្នន័យធំ ៗ ជាច្រើនកំពុងផ្លាស់ប្តូរជាដំណើរការមួយដែលខ្ញុំនឹងហៅថា រសៀល នៅពេលក្រោយនៅក្នុងជំពូក (2.3.7) ។