មិនថាទិន្នន័យធំរបស់អ្នកធំប៉ុនណាទេវាប្រហែលជាមិនមានព័ត៌មានដែលអ្នកចង់បាន។
ប្រភពទិន្នន័យធំ ៗ ភាគច្រើន មិន មាន លក្ខណៈពេញលេញ ទេក្នុងន័យថាពួកគេមិនមានព័ត៌មានដែលអ្នកចង់បានសម្រាប់ការស្រាវជ្រាវរបស់អ្នក។ នេះគឺជាលក្ខណៈទូទៅនៃទិន្នន័យដែលត្រូវបានបង្កើតឡើងសម្រាប់គោលបំណងផ្សេងក្រៅពីការស្រាវជ្រាវ។ អ្នកវិទ្យាសាស្រ្តសង្គមជាច្រើនមានបទពិសោធន៏ក្នុងការដោះស្រាយភាពមិនពេញលេញដូចជាការស្ទង់មតិដែលមិនទាន់មានដែលត្រូវការសំណួរ។ ជាអកុសលបញ្ហាដែលមិនមានភាពទៀងទាត់មានទំនោរកាន់តែខ្លាំងនៅក្នុងទិន្នន័យធំ ៗ ។ តាមបទពិសោធរបស់ខ្ញុំទិន្នន័យធំ ៗ ទំនងជាបាត់បង់ព័ត៌មានបីប្រភេទដែលមានប្រយោជន៍សម្រាប់ការស្រាវជ្រាវសង្គម: ព័ត៌មានប្រជាសាស្ត្រអំពីអ្នកចូលរួមឥរិយាបថនៅលើវេទិកាផ្សេងទៀតនិងទិន្ន័យដើម្បីដំណើរការគម្រោងទ្រឹស្តី។
ក្នុងចំណោមភាពមិនគ្រប់លក្ខណ៍ទាំងបីប្រភេទបញ្ហានៃទិន្នន័យដែលមិនពេញលេញដើម្បីដំណើរការគម្រោងទ្រឹស្តីគឺពិបាកដោះស្រាយបំផុត។ ហើយនៅក្នុងបទពិសោធរបស់ខ្ញុំវាជាញឹកញាប់ត្រូវបានគេមើលរំលងដោយចៃដន្យ។ ប្រហែលការ បង្កើតទ្រឹស្តី គឺជាគំនិតអរូបីដែលអ្នកវិទ្យាសាស្ត្រសង្គមសិក្សានិង ប្រតិបត្តិការ បង្កើតទ្រឹស្តីមានន័យថាស្នើវិធីខ្លះដើម្បីចាប់យកការបង្កើតជាមួយទិន្នន័យដែលអាចមើលបាន។ ជាអកុសលដំណើរការសម្លេងសាមញ្ញនេះជារឿយៗមានលក្ខណៈពិបាក។ ជាឧទាហរណ៍សូមស្រមៃគិតអំពីការព្យាយាមពិសោធនូវការអះអាងដ៏សាមញ្ញដែលថាមនុស្សដែលឆ្លាតវៃរកប្រាក់បានច្រើន។ ដើម្បីសាកល្បងពាក្យបណ្តឹងនេះអ្នកត្រូវវាស់ "ការវៃឆ្លាត" ។ ប៉ុន្ដែអ្វីទៅជាភាពវៃឆ្លាត? Gardner (2011) បានអះអាងថាមានការពិតចំនួន 8 ខុសគ្នា។ ហើយតើមាននីតិវិធីដែលអាចវាស់ស្ទង់យ៉ាងត្រឹមត្រូវនូវរាល់ទម្រង់នៃបញ្ញាទាំងនេះបានដែរឬទេ? ថ្វីបើមានការងារយ៉ាងច្រើនសន្ធឹកសន្ធាប់ពីសំណាក់អ្នកចិត្តសាស្រ្តក៏ដោយក៏សំណួរទាំងនេះនៅតែមិនមានចម្លើយច្បាស់លាស់។
ដូច្នេះសូម្បីតែពាក្យស្លោកដ៏សាមញ្ញ - មនុស្សដែលឆ្លាតវៃរកប្រាក់បានច្រើនអាចពិបាកក្នុងការវាយតម្លៃតាមគំរូជាក់ស្តែងព្រោះវាពិបាកក្នុងការធ្វើប្រតិបត្តិការខាងទ្រឹស្តីក្នុងទិន្នន័យ។ ឧទាហរណ៍ផ្សេងទៀតនៃការសាងសង់ទ្រឹស្តីដែលមានសារៈសំខាន់ប៉ុន្តែពិបាកក្នុងការប្រតិបតិ្តការរួមមាន "បទដ្ឋាន" "មូលធនសង្គម" និង "លទ្ធិប្រជាធិបតេយ្យ" ។ អ្នកវិទ្យាសាស្ត្រសង្គមហៅការផ្គូផ្គងរវាងការសាងសង់ទ្រឹស្តីនិងទិន្នន័យដែលមាន សុពលភាព (Cronbach and Meehl 1955) ។ ក្នុងនាមជាបញ្ជីសំណង់ខ្លីនេះបានបង្ហាញថាការបង្កើតសុពលភាពគឺជាបញ្ហាមួយដែលអ្នកវិទ្យាសាស្រ្តសង្គមបានតស៊ូជាមួយអស់រយៈពេលជាយូរមកហើយ។ ប៉ុន្តែនៅក្នុងបទពិសោធរបស់ខ្ញុំបញ្ហានៃការបង្កើតសុពលភាពគឺកាន់តែប្រសើរឡើងនៅពេលធ្វើការជាមួយទិន្នន័យដែលមិនត្រូវបានបង្កើតឡើងសម្រាប់គោលបំណងនៃការស្រាវជ្រាវ (Lazer 2015) ។
នៅពេលអ្នកវាយតំលៃលទ្ធផលស្រាវជ្រាវវិធីរហ័សនិងមានប្រយោជន៍មួយដើម្បីវាយតម្លៃសុពលភាពនៃការស្ថាបនាគឺដើម្បីទទួលយកលទ្ធផលដែលជាធម្មតាត្រូវបានសម្តែងក្នុងលក្ខខណ្ឌនៃការសាងសង់និងបង្ហាញវាឡើងវិញតាមទិន្នន័យដែលបានប្រើ។ ជាឧទាហរណ៍សូមពិចារណាអំពីការសិក្សាពីរដែលអះអាងថាបង្ហាញថាមនុស្សដែលឆ្លាតវៃរកប្រាក់បានច្រើន។ នៅក្នុងការសិក្សាដំបូងអ្នកស្រាវជ្រាវបានរកឃើញថាអ្នកដែលមានពិន្ទុល្អលើការពិសោធន៏ Raven Progressive Matrices - ការធ្វើតេស្តស៊ើបសួរយ៉ាងល្អិតល្អន់នៃការវិភាគវិភាគ (Carpenter, Just, and Shell 1990) មានចំណូលខ្ពស់ជាងមុនលើចំណូលពន្ធរបស់ពួកគេ។ នៅក្នុងការសិក្សាទី 2 អ្នកស្រាវជ្រាវរូបនេះបានរកឃើញថាអ្នកប្រើប្រាស់នៅលើ Twitter ដែលប្រើពាក្យវែងជាងទំនងជានិយាយពីម៉ាកប្រណីត។ ក្នុងករណីទាំងពីរក្រុមអ្នកស្រាវជ្រាវទាំងនេះអាចអះអាងថាពួកគេបានបង្ហាញថាមនុស្សដែលឆ្លាតវៃរកប្រាក់បានច្រើន។ ទោះជាយ៉ាងណាក៏ដោយនៅក្នុងការសិក្សាដំបូងការបង្កើតទ្រឹស្តីត្រូវបានប្រតិបតិ្តការល្អដោយទិន្នន័យខណៈពេលដែលវិនាទីពួកគេមិនមាន។ លើសពីនេះទៀតឧទាហរណ៍នេះបង្ហាញថាទិន្នន័យបន្ថែមមិនដោះស្រាយបញ្ហាដោយស្វ័យប្រវត្តិទេ។ អ្នកគួរតែសង្ស័យពីលទ្ធផលនៃការសិក្សាលើកទី 2 ថាតើវាពាក់ព័ន្ធទៅនឹងធ្វីតធ្វីតធ្វីតធររាប់លានលានឬមួយលានលានធ្វីត។ ចំពោះអ្នកស្រាវជ្រាវដែលមិនសូវស្គាល់អំពីគំនិតនៃការបង្កើតសុពលភាពតារាង 2.2 ផ្តល់នូវឧទាហរណ៍មួយចំនួននៃការសិក្សាដែលបានអនុវត្តដំណើរការទ្រឹស្តីដោយប្រើទិន្នន័យដានឌីជីថល។
ប្រភពទិន្នន័យ | ទ្រឹស្តីស្ថាបនា | សេចក្ដីយោង |
---|---|---|
កំណត់ត្រាអ៊ីម៉ែលពីសាកលវិទ្យាល័យ (ទិន្នន័យមេតាប៉ុណ្ណោះ) | ទំនាក់ទំនងសង្គម | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
ប្រព័ន្ធផ្សព្វផ្សាយសង្គមនៅលើ Weibo | ការចូលរួមរបស់ពលរដ្ឋ | Zhang (2016) |
កំណត់ត្រាអ៊ីម៉ែលពីក្រុមហ៊ុន (ទិន្នន័យមេតានិងអត្ថបទពេញលេញ) | សមទៅនឹងវប្បធម៌នៅក្នុងអង្គការមួយ | Srivastava et al. (2017) |
ទោះបីជាបញ្ហានៃទិន្នន័យមិនពេញលេញសម្រាប់ការចាប់យកការសាងសង់ទ្រឹស្តីគឺពិបាកដោះស្រាយក៏ដោយក៏មានដំណោះស្រាយជាទូទៅចំពោះភាពមិនប្រក្រតីទូទៅផ្សេងទៀត: ពត៌មានប្រជាសាស្ត្រមិនពេញលេញនិងព័ត៌មានមិនពេញលេញអំពីឥរិយាបថលើប្រព័ន្ធផ្សេងៗ។ ដំណោះស្រាយដំបូងគឺប្រមូលទិន្នន័យដែលអ្នកត្រូវការ។ ខ្ញុំនឹងប្រាប់អ្នកអំពីរឿងនោះនៅក្នុងជំពូកទី 3 ពេលខ្ញុំប្រាប់អ្នកអំពីការស្ទង់មតិ។ ដំណោះស្រាយសំខាន់ទីពីរគឺត្រូវធ្វើកិច្ចការអ្វីដែលអ្នកវិទ្យាសាស្ត្រហៅថា អ្នកនិពន្ធគុណលក្ខណៈអ្នកប្រើ និងអ្នកវិទ្យាសាស្រ្តសង្គមហៅ ការកំណត់ ។ ក្នុងវិធីសាស្រ្តនេះក្រុមអ្នកស្រាវជ្រាវប្រើព័ត៌មានដែលពួកគេមានលើមនុស្សខ្លះដើម្បីសន្មតលក្ខណៈរបស់អ្នកដទៃ។ ដំណោះស្រាយទី 3 ដែលអាចទៅរួចគឺការរួមបញ្ចូលប្រភពទិន្នន័យជាច្រើន។ ដំណើរការនេះជួនកាលត្រូវបានគេហៅថា តំណភ្ជាប់ ។ ការប្រៀបធៀបសំណព្វរបស់ខ្ញុំសម្រាប់ដំណើរការនេះត្រូវបានសរសេរដោយ Dunn (1946) នៅក្នុងកថាខណ្ឌដំបូងនៃក្រដាសដំបូងបង្អស់ដែលបានសរសេរនៅលើតំណភ្ជាប់ឯកសារ:
មនុស្សម្នាក់ក្នុងពិភពលោកបង្កើតសៀវភៅជីវិត។ សៀវភៅនេះចាប់ផ្តើមពីកំណើតហើយបញ្ចប់ដោយសេចក្ដីស្លាប់។ ទំព័ររបស់វាត្រូវបានបង្កើតឡើងដោយកំណត់ត្រាព្រឹត្តិការណ៍សំខាន់ៗនៅក្នុងជីវិត។ តំណភ្ជាប់កំណត់ត្រាគឺជាឈ្មោះដែលបានផ្តល់ឱ្យដំណើរការនៃការផ្គុំទំព័រនៃសៀវភៅនេះទៅជាសម្លេង។ "
នៅពេលដែលលោក Dunn បានសរសេរចំនុចនោះគាត់ស្រម៉ៃថាព្រះគម្ពីរនៃជីវិតអាចរួមបញ្ចូលព្រឹត្តិការណ៍ជីវិតសំខាន់ៗដូចជាកំណើតការរៀបការការលែងលះនិងការស្លាប់។ ទោះជាយ៉ាងណាក៏ដោយឥឡូវនេះពត៌មានជាច្រើនអំពីមនុស្សត្រូវបានគេកត់ត្រាទុកសៀវភៅនៃជីវិតអាចជារូបភាពលំអិតដែលមិនគួរឱ្យជឿប្រសិនបើទំព័រខុសៗគ្នា (ឧ។ សញ្ញាឌីជីថលរបស់យើង) អាចភ្ជាប់គ្នា។ សៀវភៅជីវិតនេះអាចជាធនធានដ៏ល្អសម្រាប់អ្នកស្រាវជ្រាវ។ ប៉ុន្តែវាក៏អាចត្រូវបានគេហៅថា មូលដ្ឋានទិន្នន័យនៃការបំផ្លិចបំផ្លាញ (Ohm 2010) ដែលអាចត្រូវបានប្រើសម្រាប់គោលបំណងខុសឆ្គងគ្រប់ប្រភេទដូចខ្ញុំនឹងរៀបរាប់នៅក្នុងជំពូក 6 (ក្រមសីលធម៌) ។