នៅក្នុងការសួរដែលបានធ្វើឱ្យស្ទង់មតិទិន្នន័យស្ទង់មតិបង្កើតបរិបទជុំវិញប្រភពទិន្នន័យដ៏ធំមួយដែលមានការវាស់វែងដ៏សំខាន់មួយចំនួនប៉ុន្តែខ្វះអ្នកដទៃ។
មធ្យោបាយមួយដើម្បីបញ្ចូលទិន្នន័យស្ទង់មតិនិងប្រភពទិន្នន័យធំគឺជាដំណើរការមួយដែលខ្ញុំនឹងអំពាវនាវ ឱ្យមានការធ្វើឱ្យកាន់តែទូលំទូលាយ ។ នៅក្នុងការស្នើសុំដ៏ទូលំទូលាយប្រភពទិន្នន័យដ៏ធំមួយមានការវាស់វែងសំខាន់មួយចំនួនប៉ុន្តែខ្វះការវាស់ផ្សេងទៀតដើម្បីឱ្យអ្នកស្រាវជ្រាវប្រមូលការវាស់វែងទាំងនេះដែលបាត់នៅក្នុងការស្ទង់មតិមួយហើយបន្ទាប់មកភ្ជាប់ប្រភពទិន្នន័យទាំងពីរ។ ឧទាហរណ៏មួយនៃការសួរដ៏វិសេសវិសាលគឺការសិក្សាដោយ Burke and Kraut (2014) អំពីថាតើការប្រាស្រ័យទាក់ទងគ្នានៅលើ Facebook បង្កើនកម្លាំងមិត្តភាពដែលខ្ញុំបានរៀបរាប់នៅក្នុងផ្នែកទី 3.2 ។ ក្នុងករណីនោះលោក Burke និង Kraut រួមបញ្ចូលទិន្នន័យស្ទង់មតិជាមួយទិន្នន័យកំណត់ហេតុ Facebook ។
ទោះយ៉ាងណាការរៀបចំដែល Burke និង Kraut បានធ្វើការមានន័យថាពួកគេមិនចាំបាច់ដោះស្រាយបញ្ហាធំពីរដែលអ្នកស្រាវជ្រាវធ្វើឱ្យមានលក្ខណៈទូលំទូលាយ។ ទីមួយការផ្សារភ្ជាប់គ្នារវាងសំណុំទិន្នន័យកម្រិតបុគ្គលនីមួយៗដែលជាដំណើរការហៅថា ឯកសារភ្ជាប់ អាចជាការពិបាកប្រសិនបើមិនមានអត្តសញ្ញាណតែមួយនៅក្នុងប្រភពទិន្នន័យទាំងពីរដែលអាចត្រូវបានប្រើដើម្បីធានាថាកំណត់ត្រាត្រឹមត្រូវនៅក្នុងសំណុំទិន្នន័យមួយត្រូវបានផ្គូផ្គងជាមួយនឹងកំណត់ត្រាត្រឹមត្រូវ នៅក្នុងសំណុំទិន្នន័យផ្សេង។ បញ្ហាចម្បងទីពីរដោយការស្នើសុំដ៏វិសេសវិសាលនោះគឺថាគុណភាពនៃប្រភពទិន្នន័យធំជាញឹកញាប់ពិបាកសម្រាប់អ្នកស្រាវជ្រាវដើម្បីវាយតំលៃដោយសារដំណើរការដែលទិន្នន័យត្រូវបានបង្កើតអាចមានកម្មសិទ្ធិហើយអាចងាយនឹងបញ្ហាជាច្រើនដែលបានពិពណ៌នានៅក្នុងជំពូកទី 2 ។ និយាយម្យ៉ាងទៀតការស្នើសុំដែលបានធ្វើឱ្យមានការស្នើសុំជាញឹកញាប់នឹងទាក់ទងនឹងការស្ទង់មតិទៅនឹងប្រភពទិន្នន័យដែលមិនដឹងពីប្រអប់ខ្មៅ។ ទោះជាយ៉ាងណាក៏ដោយបញ្ហាទាំងនេះអាចធ្វើឱ្យការស្រាវជ្រាវមានសារៈសំខាន់ដូចដែលបានធ្វើដោយ Stephen Ansolabehere និង Eitan Hersh (2012) នៅក្នុងការស្រាវជ្រាវរបស់ពួកគេលើលំនាំការបោះឆ្នោតនៅសហរដ្ឋអាមេរិក។
ចំនួនអ្នកចូលរួមបោះឆ្នោតមានប្រធានបទស្រាវជ្រាវយ៉ាងទូលំទូលាយនៅក្នុងវិទ្យាសាស្ត្រនយោបាយហើយកាលពីអតីតកាលអ្នកស្រាវជ្រាវបានយល់ដឹងអំពីការបោះឆ្នោតនិងមូលហេតុដែលជាទូទៅត្រូវបានផ្អែកលើការវិភាគទិន្នន័យស្ទង់មតិ។ ការបោះឆ្នោតនៅសហរដ្ឋអាមេរិកទោះជាយ៉ាងណាគឺជាអាកប្បកិរិយាមិនធម្មតាមួយដែលរដ្ឋាភិបាលកត់ត្រាថាតើពលរដ្ឋនីមួយៗបានបោះឆ្នោត (ជាការពិតរដ្ឋាភិបាលមិនបានកត់ត្រាថាតើពលរដ្ឋនីមួយៗបោះឆ្នោតឱ្យនរណាម្នាក់) ។ អស់រយៈពេលជាច្រើនឆ្នាំមកហើយដែលកំណត់ត្រាបោះឆ្នោតរបស់រដ្ឋាភិបាលទាំងនេះអាចរកបាននៅលើក្រដាសដែលត្រូវបានគេរាយប៉ាយនៅតាមការិយាល័យរដ្ឋាភិបាលក្នុងស្រុកជាច្រើនទូទាំងប្រទេស។ នេះធ្វើឱ្យមានការលំបាកខ្លាំងណាស់ប៉ុន្តែមិនមែនមិនអាចទៅរួចនោះទេសំរាប់អ្នកវិទ្យាសាស្រ្តនយោបាយឱ្យមានរូបភាពពេញលេញនៃអ្នកបោះឆ្នោតនិងប្រៀបធៀបអ្វីដែលមនុស្សនិយាយនៅក្នុងការស្ទង់មតិអំពីការបោះឆ្នោតជាមួយនឹងអាកប្បកិរិយាបោះឆ្នោតពិតប្រាកដរបស់ពួកគេ (Ansolabehere and Hersh 2012) ។
ប៉ុន្តែឯកសារបោះឆ្នោតទាំងនេះឥឡូវត្រូវបានឌីជីថលហើយក្រុមហ៊ុនឯកជនមួយចំនួនបានប្រមូលនិងប្រមូលផ្តុំពួកគេជាលក្ខណៈប្រព័ន្ធដើម្បីបង្កើតឯកសារបោះឆ្នោតមេដែលមានឥរិយាបថបោះឆ្នោតរបស់ប្រជាជនអាមេរិកទាំងអស់។ Ansolabehere និង Hersh បានសហការជាមួយក្រុមហ៊ុនមួយក្នុងចំណោមក្រុមហ៊ុនទាំងនេះគឺ Catalist LCC ដើម្បីប្រើឯកសារបោះឆ្នោតមេរបស់ពួកគេដើម្បីជួយអភិវឌ្ឍរូបភាពកាន់តែល្អប្រសើរនៃអ្នកបោះឆ្នោត។ លើសពីនេះទៀតដោយសារការសិក្សារបស់ពួកគេពឹងផ្អែកលើទិន្នន័យឌីជីថលដែលប្រមូលបាននិងគ្រប់គ្រងដោយក្រុមហ៊ុនដែលបានវិនិយោគធនធានយ៉ាងច្រើនក្នុងការប្រមូលទិន្នន័យនិងភាពសុខដុមរមនានោះវាបានផ្តល់គុណសម្បត្តិមួយចំនួនលើកិច្ចខិតខំប្រឹងប្រែងពីមុនដែលបានធ្វើឡើងដោយគ្មានជំនួយពីក្រុមហ៊ុននិងដោយប្រើប្រាស់កំណត់ត្រាអាណាឡូក។
ដូចជាប្រភពទិន្នន័យធំ ៗ ជាច្រើននៅក្នុងជំពូកទី 2 ឯកសារមេរបស់ Catalist មិនបានរួមបញ្ចូលព័ត៌មានដែលមានប្រជាប្រិយភាពនិងអាកប្បកិរិយាច្រើនដែល Ansolabehere និង Hersh ត្រូវការទេ។ តាមការពិតពួកគេចាប់អារម្មណ៍ជាពិសេសក្នុងការប្រៀបធៀបឥរិយាបថបោះឆ្នោតដែលបានរាយការណ៍នៅក្នុងការស្ទង់មតិជាមួយនឹងឥរិយាបថបោះឆ្នោតដែលមានសុពលភាព (ឧ។ ព័ត៌មានក្នុងមូលដ្ឋានទិន្នន័យ Catalist) ។ ដូច្នេះ Ansolabehere និង Hersh បានប្រមូលទិន្នន័យដែលពួកគេចង់បានជាការស្ទង់មតិសង្គមដ៏ធំមួយ CCES ដែលបានរៀបរាប់ពីមុននៅក្នុងជំពូកនេះ។ បន្ទាប់មកពួកគេបានប្រគល់ទិន្នន័យរបស់ពួកគេទៅ Catalist ហើយ Catalist បានប្រគល់ឯកសារទិន្នន័យរួមបញ្ចូលគ្នាដែលរួមមានឥរិយាបថបោះឆ្នោតដែលមានសុពលភាព (ពី Catalist) អាកប្បកិរិយាបោះឆ្នោតដោយខ្លួនឯង (ពី CCES) និងប្រជាសាស្ត្រនិងអាកប្បកិរិយារបស់អ្នកឆ្លើយសំណួរ (ពី CCES) 3.13) ។ និយាយម្យ៉ាងទៀត Ansolabehere និង Hersh រួមបញ្ចូលទិន្នន័យកត់ត្រាបោះឆ្នោតជាមួយទិន្នន័យស្ទង់មតិដើម្បីធ្វើការស្រាវជ្រាវដែលមិនអាចធ្វើទៅបានជាមួយប្រភពទិន្នន័យណាមួយ។
ជាមួយឯកសារទិន្នន័យរួមបញ្ចូលគ្នារបស់ពួកគេ Ansolabehere និង Hersh បានធ្វើការសន្និដ្ឋានសំខាន់ៗចំនួនបី។ ទី 1 ការរាយការណ៍លើសពីការបោះឆ្នោតគឺទោរទន់ទៅហើយស្ទើរតែពាក់កណ្តាលនៃអ្នកដែលមិនមែនជាអ្នកសង្កេតការណ៏បានធ្វើការបោះឆ្នោតហើយប្រសិនបើមាននរណាម្នាក់បានរាយការណ៍ថាបោះឆ្នោតមានតែ 80% ប៉ុណ្ណោះដែលពួកគេបានបោះឆ្នោត។ ទី 2 ការរាយការណ៍ហួសប្រមាណមិនមែនជារឿងចៃដន្យនោះទេការរាយការណ៍ក្រៅប្រទេសគឺជារឿងសាមញ្ញក្នុងចំណោមអ្នកមានប្រាក់ចំណូលពូកែដែលមានការអប់រំល្អនិងអ្នកដែលចូលរួមក្នុងកិច្ចការសាធារណៈ។ និយាយម្យ៉ាងទៀតអ្នកដែលទំនងជាបោះឆ្នោតច្រើនទំនងជាកុហកអំពីការបោះឆ្នោត។ ទីបីហើយសំខាន់បំផុតដោយសារតែមានលក្ខណៈជាប្រព័ន្ធនៃការរាយការណ៍លើសពីភាពខុសគ្នាពិតប្រាកដរវាងអ្នកបោះឆ្នោតនិងអ្នកមិនមែនអ្នកដែលមានកម្រិតតិចជាងអ្វីដែលពួកគេបង្ហាញចេញពីការស្ទង់មតិ។ ឧទាហរណ៍អ្នកដែលមានសញ្ញាបត្របរិញ្ញាបត្រមានប្រហែល 22 ភាគរយនៃភាគរយទំនងជារាយការណ៍ពីការបោះឆ្នោតប៉ុន្តែមានតែ 10 ភាគរយប៉ុណ្ណោះដែលអាចបោះឆ្នោតបាន។ វាហាក់ដូចជាមិនគួរឱ្យភ្ញាក់ផ្អើលទេដែលទ្រឹស្ដីដែលមានមូលដ្ឋានលើធនធានដែលមានស្រាប់គឺល្អប្រសើរជាងក្នុងការទស្សន៍ទាយថាតើអ្នកណានឹងរាយការណ៍ការបោះឆ្នោត (ដែលជាទិន្នន័យដែលអ្នកស្រាវជ្រាវធ្លាប់បានប្រើកាលពីមុន) ជាងពួកគេកំពុងតែទស្សន៍ទាយថាតើអ្នកដែលបោះឆ្នោតពិតប្រាកដ។ ដូច្នេះការរកឃើញជាក់ស្តែងនៃ Ansolabehere and Hersh (2012) អំពាវនាវឱ្យមានទ្រឹស្ដីថ្មីដើម្បីយល់និងទស្សន៍ទាយការបោះឆ្នោត។
ប៉ុន្តែតើយើងគួរតែទុកចិត្តលើលទ្ធផលទាំងនេះ? ចងចាំលទ្ធផលទាំងនេះអាស្រ័យលើកំហុសឆ្គងដែលទាក់ទងនឹងទិន្នន័យប្រអប់ខ្មៅដែលមានកំហុសមិនដឹងច្បាស់។ ជាពិសេសជាងនេះទៅទៀតលទ្ធផលគឺពឹងផ្អែកលើជំហានពីរយ៉ាង: (1) សមត្ថភាពរបស់ Catalist ដើម្បីផ្សំប្រភពទិន្នន័យខុសគ្នាជាច្រើនដើម្បីបង្កើតឯកសារទិន្នន័យមេត្រឹមត្រូវនិង (2) សមត្ថភាពរបស់ Catalist ដើម្បីភ្ជាប់ទិន្នន័យស្ទង់មតិទៅឯកសារទិន្នន័យមេរបស់វា។ ជំហ៊ាននីមួយៗទាំងនេះគឺពិបាកហើយកំហុសឆ្គងក្នុងជំហានណាមួយអាចនាំអ្នកស្រាវជ្រាវឱ្យយល់ខុស។ ទោះជាយ៉ាងណាក៏ដោយការដំណើរការទិន្នន័យនិងការផ្សារភ្ជាប់គ្នាគឺមានសារៈសំខាន់ចំពោះអត្ថិភាពរបស់ Catalist ជាក្រុមហ៊ុនមួយដូច្នេះវាអាចវិនិយោគធនធានក្នុងការដោះស្រាយបញ្ហាទាំងនេះជាញឹកញាប់ដែលមិនមានអ្នកស្រាវជ្រាវណាម្នាក់អាចផ្គូផ្គងបាន។ នៅក្នុងក្រដាសរបស់ពួកគេ Ansolabehere និង Hersh បានឆ្លងកាត់ជំហានមួយចំនួនដើម្បីពិនិត្យមើលលទ្ធផលនៃជំហានទាំងពីរនេះទោះបីជាពួកគេមួយចំនួនមានកម្មសិទ្ធិហើយការពិនិត្យទាំងនេះអាចមានប្រយោជន៍សម្រាប់អ្នកស្រាវជ្រាវផ្សេងទៀតដែលចង់ភ្ជាប់ទិន្នន័យស្ទង់មតិទៅនឹងទិន្នន័យធំ ៗ ក្នុងប្រអប់ខ្មៅ។ ប្រភព។
តើអ្នកស្រាវជ្រាវទូទៅអាចទាញមេរៀនអ្វីពីការសិក្សានេះ? ដំបូងវាមានតម្លៃយ៉ាងធំធេងពីការបង្កើនប្រភពទិន្នន័យដ៏ធំដែលមានទិន្នន័យស្ទង់មតិនិងពីការធ្វើទិន្នន័យស្ទង់មតិជាមួយប្រភពទិន្នន័យធំ ៗ (អ្នកអាចមើលឃើញការសិក្សានេះតាមវិធីណាមួយ) ។ ដោយការច្របាច់បញ្ចូលប្រភពទិន្នន័យទាំងពីរនេះអ្នកស្រាវជ្រាវអាចធ្វើអ្វីមួយដែលមិនអាចទៅរួចដោយខ្លួនឯងបាន។ មេរៀនទូទៅលើកទី 2 គឺថាទោះជាទិន្នន័យរួមទាំងទិន្នន័យពាណិជ្ជកម្មក៏ដូចជាទិន្នន័យពី Catalist មិនគួរត្រូវបានចាត់ទុកថាជា "សេចក្តីពិតមូលដ្ឋានទេ" ក្នុងករណីខ្លះវាអាចមានប្រយោជន៍។ ជួនកាលអ្នកដែលចេះតែសង្ស័យអាចប្រៀបធៀបប្រភពព័ត៌មានពាណិជ្ជកម្មទាំងស្រុងជាមួយនឹងសេចក្ដីពិតដាច់ខាតហើយចង្អុលបង្ហាញថាប្រភពទិន្នន័យទាំងនេះមានរយៈពេលខ្លី។ ទោះយ៉ាងណាក៏ដោយក្នុងករណីនេះអ្នកសង្ស័យកំពុងធ្វើការប្រៀបធៀបមិនត្រឹមត្រូវ: ទិន្នន័យទាំងអស់ដែលអ្នកស្រាវជ្រាវប្រើប្រាស់មិនមានភាពពិតប្រាកដ។ ផ្ទុយទៅវិញវាល្អប្រសើរជាងការប្រៀបធៀបប្រភពទិន្នន័យពាណិជ្ជកម្មដែលប្រមូលផ្តុំជាមួយប្រភពទិន្នន័យផ្សេងទៀតដែលអាចរកបាន (ឧទាហរណ៍ឥរិយាបថបោះឆ្នោតដោយខ្លួនឯង) ដែលមានកំហុសឆ្គងផងដែរ។ ជាចុងក្រោយមេរៀនទី 3 នៃការស្រាវជ្រាវរបស់ Ansolabehere និង Hersh គឺថានៅក្នុងស្ថានភាពខ្លះអ្នកស្រាវជ្រាវអាចទទួលប្រយោជន៍ពីការវិនិយោគដ៏ធំធេងដែលក្រុមហ៊ុនឯកជនជាច្រើនកំពុងធ្វើក្នុងការប្រមូលនិងសម្របសម្រួលសំណុំទិន្នន័យសង្គមដ៏ស្មុគស្មាញ។