ទិន្នន័យដែលមិនតំណាងរស់គឺមិនល្អចំពោះការទូទៅទូទៅក្រៅពីគំរូប៉ុន្តែអាចមានប្រយោជន៍ណាស់សម្រាប់ការប្រៀបធៀបក្នុងគំរូ។
អ្នកវិទ្យាសាស្រ្តសង្គមមួយចំនួនមានទម្លាប់ធ្វើការជាមួយទិន្នន័យដែលបានមកពីគំរូចៃដន្យនៃប្រូបាប៊ីលីតេពីមនុស្សដែលបានកំណត់ច្បាស់លាស់ដូចជាមនុស្សពេញវ័យទាំងអស់នៅក្នុងប្រទេសជាក់លាក់មួយ។ ទិន្នន័យប្រភេទនេះត្រូវបានគេហៅថាទិន្នន័យ តំណាង ពីព្រោះគំរូនេះ "តំណាងឱ្យ" ចំនួនប្រជាជនកាន់តែច្រើន។ អ្នកស្រាវជ្រាវជាច្រើនបានផ្តល់រង្វាន់ដល់ទិន្នន័យអ្នកតំណាងហើយខ្លះទៀតទិន្នន័យដែលតំណាងគឺមានន័យដូចគ្នានឹងវិទ្យាសាស្រ្តយ៉ាងម៉ត់ចត់ចំណែកឯទិន្នន័យដែលមិនតំណាងរាយនាមគឺមានន័យដូចគ្នា។ យ៉ាងហោចណាស់អ្នកសង្ស័យខ្លះជឿថាគ្មានអ្វីអាចរៀនពីទិន្នន័យដែលមិនតំណាងបានទេ។ ប្រសិនបើពិតវាហាក់ដូចជាកំណត់នូវអ្វីដែលអាចរៀនបានពីប្រភពទិន្នន័យធំព្រោះភាគច្រើននៃពួកគេគឺជាតំណាងមិនតំណាង។ សំណាងល្អអ្នកសង្ស័យទាំងនេះមានត្រឹមតែផ្នែកខ្លះប៉ុណ្ណោះ។ មានគោលដៅស្រាវជ្រាវមួយចំនួនដែលទិន្នន័យដែលមិនតំណាងឱ្យបានច្បាស់លាស់មិនសមស្របប៉ុន្តែមានអ្នកផ្សេងទៀតដែលវាពិតជាមានប្រយោជន៍ណាស់។
ដើម្បីយល់ពីការវែកញែកនេះយើងសូមពិចារណាពីការស្រាវជ្រាវផ្នែកវិទ្យាសាស្រ្ត: ការស្រាវជ្រាវរបស់ John Snow ពីជំងឺរាលដាលជំងឺអាសន្នរោគ 1853-54 នៅក្នុងទីក្រុងឡុង។ នៅពេលនោះគ្រូពេទ្យជាច្រើនជឿថាជំងឺអាសន្នរោគត្រូវបានបង្កឡើងដោយ "ខ្យល់អាកាសអាក្រក់" ប៉ុន្តែព្រិលបានជឿថាវាជាជំងឺឆ្លងដែលប្រហែលជាអាចឆ្លងរាលដាលដោយទឹកផឹកលិច។ ដើម្បីសាកល្បងគំនិតនេះព្រិលបានឆ្លៀតយកប្រយោជន៍ពីអ្វីដែលឥឡូវនេះយើងអាចហៅថាជាការពិសោធន៍ធម្មជាតិ។ លោកបានប្រៀបធៀបអត្រាកើតជំងឺអាសន្នរោគរបស់គ្រួសារដែលបំរើដោយក្រុមហ៊ុនទឹកពីរផ្សេងគ្នាគឺក្រុមហ៊ុន Lambeth និង Southwark & Vauxhall ។ ក្រុមហ៊ុនទាំងនេះបានបម្រើការងារស្រដៀងគ្នានេះដែរប៉ុន្តែនៅឆ្នាំ 1849 គឺពីរបីឆ្នាំមុនពេលការរីករាលដាលបានចាប់ផ្តើមឡើង Lambeth បានផ្លាស់ប្តូរចំណីរបស់ខ្លួននៅតាមបណ្តោយទន្លេមេគង្គខណៈ Southwark & Vauxhall បន្សល់នូវបំពង់បង្ហូរឧស្ម័នរបស់ពួកគេនៅផ្នែកខាងក្រោម។ លិចទឹក។ នៅពេលដែលព្រិលបានប្រៀបធៀបអត្រាស្លាប់ពីជម្ងឺអាសន្នរោគនៅក្នុងគ្រួសារដែលបម្រើការដោយក្រុមហ៊ុនទាំងពីរនេះគាត់បានរកឃើញថាអតិថិជនរបស់ក្រុមហ៊ុន Southwark & Vauxhall ដែលជាក្រុមហ៊ុនផ្តល់ឱ្យអតិថិជននូវទឹកស្អុយមានអត្រាស្លាប់ 10 ដងដោយសារជំងឺអាសន្នរោគ។ លទ្ធផលនេះផ្តល់នូវភស្តុតាងវិទ្យាសាស្រ្តដ៏រឹងមាំសម្រាប់ការអះអាងរបស់ព្រិលអំពីមូលហេតុនៃជំងឺអាសន្នរោគបើទោះបីជាវាមិនផ្អែកលើគំរូនៃមនុស្សនៅទីក្រុងឡុងក៏ដោយ។
ទោះជាយ៉ាងណាទិន្នន័យពីក្រុមហ៊ុនទាំងពីរនេះមិនអាចល្អប្រសើរក្នុងការឆ្លើយសំណួរផ្សេងទៀតទេថាតើអត្រានៃជំងឺអាសន្នរោគនៅទីក្រុងឡុងដ៍មានកម្រិតណានៅពេលមានផ្ទុះជំងឺអេដស៍? ចំពោះសំនួរទី 2 ដែលមានសារៈសំខាន់ផងដែរវាគួរតែជាការប្រសើរណាស់ដែលមានគំរូមនុស្សតំណាងមកពីទីក្រុងឡុង។
ក្នុងនាមជាស្នាដៃការងាររបស់លោកណូអេបង្ហាញថាមានសំណួរវិទ្យាសាស្រ្តមួយចំនួនដែលទិន្នន័យដែលមិនមានតំណាងអាចមានប្រសិទ្ធភាពនិងមានលក្ខណៈផ្សេងទៀតដែលមិនសមស្រប។ មធ្យោបាយច្រោះមួយដើម្បីបែងចែកសំណួរពីរប្រភេទនេះគឺថាសំណួរខ្លះគឺអំពីការប្រៀបធៀបក្នុងគំរូហើយខ្លះទៀតគឺអំពីការទូទៅទូទៅដែលមិនត្រឹមត្រូវ។ ការវែកញែកនេះអាចត្រូវបានបង្ហាញបន្ថែមទៀតដោយការសិក្សាបុរាណមួយទៀតក្នុងការសិក្សារោគរាតត្បាត: ការសិក្សាវេជ្ជសាស្ត្រអង់គ្លេសដែលដើរតួនាទីយ៉ាងសំខាន់ក្នុងការបង្ហាញថាការជក់បារីបង្ករឱ្យមានជំងឺមហារីក។ នៅក្នុងការសិក្សានេះ Richard Doll និង A. Bradford Hill បានតាមដានគ្រូពេទ្យប្រហែល 25.000 នាក់អស់រយៈពេលជាច្រើនឆ្នាំហើយបានប្រៀបធៀបអត្រានៃការស្លាប់របស់ពួកគេដោយយោងទៅលើចំនួនដែលពួកគេបានជក់បារីនៅពេលការស្រាវជ្រាវបានចាប់ផ្តើម។ Doll and Hill (1954) រកឃើញទំនាក់ទំនងការឆ្លើយតបនិងការឆ្លើយតបដ៏ខ្លាំងក្លាមួយ: មនុស្សដែលជក់បារីកាន់តែច្រើននោះទំនងជាស្លាប់ដោយសារជំងឺមហារីកសួត។ ជាការពិតណាស់វានឹងមិនមានប្រាជ្ញាក្នុងការប៉ាន់ស្មានពីអត្រានៃជំងឺមហារីកសួតក្នុងចំណោមប្រជាជនអង់គ្លេសទាំងអស់នោះទេដោយផ្អែកទៅលើក្រុមគ្រូពេទ្យបុរសក្រុមនេះប៉ុន្តែការប្រៀបធៀបនៅក្នុងគំរូនៅតែផ្តល់នូវភស្តុតាងថាការជក់បារីបង្ករឱ្យមានជំងឺមហារីកសួត។
ឥឡូវខ្ញុំបានគូររូបភាពខុសគ្នារវាងការប្រៀបធៀបក្នុងគំរូនិងការធ្វើឱ្យមានទូទៅក្រៅពីគំរូពីរគន្លឹះគឺមានលំដាប់។ ទី 1 មានសំណួរជាទូទៅអំពីទំហំនៃទំនាក់ទំនងរវាងវេជ្ជបណ្ឌិតជនជាតិអង់គ្លេសនិងបុរសចក្រភពអង់គ្លេសឬបុរសកម្មកររោងចក្រអាល្លឺម៉ង់ឬក្រុមផ្សេងៗទៀត។ សំណួរទាំងនេះគួរឱ្យចាប់អារម្មណ៍និងមានសារៈសំខាន់ប៉ុន្តែវាខុសពីសំណួរអំពីវិសាលភាពដែលយើងអាចធ្វើជាទូទៅពីគំរូមួយទៅប្រជាជនមួយ។ សូមកត់សម្គាល់ឧទាហរណ៍ថាអ្នកប្រហែលជាសង្ស័យថាទំនាក់ទំនងរវាងការជក់បារីនិងជំងឺមហារីកដែលត្រូវបានគេរកឃើញនៅក្នុងវេជ្ជបណ្ឌិតប្រុសអង់គ្លេសអាចមានលក្ខណៈស្រដៀងគ្នានៅក្នុងក្រុមដទៃទៀត។ សមត្ថភាពរបស់អ្នកក្នុងការធ្វើការវែកញែកនេះមិនបានមកពីការពិតដែលថាគ្រូពេទ្យអង់គ្លេសបុរសគឺជាគំរូចៃដន្យនៃប្រជាជនណាមួយឡើយ។ ផ្ទុយទៅវិញវាបានមកពីការយល់ដឹងអំពីយន្តការដែលផ្សារភ្ជាប់ការជក់បារីនិងជំងឺមហារីក។ ដូច្នេះការធ្វើ generalization ពីសំណាកគំរូដល់ប្រជាជនដែលត្រូវបានដកចេញគឺជាបញ្ហាស្ថិតិមួយដ៏ធំប៉ុន្តែសំណួរអំពីការ ដឹកជញ្ជូន នៃលំនាំដែលត្រូវបានរកឃើញនៅក្នុងក្រុមមួយទៅក្រុមមួយទៀតគឺភាគច្រើនជាបញ្ហាមិនពិត (Pearl and Bareinboim 2014; Pearl 2015) ។
នៅចំណុចនេះការសង្ស័យមួយអាចចង្អុលបង្ហាញថាគំរូសង្គមភាគច្រើនប្រហែលជាមានការដឹកជញ្ជូនតិចជាងក្រុមនានាជាងទំនាក់ទំនងរវាងការជក់បារីនិងជំងឺមហារីក។ ហើយខ្ញុំយល់ស្រប។ វិសាលភាពដែលយើងគួរតែរំពឹងថាលំនាំនឹងត្រូវបានដឹកជញ្ជូនគឺទីបំផុតជាសំណួរវិទ្យាសាស្រ្តដែលត្រូវបានសម្រេចចិត្តដោយផ្អែកលើទ្រឹស្តីនិងភស្តុតាង។ វាមិនគួរត្រូវបានសន្មត់ដោយស្វ័យប្រវត្តិថាគំរូនឹងត្រូវបានដឹកជញ្ជូនប៉ុន្តែមិនគួរត្រូវបានគេសន្មត់ថាពួកគេនឹងមិនអាចដឹកជញ្ជូនបានទេ។ សំណួរអវិជ្ជមានទាំងនេះអំពីការដឹកជញ្ជូននឹងមានភាពច្បាស់លាស់ចំពោះអ្នកប្រសិនបើអ្នកបានតាមដានការពិភាក្សាអំពីថាតើអ្នកស្រាវជ្រាវប៉ុន្មាននាក់អាចរៀនអំពីឥរិយាបថរបស់មនុស្សដោយសិក្សានិស្សិតថ្នាក់បរិញ្ញា (Sears 1986, [@henrich_most_2010] ) ។ ទោះជាយ៉ាងណាក៏ដោយទោះបីជាមានការជជែកវែកញែកទាំងនេះក៏ដោយវាមិនសមហេតុផលទេដែលនិយាយថាអ្នកស្រាវជ្រាវមិនអាចរៀនអ្វីពីការសិក្សានិស្សិតថ្នាក់បរិញ្ញាបត្របានទេ។
ការលើកឡើងទីពីរគឺថាក្រុមអ្នកស្រាវជ្រាវភាគច្រើនដែលមិនមានទិន្នន័យតំណាងមិនមានការប្រុងប្រយ័ត្នដូចជាព្រិលឬដបនិងភ្នំ។ ដូច្នេះដើម្បីបង្ហាញពីអ្វីដែលអាចខុសប្រក្រតីនៅពេលដែលអ្នកស្រាវជ្រាវព្យាយាមធ្វើ generalization ក្រៅគំរូពីទិន្នន័យដែលមិនតំណាងអោយខ្ញុំសូមប្រាប់អ្នកអំពីការសិក្សាអំពីការបោះឆ្នោតសភាអាល្លឺម៉ង់ឆ្នាំ 2009 ដោយ Andranik Tumasjan និងសហសេវិក (2010) ។ តាមរយៈការវិភាគជាង 100.000 សារលិខិតធ្វីតធើពួកគេបានរកឃើញថាសមាមាត្រនៃធ្វីតដែលនិយាយអំពីគណបក្សនយោបាយមានចំនួនសមាមាត្រនៃសន្លឹកឆ្នោតដែលគណបក្សទទួលបាននៅក្នុងការបោះឆ្នោតសភា (រូបភាព 2.3) ។ ម៉្យាងទៀតវាបង្ហាញថាទិន្នន័យរបស់ Twitter ដែលមានសារៈសំខាន់ដោយឥតគិតថ្លៃអាចជំនួសការស្ទង់មតិមតិសាធារណៈដែលមានតម្លៃថ្លៃដោយសារតែការសង្កត់ធ្ងន់លើទិន្នន័យតំណាង។
ដែលបានផ្តល់ឱ្យនូវអ្វីដែលអ្នកប្រហែលជាដឹងអំពី Twitter រួចហើយអ្នកគួរតែមានការសង្ស័យភ្លាមអំពីលទ្ធផលនេះ។ អាល្លឺម៉ង់នៅលើ Twitter ក្នុងឆ្នាំ 2009 មិនមែនជាគំរូចៃដន្យនៃអ្នកបោះឆ្នោតអាឡឺម៉ង់ហើយអ្នកគាំទ្ររបស់គណបក្សខ្លះប្រហែលជាអាចនិយាយអំពីនយោបាយញឹកញាប់ជាងអ្នកគាំទ្រគណបក្សដទៃ។ ដូច្នេះវាហាក់ដូចជាគួរឱ្យភ្ញាក់ផ្អើលដែលថាភាពលំអៀងទាំងអស់ដែលអ្នកអាចស្រមៃនឹងលុបចោលដូចនេះទិន្នន័យនេះអាចឆ្លុះបញ្ចាំងដោយផ្ទាល់ដល់អ្នកបោះឆ្នោតអាល្លឺម៉ង់។ ជាការពិតលទ្ធផលនៅ Tumasjan et al. (2010) បានក្លាយទៅជារឿងល្អពេក។ ក្រដាសតាមដានដោយលោក Andreas Jungherr, Pascal Jürgensនិង Harald Schoen (2012) បានចង្អុលបង្ហាញថាការវិភាគដើមមិនបានរាប់បញ្ចូលគណបក្សនយោបាយដែលបានទទួលការលើកឡើងច្រើនជាងគេនៅលើ Twitter: គណបក្ស Pirate ដែលជាគណបក្សតូចមួយដែលប្រឆាំងនឹងបទបញ្ជារបស់រដ្ឋាភិបាល។ នៃអ៊ីនធឺណិត។ នៅពេលដែលគណបក្ស Pirate ត្រូវបានរួមបញ្ចូលនៅក្នុងការវិភាគនោះ Twitter បានលើកឡើងថាជាការទស្សន៍ទាយពីលទ្ធផលនៃការបោះឆ្នោត (រូបភាព 2.3) ។ ដូចឧទាហរណ៍នេះបង្ហាញថាការប្រើប្រភពទិន្នន័យដែលមិនតំណាងអោយការធ្វើជាទូទៅអាចនឹងមិនត្រឹមត្រូវទេ។ ដូចគ្នានេះដែរអ្នកគួរកត់សំគាល់ថាការពិតដែលថាមាន tweets 100.000 ជាមូលដ្ឋានមិនទាក់ទង: ទិន្នន័យដែលមិនតំណាងឱ្យច្រើនគឺនៅតែមិនមែនជាតំណាងដែលជាប្រធានបទដែលខ្ញុំនឹងត្រឡប់ទៅជំពូកទី 3 នៅពេលខ្ញុំពិភាក្សាអំពីការស្ទង់មតិ។
ដើម្បីសន្និដ្ឋានប្រភពទិន្នន័យធំ ៗ ជាច្រើនមិនមែនជាគំរូតំណាងពីប្រជាជនដែលបានកំណត់ច្បាស់លាស់មួយចំនួន។ ចំពោះសំណួរដែលតម្រូវឱ្យមានលទ្ធផលទូទៅពីសំណាកគំរូដល់ប្រជាជនដែលវាត្រូវបានដកចេញនេះគឺជាបញ្ហាធ្ងន់ធ្ងរ។ ប៉ុន្តែចំពោះសំណួរអំពីការប្រៀបធៀបក្នុងគំរូទិន្នន័យដែលមិនតំណាងបានអាចមានប្រសិទ្ធភាពដរាបណាអ្នកស្រាវជ្រាវច្បាស់លាស់អំពីលក្ខណៈនៃគំរូរបស់ពួកគេនិងការអះអាងគាំទ្រអំពីការដឹកជញ្ជូនតាមភស្តុតាងទ្រឹស្តីឬភ័ស្តុតាង។ ការពិតក្តីសង្ឃឹមរបស់ខ្ញុំគឺថាប្រភពទិន្នន័យធំ ៗ នឹងអាចឱ្យក្រុមអ្នកស្រាវជ្រាវធ្វើការប្រៀបធៀបតិចតួចនៅក្នុងក្រុមមិនតំណាងឱ្យច្រើនហើយការប៉ាន់ប្រមាណរបស់ខ្ញុំគឺថាការប៉ាន់ស្មានពីក្រុមផ្សេងៗគ្នានឹងធ្វើច្រើនជាងមុនដើម្បីជំរុញការស្រាវជ្រាវសង្គមជាងការប៉ាន់ប្រមាណតែមួយពីការចៃដន្យ probabilistic គំរូ។