អ្នកស្រាវជ្រាវបាន scraped ប្រព័ន្ធផ្សព្វផ្សាយសង្គមរបស់ប្រទេសចិនដើម្បីសិក្សាការត្រួតពិនិត្យ។ ពួកគេបានដោះស្រាយជាមួយនឹងភាពមិនពេញលេញជាមួយ inference មិនទាន់ឃើញច្បាស់-លក្ខណៈ។
ក្នុងការបន្ថែមទៅទិន្នន័យធំដែលបានប្រើក្នុងឧទាហរណ៍ទាំងពីរមុន, ក្រុមអ្នកស្រាវជ្រាវផងដែរអាចប្រមូលទិន្នន័យអង្កេតរបស់ពួកគេផ្ទាល់ខ្លួនដូចដែលបានបានបង្ហាញយ៉ាងអស្ចារ្យដោយលោក Gary ស្ដេច, នាង Jennifer ប៉ាន, និង Molly Roberts បាន " (2013) ស្រាវជ្រាវលើការពិនិត្យចាប់ពិរុទ្ធដោយរដ្ឋាភិបាលចិន។
ប្រកាសប្រព័ន្ធផ្សព្វផ្សាយសង្គមនៅក្នុងប្រទេសចិនត្រូវបានត្រួតពិនិត្យដោយ apparatus រដ្ឋមួយយ៉ាងធំសម្បើមដែលត្រូវបានគិតថាដើម្បីរួមបញ្ចូលមនុស្សរាប់ម៉ឺននាក់។ ក្រុមអ្នកស្រាវជ្រាវបាននិងពលរដ្ឋ, ទោះជាយ៉ាងណា, មានន័យតិចតួចអំពីរបៀបនៃការពិនិត្យចាប់ពិរុទ្ធទាំងនេះសម្រេចនូវអ្វីដែលមាតិកាគួរត្រូវបានលុបចេញពីប្រព័ន្ធផ្សព្វផ្សាយសង្គម។ អ្នកប្រាជ្ញនៃប្រទេសចិនពិតជាមានការរំពឹងទុកដែលមានជម្លោះអំពីការដែលប្រភេទនៃការប្រកាសនេះទំនងជានឹងទទួលបានលុបបំផុត។ មួយចំនួនគិតថាការពិនិត្យចាប់ពិរុទ្ធផ្តោតលើការប្រកាសដែលសំខាន់របស់រដ្ឋរីឯអ្នកផ្សេងទៀតគិតថាពួកគេផ្តោតលើការលើកទឹកចិត្តឥរិយាបថប្រកាសថាជារួមដូចជាការតវ៉ា។ រកមើលពីការរំពឹងទុកដែលទាំងនេះគឺត្រឹមត្រូវមានផលប៉ះពាល់សម្រាប់ក្រុមអ្នកស្រាវជ្រាវយល់ពីប្រទេសចិនអំពីរបៀបដែលរដ្ឋាភិបាលផ្តាច់ការផ្សេងទៀតនិងការចូលរួមក្នុងការចាប់ពិរុទ្ធដែលមាន។ ដូច្នេះស្តេចនិងសហការីចង់ប្រៀបធៀបប្រកាសដែលត្រូវបានបោះពុម្ពនិងលុបការប្រកាសដែលត្រូវបានបោះពុម្ពនិងលុបមិនជាបន្តបន្ទាប់។
ការប្រមូលការប្រកាសទាំងនេះពាក់ព័ន្ធនឹងការកោតសរសើរវិស្វកម្មអស្ចារ្យនៃការវារគេហទំព័រប្រព័ន្ធផ្សព្វផ្សាយសង្គមរបស់ប្រទេសចិនជារៀងរាល់ច្រើនជាង 1.000 នាក់ជាមួយនឹងទំព័រផ្សេងគ្នាស្វែងរកការប្រកាសប្លង់ពាក់ព័ន្ធនិងបន្ទាប់មក revisiting ការប្រកាសទាំងនេះដើម្បីមើលឃើញដែលត្រូវបានគេលុបចេញទៅវិញ។ ក្រៅពីបញ្ហាវិស្វកម្មធម្មតាបានផ្សារភ្ជាប់ជាមួយនឹងបណ្តាញខ្នាតធំលុន, គម្រោងនេះបានបន្ថែមទៀតថាបញ្ហាប្រឈមដែលវាត្រូវការដើម្បីជាការបានយ៉ាងឆាប់រហ័សដោយសារតែការប្រកាសយ៉ាងខ្លាំងជាច្រើនដែលត្រូវបានគេយកពិនិត្យចាប់ពិរុទ្ធចុះនៅក្នុងតិចជាង 24 ម៉ោង។ នៅក្នុងពាក្យផ្សេងទៀតដែលជា crawler យឺតនឹងនឹកជាច្រើននៃការប្រកាសដែលត្រូវបានពិនិត្យចាប់ពិរុទ្ធ។ លើសពីនេះទៀតកម្មវិធីប្រមូលបានដើម្បីធ្វើការប្រមូលទិន្នន័យទាំងអស់នេះខណៈពេលដែលមិនបង់ការរកឃើញក្រែងលោវេបសាយប្រព័ន្ធផ្សព្វផ្សាយសង្គមឬបើមិនដូច្នេះទេការចូលដំណើរការរារាំងការផ្លាស់ប្តូរគោលនយោបាយរបស់ខ្លួនក្នុងការឆ្លើយតបទៅនឹងការសិក្សានេះ។
នៅពេលភារកិច្ចវិស្វកម្មធំមួយនេះត្រូវបានបញ្ចប់, ស្តេចនិងមិត្តរួមការងារបានទទួលប្រហែល 11 លាននាក់ប្រកាសនៅលើប្រធានបទផ្សេងគ្នា 85 នាក់ដែលមានមុនដែលបានបញ្ជាក់ដោយផ្អែកលើកម្រិតដែលរំពឹងទុករបស់ពួកគេនៃការប្រែប្រួល។ ឧទាហរណ៍ប្រធានបទនៃភាពប្រែប្រួលខ្ពស់គឺលោក Ai Weiwei សិល្បករប្រឆាំងនេះ; ប្រធានបទនៃភាពប្រែប្រួលពាក់កណ្តាលគឺជាការកោតសរសើរនិងការធ្លាក់ថ្លៃនៃរូបិយប័ណ្ណរបស់ប្រទេសចិននិងប្រធានបទនៃភាពប្រែប្រួលទាបមួយ World Cup ។ 11 លានប្រកាសទាំងនេះប្រហែល 2 លាននាក់ត្រូវបានពិនិត្យចាប់ពិរុទ្ធទេតែប្រកាសនៅលើប្រធានបទរសើបយ៉ាងខ្លាំងត្រូវបានគេពិនិត្យចាប់ពិរុទ្ធតែបន្តិចញឹកញាប់ជាងប្រកាសនៅលើប្រធានបទរសើបកណ្តាលនិងទាប។ នៅក្នុងពាក្យផ្សេងទៀតចាប់ពិរុទ្ធរបស់ចិនគឺប្រហែលជាទំនងជានឹងការចាប់ពិរុទ្ធប្រកាសថាលោក Ai Weiwei ជាការលើកឡើងក្រោយដែលបានវែកញែកអំពីការប្រកួត World Cup មួយ។ ការរកឃើញទាំងនេះមិនត្រូវគ្នានឹងគំនិតធម្មតាដែលរដ្ឋាភិបាល censors ប្រកាសទាំងអស់នៅលើប្រធានបទរសើប។
នេះជាអត្រាការគណនាសាមញ្ញដោយប្រធានបទអាចចាប់ពិរុទ្ធជាការយល់ច្រឡំទេ។ ឧទាហរណ៍រដ្ឋាភិបាលប្រហែលជាអាចចាប់ពិរុទ្ធប្រកាសថាមានការគាំទ្ររបស់លោក Ai Weiwei នោះទេតែចាកចេញពីកន្លែងដែលរិះគន់គាត់។ ក្នុងគោលបំណងដើម្បីបែងចែករវាងប្រកាសច្រើនទៀតដោយប្រុងប្រយ័ត្ន, អ្នកស្រាវជ្រាវបានត្រូវការដើម្បីវាស់សន្ទស្សន៍អារម្មណ៍នៃការប្រកាសគ្នា។ ដូច្នេះវិធីមួយដើម្បីគិតអំពីវានោះគឺថាសន្ទស្សន៍អារម្មណ៍នៃការប្រកាសគ្នានៅក្នុងលក្ខណៈពិសេសសំខាន់នៃការប្រកាសមិនទាន់ឃើញច្បាស់គ្នា។ ជាអកុសលទោះបីមានការងារជាច្រើន, វិធីសាស្រ្តដោយស្វ័យប្រវត្តិយ៉ាងពេញលេញនៃការរកឃើញសន្ទស្សន៍អារម្មណ៍ដោយការប្រើវចនានុក្រមមុនដែលមានស្រាប់គឺនៅតែមិនល្អខ្លាំងណាស់នៅក្នុងស្ថានភាពមួយជាច្រើន (គិតថាត្រឡប់មកវិញទៅលើបញ្ហាដែលបានបង្កើតកំណត់ពេលវេលាអារម្មណ៍នៃទី 11 ខែកញ្ញាឆ្នាំ 2001 ពីផ្នែក 2.3.2.6) ។ ដូច្នេះស្ដេចនិងមិត្តរួមការងារដែលត្រូវការវិធីមួយដើម្បីដាក់ស្លាកប្រព័ន្ធផ្សព្វផ្សាយសង្គមដែលប្រកាសខ្លួនថាជា 11 លាននាក់ជាពួកគេថាតើទី 1) សំខាន់នៃរដ្ឋ, 2) គាំទ្ររបស់រដ្ឋ, ឬ 3) របាយការណ៍មិនទាក់ទងឬអង្គហេតុអំពីព្រឹត្តិការណ៍នេះ។ នេះស្តាប់មើលទៅហាក់ដូចជាការការងារយ៉ាងច្រើនមួយប៉ុន្តែពួកគេដោះស្រាយវាដោយប្រើល្បិចអំណាច; មួយដែលមានជាទូទៅនៅក្នុងវិទ្យាសាស្ដ្រទិន្នន័យប៉ុន្តែបច្ចុប្បន្នដែលទាក់ទងកម្រនៅក្នុងវិទ្យាសាស្ដ្រសង្គម។
ដំបូង, នៅក្នុងជំហានមួយដែលជាធម្មតាគេហៅថាមុនកែច្នៃ, អ្នកស្រាវជ្រាវបានបម្លែងប្រព័ន្ធផ្សព្វផ្សាយសង្គមប្រកាសម៉ាទ្រីសឯកសារទៅជារយៈពេលជាកន្លែងដែលមានជួរដេកមួយសម្រាប់ឯកសារគ្នានិងជួរឈរមួយដែលបានកត់ត្រាថាតើក្រោយដែលមានពាក្យជាក់លាក់មួយ (ឧទាហរណ៍, ការតវ៉ា, ចរាចរណ៍ជាដើម) ។ បន្ទាប់ក្រុមជំនួយការផ្នែកស្រាវជ្រាវដៃដែលមានស្លាកអារម្មណ៍នៃគំរូនៃការប្រកាសមួយ។ បន្ទាប់មកព្រះមហាក្សត្រនិងសហការីបានប្រើទិន្នន័យដែលបានដាក់ស្លាកដោយដៃនេះដើម្បីប៉ាន់ស្មានថាជាគំរូដែលអាចរៀនសូត្រម៉ាស៊ីនសន្និដ្ឋានសន្ទស្សន៍អារម្មណ៍នៃការប្រកាសដោយផ្អែកលើលក្ខណៈរបស់ខ្លួន។ ជាចុងក្រោយ, ពួកគេបានប្រើនេះគំរូរៀនម៉ាស៊ីនដើម្បីប៉ាន់ប្រមាណអារម្មណ៍នៃការប្រកាសទាំងអស់ 11 លាននាក់។ ដូច្នេះជាជាងការអានដោយដៃនិងស្លាក 11 លាននាក់ប្រកាស (ដែលនឹងមិនអាចដឹកនាំសាស្ត្រ), ពួកគេបានដាក់ស្លាកដោយដៃមួយចំនួនតូចមួយនៃប្រកាសហើយបន្ទាប់មកត្រូវបានគេប្រើអ្វីដែលអ្នកវិទ្យាសាស្ដ្របានហៅទិន្នន័យដែលការចាត់ចែងការប៉ាន់ស្មានការរៀនប្រភេទនៃការប្រកាសទាំងអស់នេះ។ បន្ទាប់ពីបានបញ្ចប់ការវិភាគនេះព្រះមហាក្សត្រនិងសហការីអាចសន្និដ្ឋានថា, បន្តិចគួរឱ្យភ្ញាក់ផ្អើល, ប្រូបាប៊ីលីតេនៃការប្រកាសនេះត្រូវបានលុបគឺមិនទាក់ទងទៅនឹងថាតើវាសំខាន់របស់រដ្ឋឬគាំទ្ររបស់រដ្ឋ។
នៅទីបញ្ចប់ស្ដេចនិងសហការីបានរកឃើញថាមានតែបីប្រភេទនៃប្រកាសត្រូវបានត្រួតពិនិត្យឱ្យបានទៀងទាត់: រូបអាសអាភាសការរិះគន់របស់ការពិនិត្យចាប់ពិរុទ្ធនិងអ្នកដែលមានសក្តានុពលសកម្មភាពរួម (ពោលគឺលទ្ធភាពនៃការនាំឱ្យមានការតវ៉ាទ្រង់ទ្រាយធំនេះ) ។ ដោយការសង្កេតមួយចំនួនធំនៃប្រកាសដែលត្រូវបានលុបហើយប្រកាសថាមិនត្រូវបានលុបព្រះមហាក្សត្រនិងសហការីអាចរៀនពីរបៀបពិនិត្យចាប់ពិរុទ្ធធ្វើការដោយមើលនិងរាប់គ្រាន់តែជា។ ក្នុងការស្រាវជ្រាវជាបន្តបន្ទាប់, ពួកគេពិតជាបានធ្វើអន្តរាគមន៍ដោយផ្ទាល់ទៅក្នុងប្រព័ន្ធអេកូប្រព័ន្ធផ្សព្វផ្សាយសង្គមរបស់ប្រទេសចិនដោយការបង្កើតការប្រកាសដែលមានមាតិកាខុសគ្នាជាលក្ខណៈប្រព័ន្ធនិងដែលទទួលបានការពិនិត្យចាប់ពិរុទ្ធវាស់ (King, Pan, and Roberts 2014) ។ យើងនឹងរៀនបន្ថែមទៀតអំពីវិធីសាស្រ្តក្នុងជំពូកទី 4 ពិសោធន៍បន្ថែមទៀតបានជំនួយស្បែកមួយដែលនឹងកើតឡើងនៅទូទាំងសៀវភៅមួយនេះបញ្ហាដែលមិនទាន់ឃើញច្បាស់-គុណលក្ខណៈ inference ពេលខ្លះអាចត្រូវបានដោះស្រាយដោយមានប្រាស់រៀនបែរទៅជារឿងធម្មតាណាស់ក្នុងការស្រាវជ្រាវសង្គមនៅ អាយុឌីជីថល។ អ្នកនឹងឃើញរូបភាពស្រដៀងគ្នាយ៉ាងខ្លាំងទៅនឹងរូបភាពទី 2.3 ក្នុងជំពូកទី 3 (ការសួរសំណួរ) និង 5 (ការបង្កើតការសហការសម្លាប់យ៉ាងរង្គាល) វាជាផ្នែកមួយនៃគំនិតមួយចំនួនដែលលេចឡើងនៅក្នុងជំពូកជាច្រើន។
ឧទាហរណ៍ទាំងបីនេះនៅឥរិយាបទ-ការងាររបស់អ្នកបើកបរតាក់ស៊ីនៅទីក្រុង New York, ការបង្កើតទំនាក់ទំនងមិត្តភាពដោយសិស្សនិស្សិតនិងប្រព័ន្ធផ្សព្វផ្សាយសង្គមឥរិយាបទចាប់ពិរុទ្ធរបស់រដ្ឋាភិបាលចិនដែលបង្ហាញសាមញ្ញដែលទាក់ទងនៃការរាប់ទិន្នន័យអង្កេតស្រាវជ្រាវនេះអាចអនុញ្ញាតឱ្យការព្យាករទ្រឹស្តីសាកល្បង។ ក្នុងករណីមួយចំនួន, ទិន្នន័យធំអនុញ្ញាតឱ្យអ្នកដើម្បីធ្វើការទំនាក់ទំនងដោយផ្ទាល់ការរាប់នេះ (ដូចនៅក្នុងករណីនៃទីក្រុងញូវយ៉រថយន្តតាក់ស៊ីនេះ) ។ ក្នុងករណីផ្សេងទៀត, អ្នកស្រាវជ្រាវនឹងត្រូវប្រមូលទិន្នន័យអង្កេតរបស់ខ្លួនផ្ទាល់ (ដូចនៅក្នុងករណីនៃការត្រួតពិនិត្យរបស់ប្រទេសចិន); ដោះស្រាយជាមួយនឹងភាពមិនពេញលេញដោយបញ្ចូលទិន្នន័យរួមគ្នា (ដូចនៅក្នុងករណីនៃការវិវត្តបណ្តាញ); ឬបំពេញសំណុំបែបបទមួយចំនួននៃការ inference មិនទាន់ឃើញច្បាស់-លក្ខណៈ (ដូចនៅក្នុងករណីនៃការត្រួតពិនិត្យរបស់ប្រទេសចិន) ។ ដូចដែលខ្ញុំបានសង្ឃឹមថាគំរូទាំងនេះបង្ហាញថាអ្នកស្រាវជ្រាវដែលអាចសួរសំណួរគួរឱ្យចាប់អារម្មណ៍, ធំមានសេចក្ដីសន្យាអស្ចារ្យ។