សំណួរអំពីមូលហេតុនៅក្នុងការស្រាវជ្រាវសង្គមជាញឹកញាប់ស្មុគស្មាញនិងស្មុគស្មាញ។ ចំពោះវិធីសាស្រ្តមូលដ្ឋានគ្រឹះនៃមូលហេតុដែលផ្អែកលើក្រាហ្វិចកើតឡើងសូមមើល Pearl (2009) និងសម្រាប់វិធីសាស្រ្តមូលដ្ឋានផ្អែកលើលទ្ធផលដែលមានសក្ដានុពលសូមមើល Imbens and Rubin (2015) ។ ដើម្បីប្រៀបធៀបវិធីសាស្រ្តទាំងពីរនេះសូមមើល Morgan and Winship (2014) ។ ចំពោះវិធីសាស្ត្រជាផ្លូវការដើម្បីកំណត់ភាពច្របូកច្របល់សូមមើល VanderWeele and Shpitser (2013) ។
នៅក្នុងជំពូកនេះខ្ញុំបានបង្កើតអ្វីដែលមើលទៅហាក់ដូចជាបន្ទាត់ភ្លឺរវាងសមត្ថភាពរបស់យើងក្នុងការបង្កើតការប៉ាន់ស្មានការកើតឡើងពីទិន្នន័យពិសោធន៍និងមិនពិសោធន៍។ ទោះជាយ៉ាងណាខ្ញុំគិតថាតាមពិតភាពខុសប្លែកគឺព្រិលច្រើន។ ជាឧទាហរណ៍មនុស្សគ្រប់គ្នាទទួលស្គាល់ថាការជក់បារីបង្ករឱ្យមានជំងឺមហារីកទោះបីជាមិនមានការពិសោធពិសោធណាដែលអាចបង្ខំមនុស្សជក់បារីបានក៏ដោយ។ សម្រាប់ការព្យាបាលសៀវភៅប្រវែងល្អបំផុតនៅលើធ្វើការប៉ាន់ស្មានធ្វើអោយពីទិន្នន័យមិនពិសោធន៍ឃើញ Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) និង Dunning (2012) ។
ជំពូកទី 1 និងទី 2 នៃ Freedman, Pisani, and Purves (2007) ផ្តល់ជូននូវការណែនាំច្បាស់លាស់អំពីភាពខុសគ្នារវាងពិសោធន៍ពិសោធន៍គ្រប់គ្រងនិងពិសោធន៍គ្រប់គ្រងដោយចៃដន្យ។
Manzi (2012) ផ្តល់នូវការណែនាំគួរឱ្យចាប់អារម្មណ៍និងអាចអានបានទៅនឹងទ្រឹស្ដីនិងស្ថិតិនៃការពិសោធន៍ដោយចៃដន្យ។ វាក៏ផ្តល់នូវឧទាហរណ៏ជាក់ស្តែងនៃពិភពលោកដែលគួរឱ្យចាប់អារម្មណ៍នៃអំណាចនៃការពិសោធន៏នៅក្នុងអាជីវកម្ម។ Issenberg (2012) ផ្តល់នូវការណែនាំគួរឱ្យចាប់អារម្មណ៍មួយចំពោះការប្រើប្រាស់ពិសោធន៍ក្នុងយុទ្ធនាការនយោបាយ។
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 និង Athey and Imbens (2016b) ផ្តល់នូវការណែនាំល្អ ៗ ដល់ទិដ្ឋភាពស្ថិតិនៃការច្នៃប្រឌិតនិងការវិភាគ។ លើសពីនេះទៀតគឺមានការព្យាបាលល្អបំផុតនៃការប្រើប្រាស់នៃការពិសោធន៍នៅក្នុងវាលផ្សេងគ្នាជាច្រើន: សេដ្ឋកិច្ច (Bardsley et al. 2009) , សង្គមវិទ្យា (Willer and Walker 2007; Jackson and Cox 2013) , ចិត្តវិទ្យា (Aronson et al. 1989) វិទ្យាសាស្រ្តនយោបាយ (Morton and Williams 2010) និងនយោបាយសង្គម (Glennerster and Takavarasha 2013) ។
សារៈសំខាន់នៃការជ្រើសរើសអ្នកចូលរួម (ឧទាហរណ៍គំរូ) តែងតែត្រូវបានគេកោតសរសើរចំពោះការស្រាវជ្រាវពិសោធន៍។ ទោះជាយ៉ាងណាក៏ដោយប្រសិនបើឥទ្ធិពលនៃការព្យាបាលមានលក្ខណៈខុសៗគ្នាចំពោះប្រជាជននោះការជ្រើសរើសយកឈាមគឺជាការសំខាន់។ Longford (1999) ធ្វើឱ្យចំណុចនេះយ៉ាងច្បាស់នៅពេលដែលគាត់តស៊ូមតិសម្រាប់អ្នកស្រាវជ្រាវដែលបានគិតអំពីការពិសោធន៍លើការស្ទង់មតិប្រជាពលរដ្ឋដោយប្រើវិធីសាស្ដ្រ។
ខ្ញុំបានស្នើថាមានការបន្តរវាងពិសោធន៍មន្ទីរពិសោធន៍និងអ្នកស្រាវជ្រាវដទៃទៀតបានស្នើឱ្យមានលក្ខណៈពិសេសបន្ថែមទៀតជាពិសេសអ្នកដែលបំបែកប្រភេទផ្សេងៗនៃការសាកល្បងវាល (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) ។
ឯកសារមួយចំនួនបានប្រៀបធៀបការពិសោធនៅមន្ទីរពិសោធន៍និងពិសោធន៍នៅវាលស្រែ (Falk and Heckman 2009; Cialdini 2009) និងលទ្ធផលនៃការពិសោធជាក់លាក់នៅក្នុងវិទ្យាសាស្ត្រនយោបាយ (Coppock and Green 2015) សេដ្ឋកិច្ច (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) និងចិត្តវិទ្យា (Mitchell 2012) ។ Jerit, Barabas, and Clifford (2013) ផ្តល់នូវការរចនាដ៏ល្អមួយសម្រាប់ការប្រៀបធៀបលទ្ធផលពីការសាកល្បងពិសោធន៍។ Parigi, Santana, and Cook (2017) ពិពណ៌នាអំពីរបៀបដែលការធ្វើពិសោធលើបណ្តាញអ៊ីធឺណិតអាចរួមបញ្ចូលនូវលក្ខណៈមួយចំនួននៃការសាកល្បងពិសោធន៍និងពិសោធន៍។
ការព្រួយបារម្ភអំពីអ្នកចូលរួមក្នុងការផ្លាស់ប្តូរអាកប្បកិរិយារបស់ពួកគេដោយសារតែពួកគេដឹងថាពួកគេត្រូវបានសង្កេតមើលយ៉ាងជិតស្និទ្ធជួនកាលត្រូវបានគេហៅថា ផលនៃតម្រូវការ ហើយពួកគេត្រូវបានគេសិក្សាផ្នែកចិត្តវិទ្យា (Orne 1962) និងសេដ្ឋកិច្ច (Zizzo 2010) ។ ថ្វីបើភាគច្រើនពាក់ព័ន្ធនឹងពិសោធន៍មន្ទីរពិសោធន៍បញ្ហាដូចគ្នានេះក៏អាចបណ្តាលឱ្យមានការពិបាកសម្រាប់ការពិសោធន៍ផងដែរ។ ការពិត ផលនៃតម្រូវការ ក៏ត្រូវបានគេហៅផងដែរថា ផលជន៍ Hawthorne ដែលជាលទ្ធផលនៃការពិសោធន៍ការបំភ្លឺដ៏ល្បីល្បាញដែលបានចាប់ផ្តើមនៅឆ្នាំ 1924 នៅ Hawthorne Works របស់ក្រុមហ៊ុន Western Electric (Adair 1984; Levitt and List 2011) ។ ទាំងពីរ តម្រូវការ និង ផលប៉ះពាល់ Hawthorne ត្រូវបានទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងគំនិតនៃការវាស់ស្ទង់សកម្មភាពដែលបានពិភាក្សានៅក្នុងជំពូក 2 (សូមមើលផងដែរ Webb et al. (1966) ) ។
ការពិសោធន៍នៅទីវាលមានប្រវត្តិយូរអង្វែងខាងសេដ្ឋកិច្ច (Levitt and List 2009) វិទ្យាសាស្ត្រនយោបាយ (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , ចិត្តវិទ្យា (Shadish 2002) និងគោលនយោបាយសាធារណៈ (Shadish and Cook 2009) ។ មួយផ្នែកនៃវិទ្យាសាស្រ្តសង្គមដែលជាកន្លែងដែលការពិសោធន៍លើវាលបានក្លាយទៅជាលេចធ្លោយ៉ាងឆាប់រហ័សគឺការអភិវឌ្ឍអន្តរជាតិ។ សម្រាប់ការពិនិត្យឡើងវិញជាវិជ្ជមាននៃការងារនៅក្នុងសេដ្ឋកិច្ចសូមមើលលោក Banerjee and Duflo (2009) ហើយសម្រាប់ការវាយតម្លៃដ៏សំខាន់មួយសូមមើល Deaton (2010) ។ ចំពោះការពិនិត្យមើលឡើងវិញនៃការងារនេះនៅក្នុងវិទ្យាសាស្ត្រនយោបាយសូមមើល Humphreys and Weinstein (2009) ។ ទីបំផុតបញ្ហាប្រឈមសីលធម៌ដែលកើតឡើងពីការពិសោធន៍នៅតាមវាលត្រូវបានគេរកឃើញនៅក្នុងបរិបទនៃវិទ្យាសាស្រ្តនយោបាយ (Humphreys 2015; Desposato 2016b) និងសេដ្ឋកិច្ចអភិវឌ្ឍន៍ (Baele 2013) ។
នៅក្នុងផ្នែកនេះខ្ញុំបានស្នើថាព័ត៌មានមុនព្យាបាលអាចត្រូវបានប្រើដើម្បីកែលម្អភាពជាក់លាក់នៃការព្យាបាលដែលបានប៉ាន់ប្រមាណប៉ុន្តែមានការជជែកមួយចំនួនអំពីវិធីសាស្រ្តនេះ។ សូមមើល Freedman (2008) W. Lin (2013) , Berk et al. (2013) និង Bloniarz et al. (2016) សម្រាប់ព័ត៌មានបន្ថែម។
ជាចុងក្រោយមានពីរប្រភេទផ្សេងទៀតនៃការពិសោធន៍ដែលបានអនុវត្តដោយអ្នកវិទ្យាសាស្រ្តសង្គមដែលមិនសមយ៉ាងល្អនៅតាមបណ្តោយទំហំវាលវាល - ពិសោធន៍និងការពិសោធន៍សង្គម។ ការសាកល្បងការសាកល្បង គឺជាការពិសោធន៍ដោយប្រើហេដ្ឋារចនាសម្ព័ន្ធនៃការស្ទង់មតិដែលមានស្រាប់ហើយប្រៀបធៀបការឆ្លើយតបទៅនឹងសំណើសុំផ្សេងៗនៃសំណួរដូចគ្នា (ការសាកល្បងអង្កេតមួយចំនួនត្រូវបានបង្ហាញនៅក្នុងជំពូកទី 3) ។ សម្រាប់ពិសោធន៍បន្ថែមទៀតលើការធ្វើអង្កេតពិសោធន៍សូមមើល Mutz (2011) ។ ការពិសោធន៍សង្គម គឺជាពិសោធន៍ដែលការព្យាបាលគឺជាគោលនយោបាយសង្គមមួយចំនួនដែលអាចអនុវត្តបានដោយរដ្ឋាភិបាលតែប៉ុណ្ណោះ។ ការសាកល្បងសង្គមគឺទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងការវាយតម្លៃកម្មវិធី។ សម្រាប់ព័ត៌មានបន្ថែមអំពីពិសោធន៍គោលនយោបាយសូមមើល Heckman and Smith (1995) Orr (1998) និង @ glennerster_running_2013 ។
ខ្ញុំបានជ្រើសរើសផ្តោតលើគំនិតបីគឺសុពលភាពភាពមិនធម្មតានៃឥទ្ធិពលនៃការព្យាបាលនិងយន្តការ។ គំនិតទាំងនេះមានឈ្មោះផ្សេងគ្នានៅក្នុងវាលផ្សេងគ្នា។ ឧទាហរណ៍អ្នកចិត្តសាស្ដ្រមាននិន្នាការផ្លាស់ប្តូរលើសពីការពិសោធន៍សាមញ្ញដោយផ្តោតលើ អ្នកសម្របសម្រួល និង អ្នកសម្របសម្រួល (Baron and Kenny 1986) ។ គំនិតនៃអ្នកសម្រុះសម្រួលត្រូវបានចាប់យកដោយអ្វីដែលខ្ញុំហៅថាយន្តការហើយគំនិតនៃការសម្របសម្រួលត្រូវបានចាប់យកដោយអ្វីដែលខ្ញុំហៅថាសុពលភាពខាងក្រៅ (ឧ។ លទ្ធផលនៃការពិសោធន៍នឹងខុសគ្នាប្រសិនបើវាត្រូវបានដំណើរការក្នុងស្ថានភាពខុសៗគ្នា) និងភាពមិនធម្មតានៃផលប៉ះពាល់នៃការព្យាបាល ឧទាហរណ៍មានផលប៉ះពាល់ធំធេងចំពោះមនុស្សខ្លះជាងអ្នកដទៃ) ។
ពិសោធន៍ដោយ Schultz et al. (2007) បង្ហាញអំពីរបៀបដែលទ្រឹស្តីសង្គមអាចត្រូវបានប្រើដើម្បីរៀបចំអន្តរាគមន៍ដែលមានប្រសិទ្ធភាព។ ចំពោះអាគុយម៉ង់ទូទៅបន្ថែមអំពីតួនាទីនៃទ្រឹស្តីក្នុងការរចនាអន្តរាគមន៍ដ៏មានប្រសិទ្ធិភាពសូមមើល Walton (2014) ។
គំនិតនៃសុពលភាពខាងក្នុងនិងខាងក្រៅត្រូវបានណែនាំដោយ Campbell (1957) ។ សូមមើល Shadish, Cook, and Campbell (2001) សម្រាប់ប្រវត្តិសាស្រ្តលម្អិតនិងការបកស្រាយដោយប្រុងប្រយ័ត្ននូវសុពលភាពនៃការសន្និដ្ឋានស្ថិតិសុពលភាពផ្ទៃក្នុងសុពលភាពសុពលភាពនិងសុពលភាពខាងក្រៅ។
ចំពោះទិដ្ឋភាពទូទៅនៃបញ្ហាដែលទាក់ទងនឹងសុពលភាពនៃការសន្និដ្ឋានស្ថិតិក្នុងការពិសោធន៍សូមមើល Gerber and Green (2012) (ពីទស្សនៈវិទ្យាសាស្ត្រសង្គម) និង Imbens and Rubin (2015) (ពីទស្សនវិស័យស្ថិតិ) ។ បញ្ហាមួយចំនួននៃសុពលភាពនៃការសន្និដ្ឋានស្ថិតិដែលកើតមានជាពិសេសនៅក្នុងពិសោធន៍វាលលើបណ្តាញរួមមានបញ្ហាដូចជាវិធីសាស្រ្តដែលមានប្រសិទ្ធិភាពគណនាសម្រាប់បង្កើតចន្លោះជឿជាក់ជាមួយទិន្នន័យដែលពឹងផ្អែក (Bakshy and Eckles 2013) ។
សុពលភាពផ្ទៃក្នុងអាចជាការពិបាកក្នុងការធានាក្នុងការពិសោធន៍វាលស្មុគស្មាញ។ សូមមើលឧទាហរណ៍ Gerber and Green (2000) Imai (2005) និង Gerber and Green (2005) ដើម្បីពិភាក្សាអំពីការអនុវត្តការពង្រីកវាលស្មុគស្មាញអំពីការបោះឆ្នោត។ Kohavi et al. (2012) និង Kohavi et al. (2013) ផ្តល់ការណែនាំអំពីបញ្ហាប្រឈមនៃសុពលភាពចន្លោះពេលក្នុងការពិសោធន៍លើបណ្តាញអ៊ីនធឺណិត។
ការគំរាមកំហែងដ៏ធំមួយចំពោះសុពលភាពផ្ទៃក្នុងគឺលទ្ធភាពនៃការចាញ់ដោយចៃដន្យ។ វិធីសក្តានុពលមួយដើម្បីរកមើលបញ្ហាជាមួយនឹងការចៃដន្យគឺដើម្បីប្រៀបធៀបការព្យាបាលនិងក្រុមត្រួតពិនិត្យលើលក្ខណៈដែលអាចមើលបាន។ ការប្រៀបធៀបប្រភេទនេះត្រូវបានហៅថា ការពិនិត្យតុល្យភាព ។ សូមមើល Hansen and Bowers (2008) សម្រាប់វិធីសាស្រ្តស្ថិតិដើម្បីត្រួតពិនិត្យតុល្យភាពនិង Mutz and Pemantle (2015) ចំពោះការព្រួយបារម្ភអំពីការត្រួតពិនិត្យតុល្យភាព។ ឧទាហរណ៍ការប្រើមូលប្បទានប័ត្រតុល្យភាព Allcott (2011) រកឃើញភស្តុតាងមួយចំនួនដែលថា randomization មិនត្រូវបានអនុវត្តយ៉ាងត្រឹមត្រូវក្នុងការសាកល្បង Opower ចំនួន 3 (សូមមើលតារាងទី 2 តំបន់ទី 2, 6 និង 8) ។ ចំពោះវិធីសាស្រ្តផ្សេងទៀតសូមមើលជំពូកទី 21 នៃ Imbens and Rubin (2015) ។
កង្វល់ធំ ៗ ផ្សេងទៀតទាក់ទងនឹងសុពលភាពខាងក្នុងគឺ: (1) ការមិនអនុលោមតាមផ្នែកមួយដែលមិនមែនគ្រប់គ្នាក្នុងក្រុមព្យាបាលពិតប្រាកដទទួលការព្យាបាល (2) ការមិនអនុលោមតាមផ្នែកពីរដែលមិនមែនគ្រប់គ្នាក្នុងក្រុមព្យាបាលទទួលការព្យាបាលនិងមនុស្សមួយចំនួន ក្រុមការងារទទួលការព្យាបាល (3) ការស្រូបយកដែលលទ្ធផលមិនត្រូវបានគេវាស់សម្រាប់អ្នកចូលរួមមួយចំនួននិង (4) ការជ្រៀតជ្រែកដែលការព្យាបាលហៀរចេញពីមនុស្សក្នុងស្ថានភាពព្យាបាលដល់អ្នកដែលស្ថិតក្រោមការគ្រប់គ្រង។ សូមមើលជំពូក 5, 6, 7, និង 8 នៃ Gerber and Green (2012) សម្រាប់ព័ត៌មានបន្ថែមពីបញ្ហាទាំងនេះ។
សម្រាប់ព័ត៌មានបន្ថែមអំពីសុពលភាពនៃការសាងសង់សូមមើល Westen and Rosenthal (2003) និងដើម្បីបន្ថែមទៀតអំពីសុពលភាពនៃការសាងសង់ក្នុងប្រភពទិន្នន័យធំ Lazer (2015) និងជំពូក 2 នៃសៀវភៅនេះ។
ទិដ្ឋភាពមួយនៃសុពលភាពខាងក្រៅគឺជាការកំណត់ដែលការអន្តរាគមន៍ត្រូវបានសាកល្បង។ Allcott (2015) ផ្តល់នូវការព្យាបាលដោយប្រុងប្រយ័ត្ននិងពិសោធន៏នៃភាពលំអៀងនៃការជ្រើសរើសទីតាំង។ បញ្ហានេះត្រូវបានពិភាក្សាដោយ Deaton (2010) ផងដែរ។ ទិដ្ឋភាពមួយផ្សេងទៀតនៃភាពសុពលភាពខាងក្រៅគឺថាតើការអនុវត្តន៍ផ្សេងទៀតនៃអន្តរាគមន៍ដូចគ្នានឹងមានផលប៉ះពាល់ស្រដៀងគ្នាដែរឬទេ។ ក្នុងករណីនេះការប្រៀបធៀបរវាង Schultz et al. (2007) និង Allcott (2011) បង្ហាញថាការពិសោធន៍ Opower មានប្រសិទ្ធភាពតិចជាងការសាកល្បងដើមដោយ Schultz និងមិត្តរួមការងារ (1.7% ធៀបនឹង 5%) ។ Allcott (2011) សន្និដ្ឋានថាការធ្វើពិសោធន៍តាមដានមានប្រសិទ្ធភាពតិចជាងមុនដោយសារវិធីព្យាបាលខុសគ្នា: សញ្ញាអារម្មណ៍សរសេរដោយដៃដែលជាផ្នែកមួយនៃការសិក្សាដែលឧបត្ថម្ភដោយសាកលវិទ្យាល័យធៀបនឹងសញ្ញាអារម្មណ៍ដែលបានបោះពុម្ពជាផ្នែកមួយនៃការផលិតច្រើន របាយការណ៍ពីក្រុមហ៊ុនថាមពល។
ចំពោះទិដ្ឋភាពទូទៅដ៏ល្អបំផុតនៃភាពមិនធម្មតានៃផលប៉ះពាល់នៃការព្យាបាលនៅក្នុងការពិសោធន៍លើវាលទំនិញសូមមើលជំពូកទី 12 នៃ Gerber and Green (2012) ។ ចំពោះការណែនាំចំពោះភាពខុសគ្នាពីផលប៉ះពាល់នៃការព្យាបាលនៅក្នុងការធ្វើតេស្តវេជ្ជសាស្ត្រសូមមើល Kent and Hayward (2007) Longford (1999) និង Kravitz, Duan, and Braslow (2004) ។ ការពិចារណានៃភាពមិនធម្មតានៃផលប៉ះពាល់នៃការព្យាបាលជាទូទៅផ្តោតលើភាពខុសគ្នាដោយផ្អែកលើលក្ខណៈនៃការព្យាបាលមុន។ ប្រសិនបើអ្នកចាប់អារម្មណ៍នឹងភាពមិនទៀងទាត់ដោយផ្អែកលើលទ្ធផលក្រោយព្យាបាលអ្នកត្រូវការវិធីសាស្រ្តស្មុគ្រស្មាញបន្ថែមទៀតដូចជាការធ្វើ stratification សំខាន់ (Frangakis and Rubin 2002) ។ មើល Page et al. (2015) សម្រាប់ការពិនិត្យមើលឡើងវិញមួយ។
អ្នកស្រាវជ្រាវជាច្រើនបានប៉ាន់ប្រមាណនូវភាពមិនធម្មតានៃផលប៉ះពាល់នៃការព្យាបាលដោយប្រើតំរែតំរង់លីនេអ៊ែរប៉ុន្តែវិធីសាស្រ្តថ្មីគឺពឹងផ្អែកលើការរៀនម៉ាស៊ីន។ សូមមើល, ឧទាហរណ៍, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) និង Athey and Imbens (2016a) ។
មានការសង្ស័យមួយចំនួនអំពីការរកឃើញនៃវិសមភាពនៃផលប៉ះពាល់ដោយសារតែបញ្ហានៃការប្រៀបធៀបនិងការនេសាទ។ វាមានវិធីសាស្រ្តស្ថិតិជាច្រើនដែលអាចជួយដោះស្រាយកង្វល់អំពីការប្រៀបធៀបច្រើន (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) ។ វិធីសាស្ត្រមួយចំពោះការព្រួយបារម្ភអំពី "ការនេសាទ" គឺការចុះឈ្មោះជាមុនដែលកំពុងក្លាយជារឿងធម្មតានៅក្នុងចិត្តវិទ្យា (Nosek and Lakens 2014) វិទ្យាសាស្ត្រនយោបាយ (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) និងសេដ្ឋកិច្ច (Olken 2015) ។
នៅក្នុងការសិក្សាដោយ Costa and Kahn (2013) មានតែគ្រួសារពាក់កណ្តាលប៉ុណ្ណោះនៅក្នុងការធ្វើពិសោធន៍អាចត្រូវបានផ្សារភ្ជាប់ទៅនឹងព័ត៌មានប្រជាសាស្ត្រ។ អ្នកអានដែលចាប់អារម្មណ៍លើព័ត៌មានលំអិតទាំងនេះគួរយោងទៅលើក្រដាសដើម។
យន្តការគឺមានសារៈសំខាន់មិនគួរឱ្យជឿ, ប៉ុន្តែពួកគេបានក្លាយទៅជាការលំបាកខ្លាំងណាស់ក្នុងការសិក្សា។ ការស្រាវជ្រាវអំពីយន្តការគឺជាប់ទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងការសិក្សាអ្នកសម្រុះសម្រួលខាងចិត្តវិទ្យា (ប៉ុន្តែសូមមើលផងដែរ VanderWeele (2009) សម្រាប់ការប្រៀបធៀបច្បាស់លាស់រវាងគំនិតទាំងពីរ។ វិធីសាស្រ្តស្ថិតិដើម្បីស្វែងរកយន្តការដូចជាវិធីសាស្ដ្រដែលបានបង្កើតឡើងនៅ Baron and Kenny (1986) គឺជារឿងធម្មតាណាស់។ ជាអកុសលវាបានបង្ហាញថានីតិវិធីទាំងនោះអាស្រ័យលើការសន្មត់ដ៏រឹងមាំមួយចំនួន (Bullock, Green, and Ha 2010) និងទទួលរងនូវការឈឺចាប់នៅពេលមានយន្តការជាច្រើនដូចជាមនុស្សម្នាក់អាចរំពឹងទុកក្នុងស្ថានភាពជាច្រើន (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) ។ Imai et al. (2011) និង Imai and Yamamoto (2013) ផ្តល់ជូននូវវិធីសាស្ត្រស្ថិតិមួយចំនួន។ លើសពីនេះទៀត VanderWeele (2015) ផ្តល់ជូននូវការព្យាបាលដែលមានរយៈពេលវែងជាមួយនឹងលទ្ធផលសំខាន់ៗមួយចំនួនរួមទាំងវិធីសាស្ត្រទូលំទូលាយនៃការវិភាគភាពប្រែប្រួល។
វិធីសាស្រ្តដាច់ដោយឡែកមួយផ្តោតលើការពិសោធន៍ដែលព្យាយាមរៀបចំយន្តការដោយផ្ទាល់ (ឧទាហរណ៍ផ្តល់ឱ្យវីរុសវីតាមីនសេ) ។ ជាអកុសលនៅក្នុងការកំណត់វិទ្យាសាស្ត្រសង្គមជាច្រើនជារឿយៗមានយន្តការច្រើនហើយវាពិបាករៀបចំការព្យាបាលដែលផ្លាស់ប្តូរមួយដោយមិនផ្លាស់ប្តូរអ្វីផ្សេងទៀត។ វិធីសាស្ត្រមួយចំនួនដើម្បីផ្លាស់ប្តូរយន្តការត្រូវបានពិពណ៌នាដោយ Imai, Tingley, and Yamamoto (2013) Ludwig, Kling, and Mullainathan (2011) និង Pirlott and MacKinnon (2016) ។
អ្នកស្រាវជ្រាវដែលកំពុងអនុវត្តការពិសោធន៍លើការពិបាកពេញលេញនឹងត្រូវការការព្រួយបារម្ភអំពីការសាកល្បងសម្មតិកម្មច្រើន។ សូមមើល Fink, McConnell, and Vollmer (2014) និង List, Shaikh, and Xu (2016) សម្រាប់ព័ត៌មានបន្ថែម។
ទីបំផុតយន្តការក៏មានប្រវត្តិសាស្ត្រយូរអង្វែងក្នុងទស្សនវិជ្ជាវិទ្យាសាស្ត្រដូចដែលបានពិពណ៌នាដោយ Hedström and Ylikoski (2010) ។
សម្រាប់ព័ត៌មានបន្ថែមស្តីពីការប្រើប្រាស់ការឆ្លើយឆ្លងការសិក្សានិងការសិក្សាសវនកម្មដើម្បីវាស់ការរើសអើងសូមមើល Pager (2007) ។
វិធីសាមញ្ញបំផុតដើម្បីជ្រើសរើសអ្នកចូលរួមក្នុងការពិសោធន៍ដែលអ្នកបង្កើតគឺ Amazon Mechanical Turk (MTurk) ។ ដោយសារ MTurk ស្រដៀងនឹងទិដ្ឋភាពនៃការសាកល្បងពិសោធន៏តាមបែបប្រពៃណីរបស់មនុស្សដើម្បីបំពេញភារកិច្ចដែលពួកគេមិនធ្វើដោយឥតគិតថ្លៃអ្នកស្រាវជ្រាវជាច្រើនបានចាប់ផ្តើមប្រើប្រាស់ Turkers (អ្នកធ្វើការនៅលើ MTurk) រួចហើយដែលជាអ្នកចូលរួមពិសោធន៏ដែលនាំមកនូវការប្រមូលទិន្នន័យដែលលឿននិងមានតំលៃថោកជាងការដែលអាចសម្រេចបាន។ ក្នុងពិសោធន៍មន្ទីរពិសោធន៍នៅតាមបរិវេណប្រពៃណី (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) ។
ជាទូទៅគុណសម្បត្តិដ៏ធំបំផុតនៃការប្រើអ្នកចូលរួមដែលបានជ្រើសរើសពី MTurk គឺជាភស្តុភារ។ ខណៈពេលដែលពិសោធន៍មន្ទីរពិសោធន៍អាចចំណាយពេលជាច្រើនសប្តាហ៍ដើម្បីដំណើរការហើយការពិសោធន៍លើវាលអាចចំណាយពេលរាប់ខែដើម្បីបង្កើតឡើងពិសោធន៍ជាមួយអ្នកចូលរួមដែលបានជ្រើសរើសពី MTurk អាចដំណើរការបានក្នុងរយៈពេលប៉ុន្មានថ្ងៃ។ ឧទាហរណ៍ Berinsky, Huber, and Lenz (2012) អាចជ្រើសរើសមុខវិជ្ជាចំនួន 400 ក្នុងមួយថ្ងៃដើម្បីចូលរួមពិសោធន៍រយៈពេល 8 នាទី។ លើសពីនេះទៅទៀតអ្នកចូលរួមទាំងនេះអាចត្រូវបានជ្រើសរើសសម្រាប់គោលបំណងស្ទើរតែទាំងអស់ (រួមមានការស្ទាបស្ទង់និងកិច្ចសហការដ៏ធំដូចដែលបានពិភាក្សានៅក្នុងជំពូកទី 3 និងទី 5) ។ ភាពងាយស្រួលនៃការជ្រើសរើសនេះមានន័យថាក្រុមអ្នកស្រាវជ្រាវអាចដំណើរការលំដាប់នៃការពិសោធន៍ដែលទាក់ទងនឹងជោគជ័យបន្តបន្ទាប់។
មុនពេលជ្រើសរើសអ្នកចូលរួមពី MTurk សម្រាប់ពិសោធន៍ផ្ទាល់ខ្លួនរបស់អ្នកមានរឿងសំខាន់បួនដែលអ្នកត្រូវដឹង។ ទីមួយអ្នកស្រាវជ្រាវជាច្រើនមានការសង្ស័យមិនច្បាស់លាស់អំពីការពិសោធន៍ពាក់ព័ន្ធនឹងជនជាតិ Turks ។ ដោយសារតែការសង្ស័យនេះគឺមិនជាក់លាក់វាជាការលំបាកក្នុងការទប់ទល់នឹងភស្តុតាង។ ទោះជាយ៉ាងណាក៏ដោយក្រោយពីការសិក្សាជាច្រើនឆ្នាំដោយប្រើទួរសឺរយើងអាចសន្និដ្ឋានថាការសង្ស័យនេះគឺមិនត្រឹមត្រូវទេ។ មានការសិក្សាជាច្រើនដែលប្រៀបធៀបរវាងប្រជាសាស្ត្ររបស់ជនជាតិទួរសឺសជាមួយនឹងអ្នកដទៃនិងការស្រាវជ្រាវជាច្រើនដែលប្រៀបធៀបលទ្ធផលនៃការពិសោធជាមួយនឹងអ្នកស្ម័គ្រចិត្ត Turkers ពីអ្នកដទៃទៀត។ ដោយទទួលបានការងារទាំងអស់នេះខ្ញុំគិតថាវិធីដ៏ល្អបំផុតសម្រាប់អ្នកដើម្បីគិតអំពីវាគឺថាអ្នកស្រី Turkers គឺជាគំរូភាពងាយស្រួលដែលសមហេតុផលដូចសិស្សប៉ុន្តែមានភាពចម្រុះបន្តិចបន្តួច (Berinsky, Huber, and Lenz 2012) ។ ដូចនេះខណៈពេលដែលនិស្សិតគឺជាប្រជាជនដែលសមហេតុសមផលសម្រាប់មនុស្សមួយចំនួនប៉ុន្តែមិនមែនទាំងអស់ទេការស្រាវជ្រាវគឺជាមនុស្សដែលសមហេតុផលសម្រាប់មនុស្សមួយចំនួនប៉ុន្តែមិនមែនទាំងអស់ទេ។ ប្រសិនបើអ្នកនឹងធ្វើការជាមួយ Turkers នោះវាសមហេតុផលក្នុងការអានការសិក្សាដែលប្រៀបធៀបទាំងនេះជាច្រើននិងយល់ពីភាពខុសគ្នារបស់ពួកគេ។
ទីពីរក្រុមអ្នកស្រាវជ្រាវបានបង្កើតនូវការអនុវត្តល្អបំផុតសម្រាប់បង្កើនសុពលភាពផ្ទៃក្នុងនៃការពិសោធន៍ MTurk ហើយអ្នកគួរតែសិក្សាអំពីនិងអនុវត្តតាមការអនុវត្តដ៏ល្អបំផុតទាំងនេះ (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) ។ ឧទាហរណ៍អ្នកស្រាវជ្រាវដែលប្រើទួរស័រត្រូវបានលើកទឹកចិត្តឱ្យប្រើឧបករណ៍បញ្ចាំងដើម្បីលុបបំបាត់អ្នកដែលមិនចូលរួម (Berinsky, Margolis, and Sances 2014, 2016) (ប៉ុន្តែសូមមើលផងដែរ DJ Hauser and Schwarz (2015b) និង DJ Hauser and Schwarz (2015a) ) ។ ប្រសិនបើអ្នកមិនដកអ្នកចូលរួមដែលមិនមានការប្រុងប្រយ័ត្ននោះផលប៉ះពាល់នៃការព្យាបាលអាចត្រូវបានលាងសម្អាតដោយសម្លេងរំខានដែលពួកគេណែនាំហើយនៅក្នុងការអនុវត្តជាក់ស្តែងចំនួនអ្នកចូលរួមដែលមិនមានការចាប់អារម្មណ៍អាចមានច្រើន។ នៅក្នុងការពិសោធន៍ដោយ Huber និងមិត្តរួមការងារ (2012) , អ្នកចូលរួមប្រមាណ 30% បានបរាជ័យក្នុងការត្រួតពិនិត្យមើលជាមូលដ្ឋាន។ បញ្ហាផ្សេងទៀតដែលកើតឡើងជាទូទៅនៅពេលដែលលោកឃឺរសឺរត្រូវបានគេប្រើប្រាស់គឺជាអ្នកចូលរួមដែលមិនមែនជាមនុស្សឆោតល្ងង់ (Chandler et al. 2015) និងការថយចុះ (Zhou and Fishbach 2016) ។
ទីបីទាក់ទងទៅនឹងទម្រង់មួយចំនួននៃការពិសោធន៍ឌីជីថលការពិសោធន៍ MTurk មិនអាចធ្វើមាត្រដ្ឋានបានទេ។ Stewart et al. (2015) ប៉ាន់ប្រមាណថានៅពេលវេលាណាមួយមានមនុស្សប្រហែល 7.000 នាក់ប៉ុណ្ណោះនៅលើ MTurk ។
នៅទីបញ្ចប់អ្នកគួរតែដឹងថា MTurk គឺជាសហគមន៍មួយដែលមានច្បាប់និងបទដ្ឋានរបស់ខ្លួន (Mason and Suri 2012) ។ តាមរបៀបដូចគ្នាដែលអ្នកនឹងព្យាយាមស្វែងយល់អំពីវប្បធម៌នៃប្រទេសមួយដែលអ្នកនឹងដំណើរការពិសោធន៍របស់អ្នកអ្នកគួរតែព្យាយាមស្វែងយល់បន្ថែមអំពីវប្បធម៌និងបទដ្ឋានរបស់ Turkers (Salehi et al. 2015) ។ ហើយអ្នកគួរតែដឹងថាអ្នកគាំទ្រនឹងនិយាយអំពីការពិសោធន៍របស់អ្នកប្រសិនបើអ្នកធ្វើអ្វីមួយមិនសមរម្យឬមិនសីលធម៌ (Gray et al. 2016) ។
MTurk គឺជាមធ្យោបាយងាយស្រួលបំផុតក្នុងការជ្រើសរើសអ្នកចូលរួមក្នុងការពិសោធន៍របស់អ្នកទោះបីជាវាដូចជាមន្ទីរពិសោធន៍ដូចជា Huber, Hill, and Lenz (2012) ជាដើមឬដូចជា Fields ដូចជា Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) Horton and Zeckhauser (2016) និង Mao et al. (2016) ។
ប្រសិនបើអ្នកកំពុងព្យាយាមបង្កើតផលិតផលរបស់អ្នកខ្ញុំសូមណែនាំអ្នកឱ្យអានដំបូន្មានដែលផ្តល់ដោយក្រុម MovieLens នៅក្នុង Harper and Konstan (2015) ។ ការយល់ដឹងសំខាន់ៗពីបទពិសោធរបស់ពួកគេគឺថាចំពោះគម្រោងដែលទទួលបានជោគជ័យនីមួយៗមានភាពបរាជ័យជាច្រើន។ ឧទាហរណ៍ក្រុម MovieLens បានចាប់ផ្តើមផលិតផលផ្សេងទៀតដូចជា GopherAnswers ដែលបានបរាជ័យទាំងស្រុង (Harper and Konstan 2015) ។ ឧទាហរណ៍មួយទៀតនៃអ្នកស្រាវជ្រាវម្នាក់ដែលខកខានក្នុងការព្យាយាមបង្កើតផលិតផលនោះគឺការប៉ុនប៉ងរបស់ Edward Castronova ក្នុងការបង្កើតល្បែងអនឡាញដែលហៅថា Arden ។ ថ្វីបើមានទឹកប្រាក់ចំនួន 250,000 ដុល្លារក៏ដោយក៏គម្រោងនេះគឺជាការរីកចំរើន (Baker 2008) ។ គម្រោងដូចជា GopherAnswers និង Arden ជាអកុសលជារឿងធម្មតាច្រើនជាងគម្រោងដូចជា MovieLens ។
ខ្ញុំបានឮគំនិតរបស់លោក Pasteur Quadrant ដែលបានពិភាក្សាជាញឹកញាប់នៅក្រុមហ៊ុនបច្ចេកវិទ្យាហើយវាជួយរៀបចំកិច្ចប្រឹងប្រែងក្នុងការស្រាវជ្រាវនៅ Google (Spector, Norvig, and Petrov 2012) ។
ការសិក្សារបស់ Bond និងមិត្តរួមការងារ (2012) ក៏ព្យាយាមរកមើលឥទ្ធិពលនៃការព្យាបាលទាំងនេះលើមិត្តភក្តិរបស់អ្នកដែលបានទទួលការព្យាបាលផងដែរ។ ដោយសារតែការរចនានៃការពិសោធន៍, spillovers ទាំងនេះគឺមានការលំបាកក្នុងការរកឃើញស្អាត; អ្នកអានគួរចាប់អារម្មណ៍មើល Bond et al. (2012) សម្រាប់ការពិភាក្សាដ៏ហ្មត់ចត់បន្ថែមទៀត។ Jones និងសហសេវិក (2017) ក៏បានធ្វើការពិសោធន៍ស្រដៀងគ្នាមួយដែរក្នុងអំឡុងពេលការបោះឆ្នោតឆ្នាំ 2012 ។ ការពិសោធន៍ទាំងនេះគឺជាផ្នែកមួយនៃប្រពៃណីដ៏យូរអង្វែងនៃការពិសោធន៍វិទ្យាសាស្ត្រនយោបាយស្តីពីកិច្ចខិតខំប្រឹងប្រែងដើម្បីលើកទឹកចិត្តឱ្យមានការបោះឆ្នោត (Green and Gerber 2015) ។ ការពិសោធន៍ដែលទទួលបានការបោះឆ្នោតទាំងនេះគឺមានជាទូទៅគឺមួយផ្នែកដោយសារតែពួកគេស្ថិតនៅក្នុងប៉ាស្ទ័រ Quadrant ។ នោះគឺមានមនុស្សជាច្រើនដែលត្រូវបានលើកទឹកចិត្តដើម្បីបង្កើនការបោះឆ្នោតនិងការបោះឆ្នោតអាចជាអាកប្បកិរិយាគួរឱ្យចាប់អារម្មណ៍ដើម្បីសាកល្បងទ្រឹស្តីទូទៅបន្ថែមទៀតអំពីការផ្លាស់ប្តូរអាកប្បកិរិយានិងឥទ្ធិពលសង្គម។
សម្រាប់ការផ្តល់ដំបូន្មានអំពីការអនុវត្តវាលស្រែជាមួយអង្គការជាដៃគូដូចជាគណបក្សនយោបាយអង្គការក្រៅរដ្ឋាភិបាលនិងអាជីវកម្មសូមមើល Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) និង Gueron (2002) ។ ចំពោះគំនិតអំពីភាពជាដៃគូជាមួយអង្គការអាចជះឥទ្ធិពលលើការរចនាការរុករកសូមមើល King et al. (2007) និង Green, Calfano, and Aronow (2014) ។ ភាពជាដៃគូក៏អាចនាំឱ្យមានសំណួរសីលធម៌ដូចដែលបានពិភាក្សាដោយ Humphreys (2015) និង Nickerson and Hyde (2016) ។
ប្រសិនបើអ្នកនឹងបង្កើតផែនការវិភាគមួយមុនពេលដំណើរការពិសោធន៍របស់អ្នកខ្ញុំសូមណែនាំអ្នកឱ្យចាប់ផ្តើមអានគោលការណ៍ណែនាំ។ គោលការណ៍ណែនាំ CONSORT (ស្តង់ដារនៃការធ្វើសវនកម្ម) ត្រូវបានបង្កើតឡើងដោយវេជ្ជសាស្ត្រ (Schulz et al. 2010) និងត្រូវបានកែប្រែសម្រាប់ការស្រាវជ្រាវសង្គម (Mayo-Wilson et al. 2013) ។ គោលការណ៍ណែនាំដែលពាក់ព័ន្ធត្រូវបានបង្កើតឡើងដោយអ្នកនិពន្ធនៃ ទិនានុប្បវត្តិវិទ្យាសាស្រ្តនយោបាយពិសោធន៍ (Gerber et al. 2014) (សូមមើលផងដែរ Mutz and Pemantle (2015) និង Gerber et al. (2015) ) ។ ជាចុងក្រោយសេចក្តីណែនាំស្តីពីរបាយការណ៍ត្រូវបានបង្កើតឡើងដោយចិត្តវិទ្យា (APA Working Group 2008) ហើយមើលឃើញ Simmons, Nelson, and Simonsohn (2011) ផងដែរ។
ប្រសិនបើអ្នកបង្កើតផែនការវិភាគមួយអ្នកគួរតែពិចារណាមុនការចុះឈ្មោះវាព្រោះការចុះឈ្មោះមុននឹងបង្កើនទំនុកចិត្តដែលអ្នកដទៃមាននៅក្នុងលទ្ធផលរបស់អ្នក។ លើសពីនេះទៀតប្រសិនបើអ្នកកំពុងធ្វើការជាមួយដៃគូវានឹងកំណត់សមត្ថភាពរបស់ដៃគូអ្នកក្នុងការផ្លាស់ប្តូរការវិភាគបន្ទាប់ពីបានឃើញលទ្ធផល។ ការចុះឈ្មោះជាមុនត្រូវបានក្លាយជារឿងធម្មតាកាន់តែខ្លាំងឡើងនៅក្នុងចិត្តវិទ្យា (Nosek and Lakens 2014) វិទ្យាសាស្រ្តនយោបាយ (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) និងសេដ្ឋកិច្ច (Olken 2015) ។
ដំបូន្មានរចនាពិសេសសម្រាប់ពិសោធន៍នៅលើបណ្តាញក៏ត្រូវបានបង្ហាញផងដែរនៅក្នុង Konstan and Chen (2007) និង Chen and Konstan (2015) ។
អ្វីដែលខ្ញុំហៅថាយុទ្ធសាស្ត្រ armada ត្រូវបានគេហៅថា ការស្រាវជ្រាវកម្មវិធី ។ សូមមើល Wilson, Aronson, and Carlsmith (2010) ។
សម្រាប់ព័ត៌មានបន្ថែមអំពីការពិសោធន៍ MusicLab សូមមើល Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , និង Salganik (2007) ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីទីផ្សារអ្នកឈ្នះទាំងអស់សូមមើល Frank and Cook (1996) ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីសំណាងមិនស្មើភាពនិងជំនាញជាទូទៅសូមមើល Mauboussin (2012) , Watts (2012) និង Frank (2016) ។
មានអភិក្រមមួយផ្សេងទៀតដើម្បីលុបបំបាត់ការបង់ប្រាក់ចូលរួមដែលអ្នកស្រាវជ្រាវគួរតែប្រើដោយប្រុងប្រយ័ត្ន។ នៅក្នុងការពិសោធន៍ជាច្រើនលើបណ្តាញអ្នកចូលរួមពិសោធន៍ត្រូវបានគេធ្វើសេចក្តីព្រាងជាមូលដ្ឋានទៅជាពិសោធន៍ហើយមិនដែលត្រូវបានផ្តល់សំណង។ ឧទាហរណ៏នៃវិធីសាស្រ្តនេះរួមបញ្ចូលទាំងការពិសោធន៏ Restivo និង van de Rijt (2012) លើរង្វាន់ក្នុងវិគីភីឌានិងការសិក្សា Bond និងមិត្តរួមការងារ (2012) លើការលើកទឹកចិត្តប្រជាជនឱ្យបោះឆ្នោត។ ការពិសោធន៍ទាំងនេះមិនមានតំលៃអថេរទេដោយពួកគេមានតំលៃមិនប្រែប្រួល ដល់អ្នកស្រាវជ្រាវ ។ នៅក្នុងការពិសោធន៍បែបនេះបើទោះបីជាការចំណាយសម្រាប់អ្នកចូលរួមម្នាក់ៗតូចយ៉ាងខ្លាំងក៏ដោយក៏តម្លៃសរុបអាចមានទំហំធំ។ អ្នកស្រាវជ្រាវដែលកំពុងធ្វើសកម្មភាពតាមអ៊ិនធរណេតធំ ៗ ជារឿយៗបង្ហាញអំពីសារៈសំខាន់នៃផលប៉ះពាល់នៃការព្យាបាលតិចតួចដោយនិយាយថាផលប៉ះពាល់តូចតាចទាំងនេះអាចមានសារៈសំខាន់នៅពេលអនុវត្តចំពោះមនុស្សជាច្រើន។ ការគិតដូចគ្នាពិតប្រាកដគឺអនុវត្តចំពោះតម្លៃដែលអ្នកស្រាវជ្រាវដាក់លើអ្នកចូលរួម។ ប្រសិនបើការពិសោធន៍របស់អ្នកធ្វើឱ្យមនុស្ស 1 លាននាក់ខ្ជះខ្ជាយមួយនាទីនោះការពិសោធន៏នេះមិនមានគ្រោះថ្នាក់ដល់មនុស្សណាម្នាក់នោះទេប៉ុន្តែជាទូទៅវាបានចំណាយអស់ជិត 2 ឆ្នាំ។
វិធីសាស្រ្តមួយទៀតដើម្បីបង្កើតការទូទាត់ថ្លៃអថេរគ្មានតម្លៃទៅអ្នកចូលរួមគឺត្រូវប្រើឆ្នោតជាវិធីសាស្ត្រមួយដែលត្រូវបានប្រើក្នុងការស្រាវជ្រាវ (Halpern et al. 2011) ផងដែរ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីការរចនាបទពិសោធន៍អ្នកប្រើរីករាយសូមមើល Toomim et al. (2011) ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីការប្រើ bots ដើម្បីបង្កើតការពិសោធន៍តម្លៃអថេរសូន្យមើលឃើញ ( ??? ) ។
បី R ដូចដែលដើមឡើយបានស្នើសុំដោយ Russell and Burch (1959) មានដូចខាងក្រោម:
"ការជំនួសជំនួសសម្រាប់ការរស់នៅមានន័យថាការយល់ដឹងខ្ពស់នៃសត្វសម្ភារៈ insentient នេះ។ ការកាត់បន្ថយមានន័យថាការកាត់បន្ថយក្នុងចំនួននៃសត្វបានប្រើដើម្បីទទួលបាននូវពនៃចំនួនទឹកប្រាក់ដែលបានផ្តល់ឱ្យនិងភាពជាក់លាក់នោះទេ។ ការរីកចម្រើនណាមួយក្នុងន័យថាការធ្លាក់ចុះឧប្បត្តិហេតុឬភាពធ្ងន់ធ្ងរនៃនីតិវិធីឃោឃៅដែលបានអនុវត្តទៅសត្វទាំងនោះដែលនៅតែមាននឹងត្រូវបានប្រើ "។
ពាក្យទាំងបីរបស់ខ្ញុំដែលខ្ញុំស្នើសុំមិនដាក់កម្រិតលើគោលការណ៍សីលធម៌ដែលបានពិពណ៌នានៅក្នុងជំពូក 6. ផ្ទុយទៅវិញពួកគេគឺជាកំណែដែលបានរៀបរាប់ជាងមុនមួយក្នុងចំណោមគោលការណ៍ទាំងនោះ - ជាអំណោយ - ជាពិសេសនៅក្នុងការសាកល្បងរបស់មនុស្ស។
ក្នុងករណី R (ដំបូងជំនួស) ប្រៀបធៀបការពិសោធន៏នៃការប៉ះទង្គិចផ្លូវចិត្ត (Kramer, Guillory, and Hancock 2014) និងការពិសោធន៍ធម្មជាតិដោយការប៉ះទង្គិចអារម្មណ៍ (Lorenzo Coviello et al. 2014) ផ្តល់នូវមេរៀនទូទៅមួយចំនួនអំពីការដោះដូរទំនិញពាក់ព័ន្ធ ក្នុងការផ្លាស់ប្តូរពីការពិសោធន៍ទៅពិសោធន៍ធម្មជាតិ (និងវិធីសាស្រ្តផ្សេងទៀតដូចជាការផ្គូផ្គងដែលព្យាយាមចូលទៅក្នុងការពិសោធន៍នៅក្នុងទិន្នន័យដែលមិនមានពិសោធន៍សូមមើលជំពូក 2) ។ បន្ថែមពីលើអត្ថប្រយោជន៍ខាងក្រមសីលធម៌ការផ្លាស់ប្តូរពីការសិក្សាពិសោធន៍ទៅជាការពិសោធន៍ដែលមិនមានការពិសោធន៍ក៏អាចឱ្យក្រុមអ្នកស្រាវជ្រាវធ្វើការវះកាត់ដែលពួកគេមិនអាចដាក់ពង្រាយបាន។ អត្ថប្រយោជន៍ប្រកបដោយក្រមសីលធម៌និងភស្តុភារទាំងនេះមានតម្លៃ។ ជាមួយនឹងអ្នកស្រាវជ្រាវពិសោធន៍ធម្មជាតិមានការគ្រប់គ្រងតិចតួចលើរឿងដូចជាការជ្រើសរើសអ្នកចូលរួម, ការចៃដន្យនិងលក្ខណៈនៃការព្យាបាល។ ឧទាហរណ៏ទឹកភ្លៀងមួយកំនត់ក្នុងការព្យាបាលគឺថាវាបង្កើនភាពវិជ្ជមាននិងបន្ថយភាពអវិជ្ជមាន។ ទោះយ៉ាងណាក៏ដោយនៅក្នុងការសិក្សាពិសោធន៍ Kramer និងមិត្តរួមការងាររបស់គាត់អាចកែសំរួលភាពវិជ្ជមាននិងអវិជ្ជមានដោយឯករាជ្យ។ វិធីសាស្ត្រពិសេសដែល Lorenzo Coviello et al. (2014) ត្រូវបានរៀបរាប់បន្ថែមដោយ L. Coviello, Fowler, and Franceschetti (2014) ។ សម្រាប់សេចក្តីណែនាំអំពីអថេរឧបករណ៍ដែលជាវិធីសាស្រ្តដែលត្រូវបានប្រើដោយ Lorenzo Coviello et al. (2014) សូមមើល Angrist and Pischke (2009) (តិចជាងផ្លូវការ) ឬ Angrist, Imbens, and Rubin (1996) (ជាផ្លូវការ) ។ ចំពោះការវាយតម្លៃអព្ភូតហេតុនៃអថេរឧបករណ៍សូមមើល Deaton (2010) និងសម្រាប់សេចក្តីណែនាំអំពីអថេរឧបករណ៍ជាមួយឧបករណ៍ខ្សោយ (ភ្លៀងគឺជាឧបករណ៍ខ្សោយ) សូមមើល Murray (2006) ។ ជាទូទៅ, ការណែនាំល្អដើម្បីពិសោធន៍ធម្មជាតិបានផ្តល់ឱ្យដោយ Dunning (2012) , ខណៈពេលដែល Rosenbaum (2002) , ( ??? ) និង Shadish, Cook, and Campbell (2001) បានផ្តល់នូវគំនិតល្អអំពីការប៉ាន់ប្រមាណផលប៉ះពាល់ធ្វើអោយដោយគ្មានការពិសោធន៍។
នៅក្នុងលក្ខខណ្ឌនៃការលើកទីពីរ R (refinement) មានការដោះស្រាយផ្នែកវិទ្យាសាស្រ្តនិងភស្តុភារនៅពេលពិចារណាផ្លាស់ប្តូរការរចនានៃការរំជើបរំជួលអារម្មណ៍ពីការរារាំងភ្នំពេញប៉ុស្តិ៍ដើម្បីជំរុញប្រកាស។ ឧទាហរណ៍វាអាចជាករណីដែលការអនុវត្តបច្ចេកទេសរបស់ពត៌មានហ្វីលីពីនធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការធ្វើពិសោធន៍ដែលប្រកាសត្រូវបានទប់ស្កាត់ជាជាងមួយដែលវាត្រូវបានជំរុញ (សូមកត់សម្គាល់ថាការពិសោធន៍ទាក់ទងនឹងការទប់ស្កាត់ប្រកាសអាចត្រូវបានអនុវត្ត។ ជាស្រទាប់មួយនៅលើកំពូលនៃពត៌មានប្រព័ន្ធព័ត៌មានដោយគ្មានការចាំបាច់សម្រាប់ការកែសម្រួលនៃប្រព័ន្ធមូលដ្ឋានមួយ) ។ ទោះយ៉ាងណាក៏ដោយវិទ្យាសាស្រ្តទោះជាយ៉ាងណាទ្រឹស្ដីដែលត្រូវបានដោះស្រាយដោយការពិសោធន៍នេះមិនបានបង្ហាញពីការរចនាមួយអំពីការច្នៃប្រឌិតណាមួយឡើយ។ ជាអកុសលខ្ញុំមិនដឹងពីការស្រាវជ្រាវពីមុនអំពីគុណសម្បត្តិនៃការទប់ស្កាត់និងការបង្កើនមាតិកានៅក្នុងចំណីព័ត៌មានទេ។ ដូចគ្នានេះផងដែរខ្ញុំមិនបានសង្កេតឃើញពីការស្រាវជ្រាវជាច្រើនអំពីការព្យាបាលដោយការចម្រាញ់ដើម្បីធ្វើឱ្យវាមានគ្រោះថ្នាក់តិចជាង។ ករណីលើកលែងមួយគឺ B. Jones and Feamster (2015) ដែលចាត់ទុកថាជាករណីនៃការវាស់ស្ទង់ការត្រួតពិនិត្យតាមអ៊ីនធឺណិត (ប្រធានបទដែលខ្ញុំពិភាក្សានៅក្នុងជំពូកទី 6 ទាក់ទងនឹងការសិក្សា Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ) ។
ទាក់ទងទៅនឹងការកាត់បន្ថយទីបីការណែនាំល្អចំពោះការវិភាគថាមពលតាមបែបប្រពៃណីត្រូវបានផ្តល់ដោយ Cohen (1988) ) និង Cohen (1992) (អត្ថបទ) ខណៈពេលដែលលោក Gelman and Carlin (2014) ផ្តល់នូវទស្សនៈខុសគ្នាបន្តិចបន្តួច។ ការផ្លាស់ប្តូរមុនការព្យាបាលអាចត្រូវបានរួមបញ្ចូលនៅក្នុងដំណាក់កាលរចនានិងវិភាគនៃការធ្វើពិសោធន៍។ ជំពូកទី 4 នៃ Gerber and Green (2012) ផ្តល់នូវការណែនាំល្អដល់វិធីសាស្រ្តទាំងពីរនេះហើយ Casella (2008) ផ្តល់នូវការព្យាបាលឱ្យកាន់តែស៊ីជម្រៅ។ បច្ចេកទេសដែលប្រើព័ត៌មានមុនការព្យាបាលនេះក្នុងការចៃដន្យត្រូវបានគេហៅថាជាធម្មតាការរចនាពិសោធន៍ដែលបានទប់ស្កាត់ឬរចនាម៉ូដពិសោធន៍ stratified (ពាក្យមិនត្រូវបានប្រើជាប់លាប់នៅទូទាំងសហគមន៍); បច្ចេកទេសទាំងនេះត្រូវបានទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងបច្ចេកទេសគំរូដែលបានរៀបរាប់នៅជំពូកទី 3. សូមមើល Higgins, Sävje, and Sekhon (2016) សម្រាប់ព័ត៌មានបន្ថែមស្តីពីការប្រើប្រាស់គំរូទាំងនេះនៅក្នុងការសាកល្បងដ៏ធំ។ ការផ្លាស់ប្តូរមុនការព្យាបាលក៏អាចត្រូវបានបញ្ចូលក្នុងដំណាក់កាលវិភាគផងដែរ។ McKenzie (2012) រកឃើញវិធីសាស្រ្តខុសគ្នាក្នុងការវិភាគលើការពិសោធន៍លើដីធ្លី។ សូមមើល Carneiro, Lee, and Wilhelm (2016) ដើម្បីទទួលបានព័ត៌មានបន្ថែមអំពីការធ្វើពាណិជ្ជកម្មរវាងវិធីសាស្រ្តផ្សេងៗគ្នាដើម្បីបង្កើនភាពប៉ាន់ស្មាននៃផលប៉ះពាល់នៃការព្យាបាល។ នៅចុងបញ្ចប់នៅពេលដែលសម្រេចថាតើត្រូវព្យាយាមរួមបញ្ចូលទាំងការព្យាបាលមុនការព្យាបាលនៅដំណាក់កាលរចនាឬដំណាក់កាលវិភាគ (ឬទាំងពីរ), មានកត្តាមួយចំនួនដែលត្រូវពិចារណា។ នៅក្នុងបរិបទដែលក្រុមអ្នកស្រាវជ្រាវចង់បង្ហាញថាពួកគេមិនត្រូវបាន "នេសាទ" (Humphreys, Sierra, and Windt 2013) ដោយប្រើវិធីព្យាបាលត្រជាក់មុនពេលដំណាក់កាលរចនាអាចមានប្រយោជន៍ (Higgins, Sävje, and Sekhon 2016) ។ ក្នុងករណីដែលអ្នកចូលរួមបានមកលេងជាបន្តបន្ទាប់ជាពិសេសការពិសោធន៍នៅលើបណ្តាញអ៊ីនធឺណែតការប្រើពត៌មានមុនព្យាបាលនៅក្នុងដំណាក់កាលរចនាអាចជាការលំបាកក្នុងការដឹកជញ្ជូន។ មើលឧទាហរណ៍ Xie and Aurisset (2016) ។
វាមានតំលៃបន្ថែមបន្តិចបន្តួចនៃវិចារណញាណអំពីមូលហេតុដែលវិធីសាស្រ្តខុសគ្នាក្នុងភាពខុសគ្នាអាចមានប្រសិទ្ធភាពច្រើនជាងភាពខុសគ្នាក្នុងន័យ។ លទ្ធផលតាមអ៊ិនធរណេតជាច្រើនមានភាពខុសគ្នាខ្លាំងណាស់ (សូមមើលឧទាហរណ៍ RA Lewis and Rao (2015) និង Lamb et al. (2015) ) និងមានស្ថិរភាពក្នុងរយៈពេល។ ក្នុងករណីនេះពិន្ទុផ្លាស់ប្តូរនឹងមានអថេរតូចជាងយ៉ាងខ្លាំងដែលបង្កើនថាមពលនៃការធ្វើតេស្តស្ថិតិ។ មូលហេតុមួយដែលវិធីសាស្រ្តនេះមិនត្រូវបានប្រើជាញឹកញាប់នោះទេគឺថាមុនអាយុឌីជីថលវាមិនធម្មតាទេដែលមានលទ្ធផលនៃការព្យាបាលមុន។ មធ្យោបាយជាក់ស្តែងបន្ថែមទៀតដើម្បីគិតអំពីរឿងនេះគឺដើម្បីស្រមៃនូវការពិសោធមួយដើម្បីវាស់វែងថាតើការធ្វើលំហាត់ប្រាណជាក់លាក់ណាមួយបណ្តាលអោយសម្រកទម្ងន់។ ប្រសិនបើអ្នកប្រើវិធីសាស្រ្តខុសពីគ្នាមានន័យថាការប៉ាន់ប្រមាណរបស់អ្នកនឹងមានភាពប្រែប្រួលដែលកើតឡើងពីភាពប្រែប្រួលនៃទម្ងន់នៅក្នុងប្រជាជន។ ទោះជាយ៉ាងណាក៏ដោយប្រសិនបើអ្នកធ្វើវិធីសាស្ត្រខុសគ្នានោះការប្រែប្រួលតាមធម្មជាតិដែលមាននៅក្នុងទម្ងន់ត្រូវបានដកចេញហើយអ្នកអាចរកឃើញភាពខុសប្លែកពីគ្នាកាន់តែច្រើនដែលបណ្តាលមកពីការព្យាបាល។
នៅទីបំផុតខ្ញុំបានពិចារណាបន្ថែមមួយទីបួន: "repurpose" ។ នោះមានន័យថាប្រសិនបើអ្នកស្រាវជ្រាវរកឃើញថាពួកគេមានទិន្នន័យពិសោធន៍ច្រើនជាងអ្វីដែលពួកគេត្រូវការដើម្បីដោះស្រាយសំណួរស្រាវជ្រាវដើមរបស់ពួកគេនោះពួកគេគួរតែកែប្រែទិន្នន័យដើម្បីសួរសំណួរថ្មីៗ។ ឧទាហរណ៍ស្រមៃថា Kramer និងសហសេវិកបានប្រើការប៉ាន់ប្រមាណភាពខុសគ្នាហើយបានរកឃើញថាពួកគេមានទិន្នន័យច្រើនជាងពួកគេត្រូវការដើម្បីដោះស្រាយសំណួរស្រាវជ្រាវរបស់ពួកគេ។ ជាជាងមិនប្រើប្រាស់ទិន្នន័យឱ្យបានពេញលេញនោះពួកគេអាចសិក្សាពីទំហំនៃប្រសិទ្ធភាពដែលជាមុខងារនៃការបញ្ចេញអារម្មណ៍អារម្មណ៍មុនការព្យាបាល។ គ្រាន់តែជា Schultz et al. (2007) រកឃើញថាផលប៉ះពាល់នៃការព្យាបាលខុសគ្នាចំពោះអ្នកប្រើពន្លឺនិងធ្ងន់ប្រហែលជាផលប៉ះពាល់នៃចំណីព័ត៌មានគឺខុសគ្នាចំពោះអ្នកដែលមានបំណងចង់បង្ហោះសារដែលសប្បាយរីករាយ (ឬសោកសៅ) ។ Repurposing អាចនាំទៅរកការនេសាទ (Humphreys, Sierra, and Windt 2013) និង "ការ hacking" (Simmons, Nelson, and Simonsohn 2011) ប៉ុន្តែទាំងនេះគឺអាចនិយាយបានដោយការប្រមូលផ្ដុំនៃការរាយការណ៍ដោយស្មោះត្រង់ (Simmons, Nelson, and Simonsohn 2011) , ការចុះឈ្មោះជាមុន (Humphreys, Sierra, and Windt 2013) និងវិធីសាស្រ្តរៀនម៉ាស៊ីនដែលព្យាយាមជៀសវាងការហួសសម័យ។