អត្ថាធិប្បាយបន្ថែមទៀត

ផ្នែកនេះគឺត្រូវបានរចនាឡើងដើម្បីត្រូវបានប្រើជាសេចក្ដីយោងជាជាងការដើម្បីត្រូវបានអានក្នុងនិទានកថាវិញ។

  • សេចក្តីផ្តើម (ចំណុច 2.1)

ប្រភេទមួយនៃការធ្វើតាមនោះមិនត្រូវបានរួមបញ្ចូលនៅក្នុងជំពូកនេះគឺ Ethnography ។ ចំពោះការបន្ថែមទៀតលើ Ethnography ក្នុងពិភពបច្ចេកវិទ្យាឃើញ Boellstorff et al. (2012) , និងសម្រាប់បន្ថែមទៀតនៅលើ Ethnography ក្នុងពិភពបច្ចេកវិទ្យានិងរាងកាយការលាយបញ្ចូលគ្នាបានមើលឃើញ Lane (2016)

  • ទិន្នន័យធំ (ចំណុច 2.2)

ពេលដែលអ្នកត្រូវ repurposing ទិន្នន័យ, មានល្បិចផ្លូវចិត្តពីរយ៉ាងដែលអាចជួយអ្នកឱ្យយល់ពីបញ្ហាដែលអាចធ្វើបានដែលអ្នកអាចជួបប្រទះគឺ។ ជាដំបូងអ្នកអាចព្យាយាមស្រមៃសំណុំទិន្នន័យល្អបំផុតសម្រាប់បញ្ហារបស់អ្នកនិងប្រៀបធៀបទៅនឹងសំណុំទិន្នន័យដែលអ្នកកំពុងប្រើ។ ពួកគេគឺស្រដៀងគ្នាអំពីរបៀបនិងរបៀបដែលពួកគេបានខុសគ្នា? ប្រសិនបើអ្នកមិនបានប្រមូលទិន្នន័យរបស់អ្នកដោយខ្លួនឯង, មានទំនងជាមានភាពខុសគ្នារវាងអ្វីដែលអ្នកចង់បាននិងអ្វីដែលអ្នកមាន។ ប៉ុន្តែអ្នកត្រូវតែសម្រេចចិត្តប្រសិនបើមានភាពខុសគ្នាទាំងនេះគឺជាអនីតិជនឬធំ។

ទីពីរចាំបានថានរណាម្នាក់បានបង្កើតនិងប្រមូលទិន្នន័យរបស់អ្នកសម្រាប់ហេតុផលមួយចំនួន។ អ្នកគួរតែព្យាយាមដើម្បីយល់ពីហេតុផលរបស់ពួកគេ។ ប្រភេទនៃវិស្វកម្មនេះបញ្ច្រាសអាចជួយអ្នកក្នុងការសម្គាល់បញ្ហាដែលអាចធ្វើបាននិងភាពលំអៀងក្នុងទិន្នន័យយកមកកែច្នៃរបស់អ្នក។

មិនមាននិយមន័យការមូលមតិគ្នាតែមួយនៃ "ទិន្នន័យធំ", ប៉ុន្តែនិយមន័យជាច្រើនហាក់ដូចផ្តោតលើ 3 Vs: (ឧទា, ទំហំ, ភាពខុសគ្នានិងល្បឿន Japec et al. (2015) ) ។ ជាជាងការផ្តោតទៅលើលក្ខណៈនៃទិន្នន័យ, និយមន័យរបស់ខ្ញុំបានផ្តោតលើមូលហេតុដែលទិន្នន័យនេះត្រូវបានបង្កើតឡើង។

ការដាក់បញ្ចូលទិន្នន័យផ្នែករដ្ឋបាលរបស់រដ្ឋាភិបាលរបស់ខ្ញុំនៅក្នុងប្រភេទនៃទិន្នន័យដែលធំគឺមិនធម្មតាបន្តិច។ អ្នកផ្សេងទៀតដែលបានធ្វើឱ្យករណីនេះរួមបញ្ចូលទាំងការ Legewie (2015) , Connelly et al. (2016) , និង Einav and Levin (2014) ។ ចំពោះបន្ថែមអំពីតម្លៃនៃទិន្នន័យរបស់ផ្នែករដ្ឋបាលរបស់រដ្ឋាភិបាលសម្រាប់ការស្រាវជ្រាវសូមមើល Card et al. (2010) , Taskforce (2012) , និង Grusky, Smeeding, and Snipp (2015)

សម្រាប់ទិដ្ឋភាពនៃការស្រាវជ្រាវរដ្ឋបាលពីខាងក្នុងប្រព័ន្ធស្ថិតិរដ្ឋាភិបាលជាពិសេសការិយាល័យជំរឿនរបស់សហរដ្ឋអាមេរិកបានឃើញ Jarmin and O'Hara (2016) ។ សម្រាប់ការព្យាបាលប្រវែងស្រាវជ្រាវក្នុងសៀវភៅកំណត់ត្រារដ្ឋបាលនៅស្ថិតិស៊ុយអ៊ែតមើលឃើញ Wallgren and Wallgren (2007)

ក្នុងជំពូកនេះខ្ញុំបានប្រៀបធៀបការស្ទង់មតិតាមបែបប្រពៃណីដូចជាការស្ទង់មតិទូទៅសង្គម (GSS) ទៅប្រភពទិន្នន័យប្រព័ន្ធផ្សព្វផ្សាយសង្គមដូចជា Twitter ដោយសង្ខេប។ ចំពោះការប្រៀបធៀបរវាងហ្មត់ចត់និងប្រុងប្រយ័ត្នក្នុងការស្ទង់មតិប្រពៃណីនិងទិន្នន័យប្រព័ន្ធផ្សព្វផ្សាយសង្គមបានមើលឃើញ Schober et al. (2016)

  • លក្ខណៈទូទៅនៃទិន្នន័យធំ (ចំណុច 2.3)

លក្ខណៈទាំង 10 នៃទិន្នន័យធំត្រូវបានរៀបរាប់នៅក្នុងភាពខុសគ្នានៃវិធីផ្សេងគ្នាដោយភាពខុសគ្នារបស់អ្នកនិពន្ធផ្សេងគ្នា។ ការសរសេរថាគំនិតរបស់ខ្ញុំលើការទទួលឥទ្ធិពលពីបញ្ហាទាំងនេះរួមមាន: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , និង Goldstone and Lupyan (2016)

នៅទូទាំងជំពូកនេះខ្ញុំបានប្រើដានឌីជីថលរយៈពេលដែលខ្ញុំគិតថាគឺជាការអព្យាក្រឹតដែលទាក់ទង។ រយៈពេលពេញនិយមមួយផ្សេងទៀតសម្រាប់ស្នាមជើងដានឌីជីថលឌីជីថលគឺ (Golder and Macy 2014) , ប៉ុន្តែជាហា Abelson, លោក Ken Ledeen និងលោក Harry លោក Lewis (2008) បានចង្អុលបង្ហាញ, មួយរយៈពេលសមរម្យបន្ថែមទៀតគឺប្រហែលជាស្នាមម្រាមដៃឌីជីថល។ នៅពេលដែលអ្នកបង្កើតស្នាមជើង, អ្នកដឹងពីអ្វីដែលកំពុងកើតឡើងនិងបាតជើងរបស់អ្នកអាចមិនមែនជាទូទៅត្រូវបានឆ្លុះបញ្ចាំងទៅកាន់អ្នកផ្ទាល់។ ដូចគ្នានេះដែរគឺមិនមែនជាការពិតសម្រាប់ដានឌីជីថលរបស់អ្នក។ នៅក្នុងការពិត, អ្នកត្រូវចាកចេញពីដានគ្រប់ពេលទាំងអស់អំពីការដែលអ្នកមានចំណេះដឹងតិចតួចណាស់។ ហើយទោះជាការដានទាំងនេះមិនមានឈ្មោះរបស់អ្នកនៅលើពួកគេពួកគេអាចជាញឹកញាប់ត្រូវបានភ្ជាប់ត្រឡប់មកវិញដើម្បីអ្នក។ នៅក្នុងពាក្យផ្សេងទៀតដែលពួកគេមានច្រើនទៀតដូចជាស្នាមម្រាមដៃ: មើលមិនឃើញនិងការកំណត់ផ្ទាល់ខ្លួន។

ធំ

ចំពោះការបន្ថែមទៀតលើហេតុអ្វីបានជាទិន្នន័យដែលមានទំហំធំ, ការធ្វើតេស្តស្ថិតិបញ្ហាផ្ដល់, មើលឃើញ Lin, Lucas, and Shmueli (2013) និង McFarland and McFarland (2015) ។ បញ្ហាទាំងនេះគួរតែនាំក្រុមអ្នកស្រាវជ្រាវបានផ្តោតសំខាន់លើសារៈសំខាន់ជាក់ស្តែងជាជាងសារៈសំខាន់ស្ថិតិ។

នៅលើជានិច្ច

ពេលពិចារណាជានិច្ចទិន្នន័យ, វាជាការសំខាន់ដើម្បីពិចារណាថាតើអ្នកត្រូវបានគេប្រៀបធៀបជាមនុស្សដូចគ្នាពិតប្រាកដនៅលើពេលវេលាឬថាតើអ្នកត្រូវបានគេប្រៀបធៀបការផ្លាស់ប្តូរក្រុមមួយចំនួននៃមនុស្ស; សូមមើលឧទាហរណ៍, Diaz et al. (2016)

ដែលមិនមែនជាសកម្មភាពម្តង

សៀវភៅបុរាណនៅលើវិធានការមិនមែនសកម្មភាពម្តងគឺ Webb et al. (1966) ។ ឧទាហរណ៍នៅក្នុងសៀវភៅមុនកាលបរិច្ឆេទអាយុឌីជីថល, ប៉ុន្តែពួកគេនៅតែត្រូវបានបំភ្លឺ។ សម្រាប់ឧទាហរណ៍នៃការផ្លាស់ប្តូរឥរិយាបទរបស់ពួកគេជាមនុស្សដោយសារតែវត្តមាននៃការតាមដានរង្គាលនេះឃើញ Penney (2016) និង Brayne (2014)

មិនពេញលេញ

ចំពោះការបន្ថែមទៀតនៅលើកំណត់ត្រាភ្ជាប់បណ្តាញមើលឃើញ Dunn (1946) និង Fellegi and Sunter (1969) (ប្រវត្តិសាស្រ្ត) និង Larsen and Winkler (2014) (សម័យទំនើប) ។ ចូលទៅជិតស្រដៀងគ្នាត្រូវបានបង្កើតឡើងនៅក្នុងវិទ្យាសាស្ដ្រកុំព្យូទ័រនៅក្រោមឈ្មោះដូចជាការ deduplication ទិន្នន័យកំណត់អត្តសញ្ញាណឧទាហរណ៍ផ្គូផ្គងឈ្មោះស្ទួនការរកឃើញនិងការរកឃើញកំណត់ត្រាស្ទួន (Elmagarmid, Ipeirotis, and Verykios 2007) ។ មានវិធីសាស្រ្តមានភាពឯកជនការរក្សាទំនាក់ទំនងដែលមានដើម្បីកត់ត្រាមិនទាមទារការឆ្លងនៃការកំណត់អត្តសញ្ញាណផ្ទាល់ផងដែរព (Schnell 2013) ។ ហ្វេសប៊ុកបានបង្កើតបន្តទៅភ្ជាប់កំណត់ត្រារបស់ពួកគេទៅឥរិយាបថបោះឆ្នោត; នេះត្រូវបានធ្វើដើម្បីវាយតម្លៃការពិសោធន៍មួយដែលខ្ញុំនឹងប្រាប់អ្នកអំពីការនៅក្នុងជំពូកទី 4 (Bond et al. 2012; Jones et al. 2013)

ចំពោះការបន្ថែមទៀតលើសុពលភាពបង្កើតសូមមើល Shadish, Cook, and Campbell (2001) , ជំពូកទី 3 ។

មិនអាចចូលដំណើរការ

ចំពោះការបន្ថែមទៀតនៅលើមហន្តរាយកំណត់ហេតុស្វែងរក AOL, មើលឃើញ Ohm (2010) ។ ខ្ញុំបានផ្តល់នូវដំបូន្មានអំពីដៃគូជាមួយក្រុមហ៊ុននិងរដ្ឋាភិបាលក្នុងជំពូកទី 4 នៅពេលដែលខ្ញុំបានរៀបរាប់ពិសោធន៍។ ចំនួននៃអ្នកនិពន្ធមួយចំនួនបានសម្តែងនូវការព្រួយបារម្ភអំពីការស្រាវជ្រាវដែលពឹងផ្អែកលើទិន្នន័យដែលមិនអាចចូលដំណើរការសូមមើល Huberman (2012) និង boyd and Crawford (2012)

វិធីល្អមួយសម្រាប់ក្រុមអ្នកស្រាវជ្រាវសាកលវិទ្យាល័យទទួលបាននូវការចូលដំណើរការទិន្នន័យទៅធ្វើការនៅក្នុងក្រុមហ៊ុនមួយដែលជាអ្នកហាត់ការឬអ្នកស្រាវជ្រាវមកទស្សនា។ ក្រៅពីការអនុញ្ញាតឱ្យចូលដំណើរការទិន្នន័យដែលដំណើរការនេះនឹងជួយអ្នកស្រាវជ្រាវបានរៀនបន្ថែមទៀតអំពីរបៀបដែលទិន្នន័យត្រូវបានបង្កើតឡើងដែលជាការសំខាន់សម្រាប់ការវិភាគ។

ដែលមិនមែនជាតំណាង

ដែលមិនមែនជាតំណាងរាស្រ្តជាបញ្ហាចម្បងសម​​្រាប់អ្នកស្រាវជ្រាវនិងរដ្ឋាភិបាលដែលមានបំណងដើម្បីធ្វើឱ្យសេចក្តីថ្លែងការណ៍អំពីចំនួនប្រជាជនទាំងមូល។ នេះគឺតិចនៃការព្រួយបារម្ភសម្រាប់ក្រុមហ៊ុនដែលត្រូវបានផ្តោតជាធម្មតានៅលើអ្នកប្រើរបស់ពួកគេ។ ចំពោះការបន្ថែមទៀតលើរបៀបស្ថិតិហូល្លង់បានចាត់ទុកបញ្ហានៃការមិនតំណាងនៃទិន្នន័យធំអាជីវកម្មមើលឃើញ Buelens et al. (2014)

នៅជំពូកទី 3 ខ្ញុំនឹងរៀបរាប់អំពីការរៀបចំសំណាកគំរូនិងការប៉ាន់ស្មាននៅក្នុងលម្អិតកាន់តែច្រើន។ សូម្បីតែប្រសិនបើទិន្នន័យគឺមិនមែនជាតំណាងក្រោមលក្ខខណ្ឌមួយចំនួន, ពួកគេអាចត្រូវបានថ្លឹងតាមការប៉ាន់ប្រមាណជាការល្អផលិត។

រសាត់

សំណាត់ប្រព័ន្ធគឺជាការលំបាកខ្លាំងណាស់ក្នុងការមើលឃើញពីខាងក្រៅ។ ទោះជាយ៉ាងណាគម្រោង MovieLens (បានពិភាក្សាបន្ថែមទៀតនៅក្នុងជំពូកទី 4) ត្រូវបានគេរត់អស់រយៈពេលជាង 15 ឆ្នាំដោយក្រុមស្រាវជ្រាវសិក្សា។ ហេតុនេះហើយបានជាពួកគេបានចងក្រងជាឯកសារនិងពត៍មានអំពីវិធីដែលថាប្រព័ន្ធនេះមានការវិវត្តលើពេលវេលានិងរបៀបចែករំលែកនេះអាចមានឥទ្ធិពលវិភាគ (Harper and Konstan 2015)

ចំនួនអ្នកប្រាជ្ញមួយបានផ្តោតលើសំណាត់នៅក្នុង Twitter: Liu, Kliman-Silver, and Mislove (2014) និង Tufekci (2014)

អាម៉ាស់ក្បួនដោះស្រាយ

ខ្ញុំបានឮជាលើកដំបូងពាក្យ "អាម៉ាស់មុខយ៉ាងខ្លាំងក្បួនដោះស្រាយ" បានប្រើដោយលោក Jon Kleinberg ក្នុងសុន្ទរកថា។ គំនិតសំខាន់នៅពីក្រោយការសម្តែងនោះគឺថាទ្រឹស្តីវិទ្យាសាស្រ្តមួយចំនួនក្នុងសង្គមគឺ "ម៉ាស៊ីនមិនកាមេរ៉ា" (Mackenzie 2008) ។ នោះគឺ, ពួកគេពិតជាមានឥទ្ធិពលលើពិភពលោកជាជាងគ្រាន់តែចាប់យកវា។

កខ្វក់

ទីភ្នាក់ងារស្ថិតិរដ្ឋាភិបាលបានហៅការសម្អាតទិន្នន័យ, កែសម្រួលទិន្នន័យស្ថិតិ។ De Waal, Puts, and Daas (2014) រៀបរាប់អំពីបច្ចេកទេសការកែសម្រួលទិន្នន័យស្ថិតិអភិវឌ្ឍសម្រាប់ទិន្នន័យការស្ទង់មតិនិងពិនិត្យដែលកម្រិតដែលពួកគេអាចអនុវត្តទៅកាន់ប្រភពទិន្នន័យធំ, និង Puts, Daas, and Waal (2015) បានបង្ហាញពីការមួយចំនួននៃគំនិតដូចគ្នានេះដែរសម្រាប់ទស្សនិកជនទូទៅបន្ថែមទៀត។

សម្រាប់ឧទាហរណ៍មួយចំនួននៃការសិក្សាផ្តោតលើសារឥតបានការនៅក្នុង Twitter, Clark et al. (2016) និង Chu et al. (2012) ។ ជាចុងក្រោយ, Subrahmanian et al. (2016) រៀបរាប់អំពីលទ្ធផលនៃការប្រកួតបត់ក្នុង Twitter DARPA បាន។

អក្សរតូចធំ

Ohm (2015) បានពិនិត្យស្រាវជ្រាវមុននៅលើគំនិតនៃទិន្នន័យនិងការផ្តល់នូវការធ្វើតេស្តពហុកត្តា។ កត្តាបួននាក់ដែលគាត់បានស្នើគឺ: ប្រូបាប៊ីលីតេនៃការមានះថាក់នេះ; ប្រូបាប៊ីលីតេនៃការមានះថាក់! វត្តមាននៃការទំនាក់ទំនងសម្ងាត់ និងថាតើហានិភ័យនេះបានឆ្លុះបញ្ចាំងពីការព្រួយបារម្ភ majoritarian ។

  • រាប់រឿង (ផ្នែកទី 2.4.1)

ការសិក្សា Farber រថយន្តតាក់ស៊ីរបស់ញូវយ៉កត្រូវបាននៅមូលដ្ឋានលើការសិក្សាមុនដោយ Camerer et al. (1997) ដែលបានប្រើគំរូភាពងាយស្រួលបីផ្សេងគ្នានៃសន្លឹកទម្រង់ក្រដាសធ្វើដំណើរក្រដាសបានប្រើដោយអ្នកបើកបរដើម្បីកត់ត្រាពេលចាប់ផ្តើមធ្វើដំណើរ, ពេលវេលាចុងនិងថ្លៃសំបុត្រធ្វើដំណើរ។ ការសិក្សាមុននេះបានរកឃើញថាអ្នកបើកបរហាក់ដូចជាអ្នករកគោលដៅ: ពួកគេបានធ្វើនៅថ្ងៃដែលជាកន្លែងដែលតិចរបស់ពួកគេមានប្រាក់ឈ្នួលខ្ពស់ជាងមុន។

Kossinets and Watts (2009) ត្រូវបានគេផ្តោតទៅលើប្រភពដើមនៃ homophily ក្នុងបណ្តាញសង្គម។ សូមមើល Wimmer and Lewis (2010) សម្រាប់វិធីសាស្រ្តផ្សេងគ្នាទៅនឹងបញ្ហាដូចគ្នានេះដែលប្រើទិន្នន័យពីហ្វេសប៊ុក។

នៅក្នុងការងារជាបន្តបន្ទាប់ព្រះមហាក្សត្រនិងសហការីបានរកឃើញបន្ថែមទៀតការត្រួតពិនិត្យលើបណ្តាញនៅក្នុងប្រទេសចិន (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) ។ សម្រាប់វិធីសាស្រ្តដែលទាក់ទងទៅនឹងការវាស់ចាប់ពិរុទ្ធលើបណ្តាញនៅក្នុងប្រទេសចិនបានមើលឃើញ Bamman, O'Connor, and Smith (2012) ។ ចំពោះការបន្ថែមទៀតលើវិធីសាស្រ្តស្ថិតិដូចជាការមួយដែលត្រូវបានប្រើក្នុងការ King, Pan, and Roberts (2013) ដើម្បីប៉ាន់ប្រមាណអារម្មណ៍នៃប្រកាស 11 លានដែលបានមើលឃើញ Hopkins and King (2010) ។ ចំពោះការបន្ថែមទៀតលើការរៀនប្រាស់សូមមើល James et al. (2013) (តិចបច្ចេកទេស) និង Hastie, Tibshirani, and Friedman (2009) (បច្ចេកទេសបន្ថែមទៀត) ។

  • ព្យាករ (ផ្នែកទី 2.4.2)

ព្យាករនេះគឺមួយផ្នែកធំនៃឧស្សាហកម្មផ្នែកវិទ្យាសាស្រ្តទិន្នន័យ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) ។ ប្រភេទនៃការព្យាករមួយដែលត្រូវបានធ្វើជាទូទៅដោយអ្នកស្រាវជ្រាវសង្គមត្រូវបានគេព្យាករប្រជាសាស្ត្រ, ឧទាហរណ៍ Raftery et al. (2012)

Google Flu Trends គឺជាគម្រោងដំបូងក្នុងការប្រើទិន្នន័យដែលស្វែងរកដើម្បី nowcast អត្រាប្រេវ៉ាឡង់ជំងឺផ្តាសាយមិនបាន។ តាមការពិតក្រុមអ្នកស្រាវជ្រាវនៅសហរដ្ឋអាមេរិច (Polgreen et al. 2008; Ginsberg et al. 2009) និងប្រទេសស៊ុយអែត (Hulth, Rydevik, and Linde 2009) បានរកឃើញថាពាក្យស្វែងរកមួយចំនួន (ឧទាហរណ៍, "ជំងឺផ្តាសាយ") បានព្យាករថាការឃ្លាំមើលសុខភាពសាធារណៈថ្នាក់ជាតិ ទិន្នន័យមុនពេលវាត្រូវបានគេចេញផ្សាយ។ បនា្ទាប់ជាច្រើន, គម្រោងដទៃទៀតជាច្រើនបានព្យាយាមប្រើទិន្នន័យដានឌីជីថលសម្រាប់ការរកឃើញការត្រួតពិនិត្យជំងឺ, មើល Althouse et al. (2015) សម្រាប់ការពិនិត្យមួយ។

ក្រៅពីការប្រើប្រាស់ទិន្នន័យដានទស្សន៍ទាយលទ្ធផលឌីជីថលសុខភាពមានការច្រើននៃការងារការប្រើប្រាស់ទិន្នន័យ Twitter ដើម្បីទស្សន៍ទាយលទ្ធផលនៃការបោះឆ្នោតផងដែរ; សម្រាប់ការពិនិត្យមើលឃើញ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ក្រុមហ៊ុន Ch ។ 7) និង Huberty (2015)

ប្រើទិន្នន័យស្វែងរកដើម្បីបានព្យាករថាអត្រាប្រេវ៉ាឡង់ជំងឺផ្តាសាយនិងប្រើទិន្នន័យ Twitter ដើម្បីទស្សន៍ទាយការបោះឆ្នោតនេះគឺជាឧទាហរណ៍ទាំងពីរនៃការប្រើប្រាស់ប្រភេទនៃដានឌីជីថលមួយចំនួនដើម្បីទស្សន៍ទាយប្រភេទនៃព្រឹត្តិការណ៍នៅក្នុងពិភពលោកមួយចំនួន។ មានមួយចំនួនធំសម្បើមនៃការសិក្សាដែលមានរចនាសម្ព័ន្ធទូទៅនេះ។ តារាង 2.5 មានរួមបញ្ចូលទាំងឧទាហរណ៍មួយចំនួនផ្សេងទៀត។

តារាង 2.5: បញ្ជីផ្នែកនៃការសិក្សាមួយចំនួនបានប្រើដានឌីជីថលទស្សន៍ទាយព្រឹត្តិការណ៍មួយចំនួន។
ដានឌីជីថល លទ្ធផល អំណះអំណាង
ក្នុង Twitter ប្រាក់ចំណូលការិយាល័យប្រអប់នៃខ្សែភាពយន្ដនៅអាមេរិក Asur and Huberman (2010)
កំណត់ហេតុស្វែងរក ការលក់ភាពយន្តតន្ត្រីសៀវភៅនិងវីដេអូហ្គេមនៅអាមេរិក Goel et al. (2010)
ក្នុង Twitter ហ៊ុន Dow Jones មធ្យមឧស្សាហកម្ម (ផ្សារហ៊ុនអាមេរិក) Bollen, Mao, and Zeng (2011)
  • ពិសោធន៍ប្រហាក់ប្រហែល (ផ្នែកទី 2.4.3)

ទស្សនាវដ្តីវិទ្យាសាស្រ្តនយោបាយនេះ PS សន្និសីទលើទិន្នន័យដែលមានទំហំធំ, inference ធ្វើអោយនិងទ្រឹស្តីជាផ្លូវការមួយនិង Clark and Golder (2015) សង្ខេបអំពីការចូលរួមចំណែកគ្នា។ កិច្ចដំណើរការនីតិវិធីកាសែតនៃបណ្ឌិតសភាវិទ្យាសាស្រ្តជាតិនៃសហរដ្ឋអាមេរិកមានសន្និសិទស្តីពី inference ធ្វើអោយនិងទិន្នន័យធំមួយ, និង Shiffrin (2016) សង្ខេបអំពីការចូលរួមចំណែកគ្នា។

នៅក្នុងលក្ខខណ្ឌនៃការពិសោធន៍ធម្មជាតិ Dunning (2012) ផ្ដល់នូវការព្យាបាលមួយដែលល្អឥតខ្ចោះប្រវែងសៀវភៅ។ ចំពោះការបន្ថែមទៀតលើការប្រើប្រាស់សេចក្តីព្រាងឆ្នោតវៀតណាមជាមួយការពិសោធន៍ធម្មជាតិមើលឃើញ Berinsky and Chatfield (2015) ។ ចំពោះវិធីសាស្រ្តការរៀនម៉ាស៊ីនដែលបានព្យាយាមដើម្បីរកឱ្យឃើញការពិសោធន៍ធម្មជាតិខាងក្នុងរបស់ប្រភពទិន្នន័យធំដោយស្វ័យប្រវត្តិសូមមើល Jensen et al. (2008) និង Sharma, Hofman, and Watts (2015)

នៅក្នុងលក្ខខណ្ឌនៃការផ្គូផ្គងសម្រាប់ការពិនិត្យសុទិដ្ឋិនិយម, មើលឃើញ Stuart (2010) , និងសម្រាប់ការពិនិត្យទុទិដ្ឋិនិយមឃើញ Sekhon (2009) ។ ចំពោះការបន្ថែមទៀតលើការផ្គូផ្គងជាប្រភេទនៃការ pruning មួយមើលឃើញ Ho et al. (2007) ។ ចំពោះសៀវភៅដែលបានផ្តល់នូវការព្យាបាលល្អបំផុតនៃការផ្គូផ្គង, មើលឃើញ Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , និង Imbens and Rubin (2015)