ការអង្កេតមួយប្រភេទដែលមិនត្រូវបានបញ្ចូលក្នុងជំពូកនេះគឺជាតិពន្ធុ។ សម្រាប់ព័ត៌មានបន្ថែមអំពី ethnography ក្នុងចន្លោះឌីជីថលសូមមើល Boellstorff et al. (2012) និងសម្រាប់ព័ត៌មានបន្ថែមអំពីជាតិពន្ធុក្នុងលាយបញ្ចូលឌីជីថលនិងរាងកាយសូមមើល Lane (2016) ។
មិនមាននិយមន័យឯកភាពតែមួយនៃ "ទិន្នន័យធំ" ទេប៉ុន្តែនិយមន័យជាច្រើនហាក់ដូចជាផ្តោតលើ "3 Vs": បរិមាណភាពខុសគ្នានិងល្បឿន (ឧទាហរណ៍ Japec et al. (2015) ) ។ សូមមើល De Mauro et al. (2015) ដើម្បីពិនិត្យមើលនិយមន័យ។
ការបញ្ចូលទិន្នន័យគ្រប់គ្រងរដ្ឋបាលរបស់ខ្ញុំទៅក្នុងប្រភេទទិន្នន័យធំ ៗ ខុសពីធម្មតាបន្តិចទោះបីជាអ្នកដទៃទៀតបានបង្កើតករណីនេះក៏ដោយរួមទាំង Legewie (2015) Connelly et al. (2016) និង Einav and Levin (2014) ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីតម្លៃនៃទិន្នន័យរដ្ឋបាលរបស់រាជរដ្ឋាភិបាលសម្រាប់ការស្រាវជ្រាវសូមមើល Card et al. (2010) , Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) និង Grusky, Smeeding, and Snipp (2015) ។
ចំពោះទស្សនៈនៃការស្រាវជ្រាវផ្នែករដ្ឋបាលពីប្រព័ន្ធស្ថិតិរបស់រដ្ឋាភិបាលជាពិសេសការិយាល័យជំរឿនប្រជាជនអាមេរិកសូមមើល Jarmin and O'Hara (2016) ។ សម្រាប់ការព្យាបាលសៀវភៅរយៈពេលវែងនៃការស្រាវជ្រាវកំណត់ត្រារដ្ឋបាលនៅស្ថិតិស៊ុយអែតសូមមើល Wallgren and Wallgren (2007) ។
នៅក្នុងជំពូកនេះខ្ញុំបានប្រៀបធៀបសង្ខេបនូវការស្ទង់មតិបែបប្រពៃណីដូចជាការស្ទង់មតិសង្គមទូទៅ (GSS) ជាមួយនឹងប្រភពព័ត៌មានប្រព័ន្ធផ្សព្វផ្សាយសង្គមដូចជា Twitter ជាដើម។ ចំពោះការប្រៀបធៀបហ្មត់ចត់និងប្រុងប្រយ័ត្នរវាងការស្ទង់មតិជាប្រពៃណីនិងទិន្នន័យប្រព័ន្ធផ្សព្វផ្សាយសង្គមសូមមើល Schober et al. (2016) ។
លក្ខណៈទាំង 10 នៃទិន្នន័យធំ ៗ ទាំងនេះត្រូវបានពិពណ៌នាតាមភាពខុសគ្នានៃភាពខុសគ្នានៃអ្នកនិពន្ធផ្សេងៗគ្នា។ ការសរសេរដែលជះឥទ្ធិពលលើការគិតរបស់ខ្ញុំលើបញ្ហាទាំងនេះរួមមាន Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) Lazer (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) និង Goldstone and Lupyan (2016) ។
នៅទូទាំងជំពូកនេះខ្ញុំបានប្រើពាក្យ ឌីជីថលតាមដាន ដែលខ្ញុំគិតថាមានភាពអព្យាក្រឹត។ ពាក្យដែលពេញនិយមមួយទៀតសម្រាប់អន្ទាក់ឌីជីថលគឺ ក្រដាសឌីជីថល (Golder and Macy 2014) ប៉ុន្តែដូចដែល Hal Abelson, Ken Ledeen និង Harry Lewis (2008) ចង្អុលបង្ហាញពាក្យដែលសមស្របជាងនេះគឺប្រហែលជា ស្នាមម្រាមដៃឌីជីថល ។ នៅពេលអ្នកបង្កើតស្នាមជើងអ្នកនឹងដឹងពីអ្វីដែលកំពុងកើតឡើងហើយស្នាមជើងរបស់អ្នកមិនអាចឆ្លុះបញ្ចាំងពីអ្នកផ្ទាល់ទេ។ ដូចគ្នានេះដែរគឺមិនពិតសម្រាប់ដានឌីជីថលរបស់អ្នក។ តាមការពិតអ្នកចាកចេញពីដានរាល់ពេលដែលអ្នកមានចំណេះដឹងតិចតួចណាស់។ ហើយទោះបីជាដានទាំងនេះមិនមានឈ្មោះរបស់អ្នកនៅលើវាក៏ដោយក៏ពួកគេអាចភ្ជាប់ទំនាក់ទំនងមកអ្នកវិញ។ នៅក្នុងពាក្យផ្សេងទៀតពួកគេគឺដូចជាស្នាមម្រាមដៃ: ការមើលមិនឃើញនិងកំណត់អត្តសញ្ញាណជាលក្ខណៈបុគ្គល។
សម្រាប់ព័ត៌មានបន្ថែមអំពីមូលហេតុដែលសំណុំទិន្នន័យធំធ្វើឱ្យមានការធ្វើតេស្តស្ថិតិមានបញ្ហាសូមមើល M. Lin, Lucas, and Shmueli (2013) និង McFarland and McFarland (2015) ។ បញ្ហាទាំងនេះគួរតែនាំឱ្យអ្នកស្រាវជ្រាវផ្តោតលើសារៈសំខាន់ជាក់ស្តែងជាជាងសារៈសំខាន់នៃស្ថិតិ។
សម្រាប់ព័ត៌មានបន្ថែមអំពីរបៀបដែល Raj Chetty និងមិត្តរួមការងាររបស់គាត់ទទួលបានការកត់ត្រាពន្ធសូមមើល Mervis (2014) ។
សំណុំទិន្នន័យធំ ៗ ក៏អាចបង្កើតបញ្ហាគណនាដែលជាទូទៅលើសសមត្ថភាពនៃកុំព្យូទ័រតែមួយ។ ហេតុដូច្នេះហើយអ្នកស្រាវជ្រាវដែលធ្វើការគណនាលើទិន្នន័យធំ ៗ ជារឿយៗរីករាលដាលការងារនៅលើកុំព្យួទ័រជាច្រើនដែលជួនកាលគេហៅថា កម្មវិធីសរសេរតាមលំដាប់ ។ សម្រាប់សេចក្តីណែនាំអំពីការសរសេរកម្មវិធីស្របគ្នាជាពិសេសភាសាដែលគេហៅថា Hadoop សូមមើល Vo and Silvia (2016) ។
នៅពេលពិចារណាលើទិន្នន័យដែលតែងតែមានជានិច្ចវាជាការសំខាន់ក្នុងការពិចារណាថាតើអ្នកកំពុងប្រៀបធៀបមនុស្សដូចគ្នាពិតប្រាកដក្នុងរយៈពេលឬថាតើអ្នកកំពុងប្រៀបធៀបការផ្លាស់ប្តូរក្រុមមនុស្សមួយចំនួន។ មើលឧទាហរណ៍ Diaz et al. (2016) ។
សៀវភៅបុរាណមួយលើវិធានការមិនសកម្មគឺ Webb et al. (1966) ។ ឧទាហរណ៏ក្នុងសៀវភៅនោះមុនអាយុកាលឌីជីថលប៉ុន្តែពួកគេនៅតែបំភ្លឺ។ ឧទាហរណ៍អំពីការផ្លាស់ប្តូរអាកប្បកិរិយារបស់ពួកគេដោយសារវត្តមាននៃការឃ្លាំមើលដ៏ធំមួយសូមមើល Penney (2016) និង Brayne (2014) ។
ប្រតិកម្មតបទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងអ្វីដែលអ្នកស្រាវជ្រាវហៅថាផលប្រយោជន៍ (Orne 1962; Zizzo 2010) និងឥទ្ធិពល Hawthorne (Adair 1984; Levitt and List 2011) ។
សម្រាប់ព័ត៌មានបន្ថែមស្តីពីការភ្ជាប់ទំនាក់ទំនងកំណត់ត្រាសូមមើល Dunn (1946) និង Fellegi and Sunter (1969) (ប្រវត្តិសាស្រ្ត) និង Larsen and Winkler (2014) (ទំនើប) ។ វិធីសាស្ត្រស្រដៀងគ្នានេះក៏ត្រូវបានបង្កើតឡើងនៅក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រក្រោមឈ្មោះដូចជាការចម្លងទិន្នន័យ, ការសម្គាល់អត្តសញ្ញាណ, ការផ្គូរផ្គងឈ្មោះ, ការរកឃើញស្ទួននិងការថតចម្លងស្ទួន (Elmagarmid, Ipeirotis, and Verykios 2007) ។ ក៏មានវិធីសាស្រ្តអភិរក្សឯកជនភាពដើម្បីកត់ត្រាការភ្ជាប់ដែលមិនតម្រូវឱ្យមានការបញ្ជូនព័ត៌មានអត្តសញ្ញាណផ្ទាល់ខ្លួន (Schnell 2013) ។ ហ្វេសប៊ុកក៏បានបង្កើតដំណើរការដើម្បីភ្ជាប់កំណត់ត្រារបស់ពួកគេទៅនឹងឥរិយាបថបោះឆ្នោត។ នេះត្រូវបានធ្វើដើម្បីវាយតម្លៃការពិសោធន៍ដែលខ្ញុំនឹងប្រាប់អ្នកអំពីជំពូក 4 (Bond et al. 2012; Jones et al. 2013) ។
សម្រាប់ព័ត៌មានបន្ថែមអំពីសុពលភាពនៃការសាងសង់សូមមើលជំពូក 3 នៃ Shadish, Cook, and Campbell (2001) ។
សម្រាប់ព័ត៌មានបន្ថែមស្តីពីមហន្តរាយកំណត់ហេតុស្វែងរករបស់ AOL សូមមើល Ohm (2010) ។ ខ្ញុំផ្តល់ដំបូន្មានអំពីការធ្វើជាដៃគូជាមួយក្រុមហ៊ុននិងរដ្ឋាភិបាលនៅក្នុងជំពូកទី 4 នៅពេលខ្ញុំរៀបរាប់ពីពិសោធន៍។ អ្នកនិពន្ធមួយចំនួនបានសម្តែងការព្រួយបារម្ភអំពីការស្រាវជ្រាវដែលពឹងផ្អែកលើទិន្នន័យមិនអាចចូលបានមើលឃើញ Huberman (2012) និង boyd and Crawford (2012) ។
វិធីល្អមួយសម្រាប់ក្រុមអ្នកស្រាវជ្រាវសាកលវិទ្យាល័យទទួលបាននូវការចូលដំណើរការទិន្នន័យទៅធ្វើការនៅក្នុងក្រុមហ៊ុនមួយដែលជាអ្នកហាត់ការឬអ្នកស្រាវជ្រាវមកទស្សនា។ ក្រៅពីការអនុញ្ញាតឱ្យចូលដំណើរការទិន្នន័យដែលដំណើរការនេះនឹងជួយអ្នកស្រាវជ្រាវបានរៀនបន្ថែមទៀតអំពីរបៀបដែលទិន្នន័យត្រូវបានបង្កើតឡើងដែលជាការសំខាន់សម្រាប់ការវិភាគ។
ទាក់ទងនឹងការទទួលបានទិន្នន័យរបស់រដ្ឋាភិបាលលោក Mervis (2014) ពិភាក្សាអំពីរបៀបដែលលោក Raj Chetty និងសហការីទទួលបាននូវការកត់ត្រាពន្ធដែលបានប្រើនៅក្នុងការស្រាវជ្រាវរបស់ពួកគេលើការចល័តផ្នែកសង្គម។
សម្រាប់ព័ត៌មានបន្ថែមស្តីពីប្រវត្តិសាស្ត្រនៃ "ការតំណាង" ជាគំនិតមួយសូមមើល Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) និង Kruskal and Mosteller (1980) ។
សេចក្ដីសង្ខេបរបស់ខ្ញុំអំពីការងាររបស់ព្រិលនិងកិច្ចការរបស់ Doll និង Hill គឺខ្លី។ សម្រាប់ព័ត៌មានបន្ថែមអំពីការងាររបស់ព្រិលនៅលើជំងឺអាសន្នរោគសូមមើល Freedman (1991) ។ សម្រាប់ព័ត៌មានបន្ថែមលើការសិក្សារបស់គ្រូពេទ្យជនជាតិអង់គ្លេសមើល Doll et al. (2004) និង Keating (2014) ។
ក្រុមអ្នកស្រាវជ្រាវជាច្រើននឹងមានការភ្ញាក់ផ្អើលដែលដឹងថាទោះបីជា Doll និង Hill បានប្រមូលទិន្នន័យពីគ្រូពេទ្យស្ត្រីនិងពីវេជ្ជបណ្ឌិតអាយុក្រោម 35 ក៏ដោយពួកគេមានបំណងមិនប្រើទិន្នន័យនេះនៅក្នុងការវិភាគលើកដំបូងរបស់ពួកគេ។ ខណៈដែលពួកគេជជែកវែកញែកថា: "ដោយសារតែជំងឺមហារីកសួតគឺកម្រមានចំពោះស្ត្រីនិងបុរសដែលមានអាយុក្រោម 35 ឆ្នាំ, តួលេខដែលមានប្រយោជន៍មិនទំនងទទួលបាននៅក្នុងក្រុមទាំងនេះប៉ុន្មានឆ្នាំមកនេះទេ។ នៅក្នុងរបាយការណ៍បឋមនេះយើងបានផ្តោតការយកចិត្តទុកដាក់របស់យើងចំពោះបុរសដែលមានអាយុពី 35 ឆ្នាំឡើងទៅ។ " Rothman, Gallacher, and Hatch (2013) ដែលមានចំណងជើងបង្កហេតុថា" ហេតុអ្វីបានជាការតំណាងត្រូវតែជៀសវាង "ធ្វើឱ្យមានអំណះអំណាងទូទៅបន្ថែមទៀតសម្រាប់តម្លៃនៃ បង្កើតទិន្នន័យដែលមិនតំណាងឱ្យដោយចេតនា។
ការមិនតំណាងរាស្ត្រគឺជាបញ្ហាចម្បងមួយសម្រាប់អ្នកស្រាវជ្រាវនិងរដ្ឋាភិបាលដែលមានបំណងចង់ធ្វើសេចក្តីថ្លែងការណ៍អំពីប្រជាជនទាំងមូល។ នេះគឺជាការព្រួយបារម្ភតិចតួចសម្រាប់ក្រុមហ៊ុនដែលជាទូទៅផ្តោតលើអ្នកប្រើរបស់ពួកគេ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីរបៀបដែលស្ថិតិប្រទេសហូឡង់ពិចារណាលើបញ្ហានៃការមិនតំណាងឱ្យទិន្នន័យធំ ៗ អាជីវកម្មមើល Buelens et al. (2014) ។
សំរាប់ឧទាហរណ៍នៃអ្នកស្រាវជ្រាវដែលបង្ហាញពីការព្រួយបារម្ភអំពីធម្មជាតិដែលមិនតំណាងឱ្យប្រភពទិន្នន័យធំ ៗ សូមមើល boyd and Crawford (2012) K. Lewis (2015b) និង Hargittai (2015) ។
សម្រាប់ការប្រៀបធៀបបន្ថែមទៀតនៃគោលដៅនៃការស្ទង់មតិសង្គមនិងការស្រាវជ្រាវអេពីដេមីសូមមើល Keiding and Louis (2016) ។
សំរាប់ព័ត៌មានបន្ថែមអំពីការប៉ុនប៉ងប្រើប្រាស់ Twitter ដើម្បីបង្កើតជាទូទៅអំពីអ្នកបោះឆ្នោតជាពិសេសករណីពីការបោះឆ្នោតអាឡឺម៉ង់ឆ្នាំ 2009 សូមមើល Jungherr (2013) និង Jungherr (2015) ។ បន្ទាប់ពីការងាររបស់ Tumasjan et al. (2010) ក្រុមអ្នកស្រាវជ្រាវនៅជុំវិញពិភពលោកបានប្រើវិធីសាស្រ្តដូចជាវិធីសាស្រ្តវិភាគមនោសញ្ចេតនាដើម្បីបែងចែករវាងការលើកឡើងវិជ្ជមាននិងអវិជ្ជមានរបស់ភាគីដើម្បីបង្កើនលទ្ធភាពទិន្នន័យរបស់ Twitter ដើម្បីទស្សន៍ទាយប្រភេទផ្សេងគ្នានៃការបោះឆ្នោត (Gayo-Avello 2013; Jungherr 2015, chap. 7.) ។ នេះជារបៀបដែល Huberty (2015) សង្ខេបលទ្ធផលនៃការព្យាយាមទាំងនេះដើម្បីទស្សន៍ទាយការបោះឆ្នោត:
"វិធីសាស្រ្តព្យាករណ៍ទាំងអស់ដែលត្រូវបានគេស្គាល់ដោយផ្អែកលើប្រព័ន្ធផ្សព្វផ្សាយសង្គមបានបរាជ័យនៅពេលដែលត្រូវបានគេតម្រូវឱ្យមានការព្យាករណ៍ទុកជាមុនអំពីការបោះឆ្នោត។ ភាពបរាជ័យទាំងនេះទំនងជាដោយសារលក្ខណៈសំខាន់ៗនៃប្រព័ន្ធផ្សព្វផ្សាយសង្គមជាជាងការលំបាកខាងវិធីសាស្ត្រឬក្បួនដោះស្រាយ។ នៅក្នុងរយៈពេលខ្លី, ប្រព័ន្ធផ្សព្វផ្សាយសង្គមមិន, ហើយប្រហែលជាមិនដែលនឹង, ផ្តល់ជូននូវរូបភាពដែលមានស្ថិរភាព, មិនលំអៀង, តំណាងរូបភាពនៃការបោះឆ្នោតនេះ; និងភាពងាយស្រួលនៃគំរូប្រព័ន្ធផ្សព្វផ្សាយសង្គមខ្វះទិន្នន័យគ្រប់គ្រាន់ដើម្បីដោះស្រាយបញ្ហាទាំងនេះ។ "
នៅក្នុងជំពូកទី 3 ខ្ញុំនឹងរៀបរាប់ពីការជ្រើសរើសនិងការប៉ាន់ប្រមាណក្នុងពត៌មានកាន់តែច្រើន។ ទោះបីជាទិន្នន័យមិនមានតំណាងក៏ដោយនៅក្នុងលក្ខខណ្ឌជាក់លាក់មួយពួកគេអាចត្រូវបានគេប៉ាន់ស្មានដើម្បីបង្កើតការប៉ាន់ប្រមាណល្អ។
ការរសាត់ប្រព័ន្ធគឺពិបាកណាស់ក្នុងការមើលពីខាងក្រៅ។ ទោះជាយ៉ាងណាគម្រោង MovieLens (ដែលបានពិភាក្សាបន្ថែមនៅក្នុងជំពូកទី 4) ត្រូវបានដំណើរការអស់រយៈពេលជាង 15 ឆ្នាំដោយក្រុមអ្នកស្រាវជ្រាវ។ ដូច្នេះពួកគេអាចចងក្រងឯកសារនិងចែករំលែកព័ត៌មានអំពីរបៀបដែលប្រព័ន្ធមានការវិវត្តន៍តាមពេលវេលានិងរបៀបដែលវាអាចប៉ះពាល់ដល់ការវិភាគ (Harper and Konstan 2015) ។
អ្នកប្រាជ្ញមួយចំនួនបានផ្តោតលើការរសាត់ក្នុង Twitter: Liu, Kliman-Silver, and Mislove (2014) និង Tufekci (2014) ។
វិធីសាស្រ្តមួយដើម្បីដោះស្រាយជាមួយនឹងការធ្លាក់ចុះចំនួនប្រជាជនគឺដើម្បីបង្កើតក្រុមអ្នកប្រើដែលអនុញ្ញាតឱ្យក្រុមអ្នកស្រាវជ្រាវសិក្សាមនុស្សដូចគ្នាតាមពេលវេលាសូមមើល Diaz et al. (2016) ។
ដំបូងខ្ញុំបានលឺពាក្យថា "ក្បួនដោះស្រាយអាថ៌កំបាំង" ដែល Jon Kleinberg បានប្រើនៅក្នុងការពិភាក្សាប៉ុន្តែជាអកុសលខ្ញុំមិនចាំថាពេលណាឬកន្លែងណាដែលនិយាយនោះទេ។ លើកទីមួយដែលខ្ញុំបានឃើញពាក្យនៅក្នុងការបោះពុម្ពគឺនៅក្នុង Anderson et al. (2015) ដែលជាការពិភាក្សាដ៏គួរឱ្យចាប់អារម្មណ៍អំពីរបៀបដែលក្បួនដោះស្រាយដែលត្រូវបានប្រើប្រាស់ដោយគេហទំព័រណាត់ជួបអាចធ្វើឱ្យស្មុគស្មាញរបស់អ្នកស្រាវជ្រាវក្នុងការប្រើប្រាស់ទិន្នន័យពីគេហទំព័រទាំងនេះដើម្បីសិក្សាចំណង់ចំណូលចិត្តសង្គម។ ការព្រួយបារម្ភនេះត្រូវបានលើកឡើងដោយ K. Lewis (2015a) ក្នុងការឆ្លើយតបទៅនឹង Anderson et al. (2014) ។
បន្ថែមពីលើហ្វេសប៊ុក Twitter ក៏ផ្តល់អនុសាសន៍ដល់អ្នកប្រើប្រាស់ឱ្យតាមដានតាមគំនិតនៃការបិទការប្រកួតបី។ សូមមើល Su, Sharma, and Goel (2016) ។ ដូច្នេះកម្រិតនៃការបញ្ចប់នៃត្រីមាត្រនៅក្នុង Twitter គឺជាការរួមបញ្ចូលគ្នានៃនិន្នាការរបស់មនុស្សមួយចំនួនឆ្ពោះទៅរកការបញ្ចប់នៃការត្រួតត្រានិងនិន្នាការក្បួនដោះស្រាយមួយចំនួនដើម្បីជំរុញការបិទបាំងត្រីមាត្រ។
សម្រាប់ព័ត៌មានបន្ថែមស្តីពីការសម្តែងជាពិសេសគំនិតដែលទ្រឹស្ដីវិទ្យាសាស្រ្តសង្គមមួយចំនួនគឺ "ម៉ាស៊ីនមិនមែនជាម៉ាស៊ីនថត" (ឧ។ ពួកគេបង្កើតពិភពលោកជាជាងគ្រាន់តែរៀបរាប់អំពីវា) - See Mackenzie (2008) ។
ទីភ្នាក់ងារស្ថិតិរដ្ឋាភិបាលហៅទិន្នន័យការសំអាត ទិន្នន័យស្ថិតិ ។ De Waal, Puts, and Daas (2014) រៀបរាប់អំពីបច្ចេកទេសកែសម្រួលទិន្នន័យដែលបានបង្កើតឡើងសម្រាប់ទិន្នន័យស្ទង់មតិហើយពិនិត្យមើលថាតើពួកគេអាចប្រើប្រភពទិន្នន័យធំបាន Puts, Daas, and Waal (2015) ហើយ Puts, Daas, and Waal (2015) បង្ហាញនូវគំនិតដូចគ្នាខ្លះសម្រាប់ អ្នកទស្សនាទូទៅ។
ចំពោះទិដ្ឋភាពទូទៅនៃរូបយន្តសង្គមសូមមើល Ferrara et al. (2016) ។ សំរាប់ឧទាហរណ៍មួយចំនួននៃការសិក្សាផ្តោតលើការស្វែងរកសារឥតបានការនៅក្នុង Twitter សូមមើល Clark et al. (2016) និង Chu et al. (2012) ។ ជាចុងក្រោយ Subrahmanian et al. (2016) ពិពណ៌នាអំពីលទ្ធផលនៃការប្រកួត DARPA Twitter Bot ដែលជាការសហការដ៏ធំមួយដែលបានរចនាឡើងដើម្បីប្រៀបធៀបវិធីសាស្រ្តសម្រាប់រកឃើញ bots នៅលើ Twitter ។
Ohm (2015) ពិនិត្យការស្រាវជ្រាវមុន ៗ លើគំនិតនៃព័ត៌មានរសើបនិងផ្តល់នូវការធ្វើតេស្តពហុកត្តា។ កត្តាទាំងបួនដែលលោកបានស្នើគឺទំហំនៃផលប៉ះពាល់ដែលជាប្រតិកម្មអាក្រក់និងវត្តមាននៃទំនាក់ទំនងសម្ងាត់ហើយថាតើហានិភ័យនេះឆ្លុះបញ្ចាំងពីការព្រួយបារម្ភធំធេង។
ការសិក្សារបស់ហ្វារប៊ឺរលើរថយន្តតាក់ស៊ីនៅញូវយ៉កត្រូវបានផ្អែកលើការស្រាវជ្រាវពីមុនដោយ Camerer et al. (1997) ដែលបានប្រើគំរូភាពងាយស្រួលបីផ្សេងគ្នានៃសន្លឹកធ្វើដំណើរក្រដាស។ ការសិក្សាមុននេះបានរកឃើញថាអ្នកបើកបរហាក់ដូចជាអ្នករកចំណេញ: ពួកគេបានធ្វើការតិចជាងនៅថ្ងៃដែលប្រាក់ឈ្នួលរបស់ពួកគេខ្ពស់។
ក្នុងការងារបន្តបន្ទាប់ព្រះមហាក្សត្រនិងសហសេវិកបានសិក្សាបន្ថែមទៀតលើការត្រួតពិនិត្យតាមអ៊ីនធឺណែតនៅប្រទេសចិន (King, Pan, and Roberts 2014, [@king_how_2016] ) ។ ចំពោះវិធីសាស្រ្តដែលទាក់ទងទៅនឹងការវាស់ស្ទង់ការត្រួតពិនិត្យលើអ៊ីនធឺណិតនៅប្រទេសចិនសូមមើល Bamman, O'Connor, and Smith (2012) ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីវិធីសាស្រ្តស្ថិតិដូចជា King, Pan, and Roberts (2013) ដើម្បីប៉ាន់ប្រមាណអារម្មណ៍នៃការបោះត្រាចំនួន 11 លាននាក់សូមមើល Hopkins and King (2010) ។ សម្រាប់ព័ត៌មានបន្ថែមអំពីការរៀនសូត្រដែលមានការត្រួតពិនិត្យសូមមើល James et al. (2013) (តិចបច្ចេកទេស) និង Hastie, Tibshirani, and Friedman (2009) (បច្ចេកទេសបន្ថែមទៀត) ។
ការព្យាករណ៍គឺជាផ្នែកមួយដ៏ធំនៃវិទ្យាសាស្រ្តទិន្នន័យឧស្សាហកម្ម (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) ។ ការព្យាករណ៍មួយប្រភេទដែលត្រូវបានធ្វើជាទូទៅដោយក្រុមអ្នកស្រាវជ្រាវសង្គមគឺជាការព្យាករណ៍ប្រជាសាស្ត្រ។ សូមមើលឧទាហរណ៍ Raftery et al. (2012) ។
Google Flu Trends មិនមែនជាគម្រោងដំបូងដែលប្រើទិន្នន័យស្វែងរកដើម្បីជៀសវាងការរីករាលដាលនៃជំងឺគ្រុនផ្តាសាយទេ។ តាមពិតអ្នកស្រាវជ្រាវនៅសហរដ្ឋអាមេរិក (Polgreen et al. 2008; Ginsberg et al. 2009) និងស៊ុយអែត (Hulth, Rydevik, and Linde 2009) បានរកឃើញថាពាក្យស្វែងរកមួយចំនួន (ឧទាហរណ៍ "ជំងឺគ្រុនផ្តាសាយ") បានព្យាករណ៍ពីការឃ្លាំមើលសុខភាពសាធារណៈជាតិ ទិន្នន័យមុនពេលវាត្រូវបានចេញផ្សាយ។ ជាបន្តបន្ទាប់ជាច្រើនគម្រោងជាច្រើនផ្សេងទៀតបានព្យាយាមប្រើទិន្នន័យដានឌីជីថលដើម្បីការពារការតាមដានជំងឺ។ សូមមើល Althouse et al. (2015) សម្រាប់ការពិនិត្យមើលឡើងវិញមួយ។
បន្ថែមពីលើការប្រើប្រាស់ទិន្នន័យដានឌីជីថលដើម្បីព្យាករណ៍លទ្ធផលសុខភាពក៏មានការងារមួយចំនួនធំផងដែរដែលប្រើទិន្នន័យ Twitter ដើម្បីទស្សន៍ទាយលទ្ធផលនៃការបោះឆ្នោត។ សម្រាប់ទស្សនាវ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ជំពូក 7) និង Huberty (2015) ។ បច្ចុប្បន្ននៃសូចនាករសេដ្ឋកិច្ចដូចជាផលិតផលក្នុងស្រុកសរុប (GDP) ក៏មានជាទូទៅនៅក្នុងធនាគារកណ្តាលផងដែរដូចជា Bańbura et al. (2013) ។ តារាង 2.8 រួមមានឧទាហរណ៍មួយចំនួននៃការសិក្សាដែលប្រើប្រភេទឌីជីថលមួយចំនួនដើម្បីទស្សន៍ទាយប្រភេទព្រឹត្តិការណ៍ខ្លះនៅក្នុងពិភពលោក។
ដានឌីជីថល | លទ្ធផល | ការដកស្រង់ |
---|---|---|
ប្រាក់ចំណូលរបស់ខ្សែភាពយន្ដប្រអប់នៅសហរដ្ឋអាមេរិក | Asur and Huberman (2010) | |
កំណត់ហេតុស្វែងរក | ការលក់ខ្សែភាពយន្តតន្រ្តីសៀវភៅនិងហ្គេមវីដេអូនៅសហរដ្ឋអាមេរិក | Goel et al. (2010) |
Dow Jones Industrial Average (US stock market) | Bollen, Mao, and Zeng (2011) | |
ប្រព័ន្ធផ្សព្វផ្សាយសង្គមនិងកំណត់ហេតុស្វែងរក | ការស្ទាបស្ទង់មតិរបស់វិនិយោគិននិងផ្សារភាគហ៊ុននៅក្នុងសហរដ្ឋអាមេរិកចក្រភពអង់គ្លេសកាណាដានិងចិន | Mao et al. (2015) |
កំណត់ហេតុស្វែងរក | អាត្រានៃជំងឺគ្រុនឈាមនៅសឹង្ហបុរីនិងបាងកក | Althouse, Ng, and Cummings (2011) |
ជាចុងក្រោយលោក Jon Kleinberg និងសហសេវិក (2015) បានចង្អុលបង្ហាញថាបញ្ហាព្យាករណ៍ជាពីរប្រភេទខុសគ្នាតិចតួចហើយអ្នកវិទ្យាសាស្រ្តសង្គមមានទំនោរផ្តោតលើមួយនិងមិនអើពើនឹងអ្នកដទៃ។ សូមស្រមៃគិតថាអ្នកបង្កើតគោលនយោបាយម្នាក់ខ្ញុំនឹងហៅនាងថាអាណាដែលកំពុងប្រឈមមុខនឹងគ្រោះរាំងស្ងួតហើយត្រូវតែសម្រេចចិត្តថាជួលឈ្មួញដើម្បីរាំភ្លៀងដើម្បីបង្កើនភ្លៀង។ អ្នកបង្កើតគោលនយោបាយមួយទៀតខ្ញុំនឹងហៅនាងថា Betty ត្រូវតែសម្រេចថាតើត្រូវយកឆ័ត្រដើម្បីធ្វើការដើម្បីចៀសវាងការសើមនៅតាមផ្លូវ។ ទាំងអាណានិងប៊ីតធីអាចធ្វើការសំរេចចិត្តបានប្រសើរជាងប្រសិនបើពួកគេយល់ដឹងពីអាកាសធាតុប៉ុន្តែពួកគេត្រូវដឹងពីរឿងផ្សេងៗ។ អាណាត្រូវដឹងថាតើភ្លៀងធ្លាក់ភ្លៀងធ្វើឱ្យភ្លៀងធ្លាក់។ ផ្ទុយទៅវិញ Betty មិនចាំបាច់យល់ដឹងអំពីមូលហេតុអ្វីឡើយ។ នាងត្រូវការការព្យាករណ៍ត្រឹមត្រូវ។ អ្នកស្រាវជ្រាវសង្គមតែងតែផ្តោតលើបញ្ហាដូចជា Anna ដែល Kleinberg និងសហសេវិកហៅថាបញ្ហាភ្លៀងរាំៀងដូចជាបញ្ហាភ្លៀង។ សំណួរដូចជា Betty ដែល Kleinberg និងសហសេវិកហៅថាបញ្ហាគោលនយោបាយដូចជាឆត្រអាចមានសារៈសំខាន់ផងដែរប៉ុន្តែបានទទួលការយកចិត្តទុកដាក់តិចតួចពីក្រុមអ្នកស្រាវជ្រាវសង្គម។
ទិនានុប្បវត្តិ វិទ្យាសាស្រ្តនយោបាយ PS បានធ្វើការពិភាក្សាលើទិន្នន័យធំការសន្និដ្ឋានមូលហេតុនិងទ្រឹស្តីផ្លូវការហើយលោក Clark and Golder (2015) សង្ខេបពីវិភាគទាននីមួយៗ។ ទិនានុប្បវត្តិ នីតិវិធីនៃបណ្ឌិត្យសភាវិទ្យាសាស្ត្រជាតិនៃសហរដ្ឋអាមេរិក មានសន្និសិទស្តីពីការសន្និដ្ឋានមូលហេតុនិងទិន្នន័យធំ ៗ ហើយ Shiffrin (2016) សង្ខេបការចូលរួមចំណែកនីមួយៗ។ ចំពោះវិធីសាស្រ្តរៀនម៉ាស៊ីនដែលព្យាយាមរកការពិសោធន៍ធម្មជាតិដោយស្វ័យប្រវត្តិនៅខាងក្នុងប្រភពទិន្នន័យធំសូមមើល Jensen et al. (2008) Sharma, Hofman, and Watts (2015) និង Sharma, Hofman, and Watts (2016) ។
ទាក់ទងនឹងការពិសោធធម្មជាតិ Dunning (2012) ផ្តល់នូវការព្យាបាលដោយមានការណែនាំនិងរយៈពេលវែងដោយមានឧទាហរណ៍ជាច្រើន។ ចំពោះការសង្ស័យអំពីការពិសោធធម្មជាតិសូមមើល Rosenzweig and Wolpin (2000) (សេដ្ឋកិច្ច) ឬ Sekhon and Titiunik (2012) (វិទ្យាសាស្រ្តនយោបាយ) ។ Deaton (2010) និង Heckman and Urzúa (2010) អះអាងថាការផ្តោតលើការធ្វើពិសោធធម្មជាតិអាចនាំឱ្យអ្នកស្រាវជ្រាវផ្តោតលើការប៉ាន់ស្មានពីផលប៉ះពាល់នៃការមិនសំខាន់។ Imbens (2010) រាប់អាគុយម៉ង់ទាំងនេះជាមួយនឹងទស្សនវិស័យសុទិដ្ឋិនិយមបន្ថែមអំពីតម្លៃនៃការពិសោធធម្មជាតិ។
នៅពេលដែលរៀបរាប់អំពីរបៀបដែលអ្នកស្រាវជ្រាវម្នាក់អាច វាស់ ពីការប៉ាន់ប្រមាណពីប្រសិទ្ធភាពនៃការព្រាងដើម្បីឱ្យមានប្រសិទ្ធភាពនៃការបម្រើខ្ញុំបានរៀបរាប់ពីបច្ចេកទេសដែលហៅថា អថេរឧបករណ៍ ។ Imbens and Rubin (2015) នៅក្នុងជំពូកទី 23 និង 24 របស់ពួកគេផ្តល់នូវការណែនាំនិងប្រើប្រាស់សេចក្តីព្រាងច្បាប់ជាឧទាហរណ៍។ ប្រសិទ្ធិភាពនៃការបម្រើយោធាលើអ្នកធ្វើត្រាប់ត្រូវបានគេហៅថាជួនកាលមានប្រសិទ្ធិភាពបូកសរុប (CAcE) ហើយជួនកាលឥទ្ធិពលនៃការព្យាបាលជាមធ្យមក្នុងតំបន់ (LATE) ។ Sovey and Green (2011) Angrist and Krueger (2001) និង Bollen (2012) ផ្តល់នូវការពិនិត្យឡើងវិញអំពីការប្រើប្រាស់អថេរឧបករណ៍នៅក្នុងវិទ្យាសាស្ត្រនយោបាយសេដ្ឋកិច្ចនិងសង្គមវិទ្យាហើយ Sovey and Green (2011) ផ្តល់នូវ "បញ្ជីត្រួតពិនិត្យរបស់អ្នកអាន" ការវាយតំលៃការសិក្សាដោយប្រើអថេរឧបករណ៍។
វាប្រែថាឆ្នោតឆ្នាំ 1970 មិនត្រូវបានគេចៃដន្យដោយត្រឹមត្រូវ។ មានការប្រែប្រួលតិចតួចពីចៃដន្យសុទ្ធ (Fienberg 1971) ។ Berinsky and Chatfield (2015) ជំទាស់ថាគម្លាតតូចនេះមិនមានសារៈសំខាន់សំខាន់និងពិភាក្សាគ្នាពីសារៈសំខាន់នៃការចៃដន្យដែលបានធ្វើត្រឹមត្រូវ។
ទាក់ទងទៅនឹងការផ្គូរផ្គងសូមមើល Stuart (2010) សម្រាប់ការពិនិត្យឡើងវិញប្រកបដោយសុទិដ្ឋិនិយមនិង Sekhon (2009) សម្រាប់ការពិនិត្យមើលទុទិដ្ឋិនិយម។ សម្រាប់ព័ត៌មានបន្ថែមទៀតលើការផ្គូផ្គងជាប្រភេទនៃការកាត់ចេញសូមមើល Ho et al. (2007) ។ ការស្វែងរកការផ្គូផ្គងដ៏ល្អឥតខ្ចោះមួយសម្រាប់មនុស្សម្នាក់ៗជាញឹកញាប់មានការពិបាកហើយនេះបង្ហាញអំពីភាពស្មុគស្មាញមួយចំនួន។ ទី 1 នៅពេលដែលមិនមានការផ្គូរផ្គងពិតប្រាកដអ្នកស្រាវជ្រាវត្រូវការសំរេចថាតើត្រូវវាស់ចម្ងាយរវាងពីរគ្រឿងហើយបើចម្ងាយជិតមានគ្រប់គ្រាន់។ ភាពស្មុគស្មាញទីពីរកើតឡើងប្រសិនបើអ្នកស្រាវជ្រាវចង់ប្រើការផ្គូផ្គងច្រើនសម្រាប់ករណីនីមួយៗនៅក្នុងក្រុមព្យាបាលព្រោះនេះអាចនាំទៅរកការប៉ាន់ស្មានបន្ថែមទៀត។ បញ្ហាទាំងពីរនេះក៏ដូចជាចំណុចដទៃទៀតត្រូវបានពិពណ៌នាលម្អិតនៅក្នុងជំពូកទី 18 នៃ Imbens and Rubin (2015) ។ សូមមើលផងដែរផ្នែកទី II នៃ ( ??? ) ។
សូមមើល Dehejia and Wahba (1999) ដែលជាឧទាហរណ៍ដែលវិធីសាស្ត្រផ្គូផ្គងអាចបង្កើតការប៉ាន់ប្រមាណស្រដៀងគ្នាទៅនឹងពិសោធន៍ដែលត្រូវបានត្រួតពិនិត្យដោយចៃដន្យ។ ប៉ុន្តែសូមមើល Arceneaux, Gerber, and Green (2006) និង Arceneaux, Gerber, and Green (2010) សម្រាប់ឧទាហរណ៏ដែលវិធីសាស្រ្តផ្គូផ្គងបរាជ័យក្នុងការផលិតគំរូពិសោធន៍មួយ។
Rosenbaum (2015) និង Hernán and Robins (2016) ផ្តល់ដំបូន្មានផ្សេងៗទៀតដើម្បីរកមើលការប្រៀបធៀបមានប្រយោជន៍នៅក្នុងប្រភពទិន្នន័យដ៏ធំ។