ប្រភពទិន្នន័យធំ ៗ មានគ្រប់ទីកន្លែងប៉ុន្តែការប្រើវាសម្រាប់ការស្រាវជ្រាវសង្គមអាចមានភាពលំបាក។ នៅក្នុងបទពិសោធរបស់ខ្ញុំមានអ្វីមួយដូចច្បាប់«គ្មានអាហារថ្ងៃត្រង់»សម្រាប់ទិន្នន័យ: ប្រសិនបើអ្នកមិនបានប្រមូលការងារច្រើនទេនោះអ្នកប្រហែលជាត្រូវដាក់ការងារច្រើនគិតពីវាហើយ វិភាគវា។
ប្រភពទិន្នន័យធំ ៗ នាពេលបច្ចុប្បន្ននិងប្រហែលជាថ្ងៃស្អែកនឹងមានចរិតលក្ខណៈ 10 ។ បីចំណុចទាំងនេះជាទូទៅ (ប៉ុន្តែមិនតែងតែ) មានប្រយោជន៍សម្រាប់ការស្រាវជ្រាវ: ធំធំធេងជានិច្ចនិងមិនសកម្ម។ ប្រាំពីរជាទូទៅ (ប៉ុន្តែមិនតែងតែ) មានបញ្ហាសម្រាប់ការស្រាវជ្រាវ: មិនពេញលេញ, មិនអាចចូលដំណើរការបាន, តំណាងមិនតំណាង, រសាត់, ក្បួនដោះស្រាយការខូចខាត, កខ្វក់និងប្រកាន់អក្សរតូចធំ។ ភាគច្រើននៃលក្ខណៈទាំងនេះបានកើតឡើងដោយសារតែប្រភពទិន្នន័យធំ ៗ មិនត្រូវបានបង្កើតឡើងសម្រាប់គោលបំណងនៃការស្រាវជ្រាវសង្គម។
ដោយផ្អែកលើគំនិតនៅក្នុងជំពូកនេះខ្ញុំគិតថាមានវិធីសំខាន់បីដែលប្រភពទិន្នន័យធំនឹងមានតម្លៃបំផុតសម្រាប់ការស្រាវជ្រាវសង្គម។ ដំបូងគេអាចឱ្យអ្នកស្រាវជ្រាវធ្វើការសម្រេចចិត្តរវាងការទស្សន៍ទាយទ្រឹស្តី។ ឧទាហរណ៏នៃប្រភេទនៃការងារនេះរួមមាន Farber (2015) (អ្នកបើកបរតាក់ស៊ីញូវយ៉ក) និង King, Pan, and Roberts (2013) (ការត្រួតពិនិត្យនៅក្នុងប្រទេសចិន) ។ ទីពីរប្រភពទិន្នន័យដ៏ធំអាចធ្វើឱ្យមានការវាស់វែងកាន់តែប្រសើរឡើងសម្រាប់គោលនយោបាយតាមរយៈការផ្សព្វផ្សាយឥឡូវនេះ។ ឧទាហរណ៏នៃប្រភេទនៃការងារនេះគឺ Ginsberg et al. (2009) (Google Flu Trends) ។ ទីបំផុតប្រភពទិន្នន័យដ៏ធំអាចជួយអ្នកស្រាវជ្រាវធ្វើការប៉ាន់ប្រមាណមូលហេតុដោយមិនចាំបាច់ដំណើរការពិសោធន៍។ ឧទាហរណ៏នៃប្រភេទការងារនេះគឺ Mas and Moretti (2009) (ផលប៉ះពាល់មិត្តនៅលើផលិតភាព) និង Einav et al. (2015) (ឥទ្ធិពលនៃតម្លៃចាប់ផ្តើមនៅលើការដេញថ្លៃនៅ eBay) ។ វិធីសាស្រ្តនីមួយៗនៃវិធីសាស្ត្រទាំងនេះតម្រូវឱ្យអ្នកស្រាវជ្រាវយកទិន្នន័យជាច្រើនដូចជានិយមន័យនៃបរិមាណដែលមានសារៈសំខាន់ដើម្បីប៉ាន់ប្រមាណឬទ្រឹស្ដីពីរដែលធ្វើឱ្យការទស្សន៍ទាយប្រកួតប្រជែងគ្នា។ ដូច្នេះខ្ញុំគិតថាវិធីល្អបំផុតដើម្បីគិតអំពីប្រភពទិន្នន័យធំ ៗ ដែលអាចធ្វើបានគឺថាពួកគេអាចជួយអ្នកស្រាវជ្រាវដែលអាចសួរសំណួរសំខាន់ៗនិងគួរឱ្យចាប់អារម្មណ៍។
មុននឹងសន្និដ្ឋានខ្ញុំគិតថាវាមានតម្លៃពិចារណាថាប្រភពទិន្នន័យធំ ៗ អាចមានឥទ្ធិពលយ៉ាងសំខាន់លើទំនាក់ទំនងរវាងទិន្នន័យនិងទ្រឹស្ដី។ រហូតមកដល់ពេលនេះជំពូកនេះបានយកវិធីសាស្រ្តនៃការស្រាវជ្រាវទ្រឹស្តីជំរុញដោយការស្រាវជ្រាវ។ ប៉ុន្តែប្រភពទិន្នន័យធំ ៗ ក៏អាចឱ្យក្រុមអ្នកស្រាវជ្រាវធ្វើ ទ្រឹស្តីតាមទ្រឹស្តី ។ នោះគឺតាមរយៈការព្រមព្រៀងប្រុងប្រយ័ត្ននៃការពិតគំរូលំនាំនិងល្បែងផ្គុំរូបភាពអ្នកស្រាវជ្រាវអាចបង្កើតទ្រឹស្តីថ្មី។ វិធីសាស្ត្រជំនួសវិធីសាស្ត្រដំបូងបង្អស់ចំពោះទ្រឹស្ដីនេះគឺមិនថ្មីទេហើយវាត្រូវបានបញ្ចូលយ៉ាងខ្លាំងក្លាបំផុតដោយបារនីកហ្គឺរឺនិងអិនសែលស្ត្រូស (1967) ដោយការហៅរបស់ពួកគេសម្រាប់ ទ្រឹស្តី ។ ទោះជាយ៉ាងណាក៏ដោយវិធីសាស្រ្តទិន្នន័យនេះមិនមានន័យថា "ចប់ទ្រឹស្ដីនេះទេ" ដូចដែលត្រូវបានអះអាងថាមាននៅក្នុងអ្នកកាសែតមួយចំនួននៅជុំវិញការស្រាវជ្រាវក្នុងសម័យឌីជីថល (Anderson 2008) ។ ផ្ទុយទៅវិញនៅពេលដែលបរិយាកាសទិន្នន័យផ្លាស់ប្តូរយើងគួរតែរំពឹងថានឹងមានតុល្យភាពរវាងទំនាក់ទំនងរវាងទិន្នន័យនិងទ្រឹស្តី។ នៅក្នុងពិភពលោកដែលការប្រមូលទិន្នន័យមានតម្លៃថ្លៃវាមានន័យណាស់ក្នុងការប្រមូលតែទិន្នន័យដែលទ្រឹស្តីបានលើកឡើងថាវានឹងមានប្រយោជន៍បំផុត។ ប៉ុន្តែនៅក្នុងពិភពលោកដែលមានទិន្នន័យច្រើនសម្បើមដែលអាចរកបានដោយឥតគិតថ្លៃរួចទៅហើយនោះវាសមហេតុផលដែលត្រូវព្យាយាមវិធីសាស្ត្រទិន្នន័យដំបូង (Goldberg 2015) ។
ដូចដែលខ្ញុំបានបង្ហាញនៅក្នុងជំពូកនេះក្រុមអ្នកស្រាវជ្រាវអាចរៀនសូត្រច្រើនតាមរយៈការមើលមនុស្ស។ នៅក្នុងជំពូក 3 បន្ទាប់ខ្ញុំនឹងរៀបរាប់ពីរបៀបដែលយើងអាចរៀនបានច្រើននិងខុសៗគ្នាប្រសិនបើយើងសម្របសម្រួលការប្រមូលទិន្នន័យរបស់យើងនិងធ្វើអន្តរកម្មជាមួយមនុស្សដោយផ្ទាល់ដោយសួរពួកគេនូវសំណួរ (ជំពូកទី 3) ដែលកំពុងដំណើរការពិសោធន៍ (ជំពូក 4) និងសូម្បីតែពាក់ព័ន្ធនឹងពួកគេ នៅក្នុងដំណើរការស្រាវជ្រាវដោយផ្ទាល់ (ជំពូកទី 5) ។