នៅក្នុងអាយុអាណាឡូកដែលបានប្រមូលទិន្នន័យអំពីឥរិយាបថដែលធ្វើអ្វីនៅពេលដែលមានតម្លៃថ្លៃហើយដូច្នេះកម្រដែលទាក់ទង។ ឥឡូវនេះនៅក្នុងអាយុឌីជីថលឥរិយាបថរបស់មនុស្សរាប់ពាន់លាននាក់ដែលត្រូវបានកត់ត្រាទុក, រក្សាទុកនិងការវិភាគ។ ឧទាហរណ៍រាល់ពេលដែលអ្នកចុចលើវេបសាយមួយដែលធ្វើឱ្យការហៅនៅលើទូរស័ព្ទដៃរបស់អ្នកឬបង់ប្រាក់សម្រាប់ការអ្វីមួយជាមួយនឹងកាតឥណទានរបស់អ្នក, កំណត់ត្រាឌីជីថលនៃឥរិយាបទរបស់អ្នកគឺត្រូវបានបង្កើតឡើងនិងត្រូវបានរក្សាទុកដោយអាជីវកម្ម។ ដោយសារតែទិន្នន័យទាំងនេះគឺជាផលិតផលនៃរាល់សកម្មភាពដោយថ្ងៃរបស់មនុស្ស, ពួកគេត្រូវបានគេហៅជាញឹកញាប់ដានឌីជីថល។ លើសពីនេះទៀតដានទាំងនេះបានធ្វើឡើងដោយក្រុមហ៊ុនអាជីវកម្មរដ្ឋាភិបាលផងដែរមានទិន្នន័យសម្បូរបែបមិនគួរឱ្យជឿអំពីទាំងមនុស្សនិងអាជីវកម្ម, ទិន្នន័យដែលជាញឹកញាប់ឌីជីថលនិងវិភាគ។ ជាមួយគ្នាមុខជំនួញនិងរដ្ឋាភិបាលកំណត់ត្រាទាំងនេះត្រូវបានហៅជាញឹកញាប់ទិន្នន័យធំ។
នេះជាទឹកជំនន់មិនធ្លាប់មានការកើនឡើងនៃទិន្នន័យធំមានន័យថាយើងបានផ្លាស់ប្តូរពីពិភពលោកមួយដែលជាកន្លែងដែលទិន្នន័យខ្វះខាតទៅនឹងអាកប្បកិរិយាក្នុងពិភពលោកដែលជាកន្លែងដែលទិន្នន័យឥរិយាបថសម្បូរមួយ។ ប៉ុន្តែដោយសារតែទិន្នន័យប្រភេទទាំងនេះគឺមានថ្មី, ចំនួនទឹកប្រាក់នៃការស្រាវជ្រាវដោយការប្រើអកុសលពួកគេមើលទៅដូចជាវិទ្យាសាស្រ្តបានដេញតាមទិន្នន័យដែលមានដោយងងឹតងងល់។ ជំពូកនេះជំនួសវិញ, ផ្តល់នូវវិធីសាស្រ្តគោលការណ៍ដើម្បីការយល់ដឹងពីប្រភពផ្សេងគ្នានៃទិន្នន័យនិងរបៀបដែលពួកគេអាចត្រូវបានប្រើ។ ការយល់ដឹងផ្តួនេះគួរតែជួយឱ្យអ្នកផ្គូផ្គងសំណួរស្រាវជ្រាវរបស់អ្នកល្អប្រសើរជាងមុនទៅនឹងប្រភពសមរម្យនៃទិន្នន័យ។ ឬប្រសិនបើប្រភពដែលមានស្រាប់បែបនេះត្រូវមានការខ្វះខាត, បញ្ចុះបញ្ចូលអ្នកដើម្បីប្រមូលទិន្នន័យផ្ទាល់ខ្លួនរបស់អ្នកដោយប្រើគំនិតក្នុងជំពូកនាពេលអនាគត។
ជំហានដំបូងក្នុងការរៀនពីទិន្នន័យធំគឺដើម្បីដឹងថាវាជាផ្នែកមួយនៃប្រភេទទូលំទូលាយរបស់ទិន្នន័យដែលត្រូវបានប្រើសម្រាប់ការស្រាវជ្រាវសង្គមសម្រាប់រយៈពេលជាច្រើនឆ្នាំ: ទិន្នន័យអង្កេត។ ប្រហែលទិន្នន័យដែលអង្កេតគឺជាទិន្នន័យដែលបានមកពីការសង្កេតជាប្រព័ន្ធសង្គមដោយមិនអន្តរាគមន៍នៅក្នុងវិធីមួយចំនួនណាមួយ។ វិធីប្រេងឆៅដើម្បីគិតអំពីវានោះគឺថាទិន្នន័យអង្កេតជាអ្វីគ្រប់យ៉ាងដែលមិនពាក់ព័ន្ធនឹងនិយាយជាមួយមនុស្ស (ឧទាហរណ៍ការស្ទង់មតិ, ប្រធានបទក្នុងជំពូកទី 3) ឬការផ្លាស់ប្តូរបរិស្ថានរបស់មនុស្ស (ឧទាហរណ៍ពិសោធន៍ប្រធានបទនៃជំពូកទី 4 នេះ) ។ ដូច្នេះក្នុងការបន្ថែមទៅកំណត់ត្រាមុខជំនួញនិងរដ្ឋាភិបាលទិន្នន័យដែលអង្កេតរួមបញ្ចូលផងដែរអ្វីដែលដូចជាអត្ថបទនៃអត្ថបទកាសែតនិងរូបថតផ្កាយរណប។
ជំពូកនេះមានបីផ្នែក។ ដំបូង, នៅក្នុងចំណុច 2.2, ខ្ញុំបានរៀបរាប់អំពីទិន្នន័យធំនៅក្នុងលម្អិតបន្ថែមទៀតនិងបញ្ជាក់ពីភាពខុសគ្នាជាមូលដ្ឋានរវាងវានិងទិន្នន័យដែលត្រូវបានជាទូទៅប្រើក្នុងការស្រាវជ្រាវសង្គមនៅក្នុងពេលកន្លងមកនេះ។ បន្ទាប់មកនៅក្នុងចំណុច 2.3, ខ្ញុំបានរៀបរាប់អំពីលក្ខណៈរួមទាំងដប់នៃប្រភពទិន្នន័យធំ។ ការយល់ដឹងពីលក្ខណៈទាំងនេះអាចឱ្យយើងទទួលស្គាល់យ៉ាងលឿនខ្លាំងនិងភាពខ្សោយនៃប្រភពដែលមានស្រាប់ហើយនឹងជួយយើងទាញយកប្រភពថ្មីដែលនឹងត្រូវបានបង្កើតឡើងនៅក្នុងពេលអនាគត។ ទីបំផុតក្នុងចំណុច 2.4, ខ្ញុំបានរៀបរាប់អំពីយុទ្ធសាស្រ្តស្រាវជ្រាវចម្បងបីដែលអ្នកអាចប្រើដើម្បីរៀនពីទិន្នន័យដែលអង្កេត: រឿងរាប់, រឿងព្យាករណ៍និងការណការពិសោធន៍មួយ។