ទិន្នន័យដែលមានទំហំធំគឺជាមធ្យោបាយដល់ទីបញ្ចប់មួយ; ពួកគេមិនមានទីបញ្ចប់នៅក្នុងខ្លួនគេទេ។
លក្ខណៈពិសេសដែលបានពិភាក្សាយ៉ាងទូលំទូលាយបំផុតនៃប្រភពទិន្នន័យធំគឺថាពួកវាធំ។ ជាឧទាហរណ៍អត្ថបទជាច្រើនចាប់ផ្ដើមដោយពិភាក្សាគ្នាហើយជួនកាលអួតខ្លួនអំពីចំនួនទិន្នន័យដែលពួកគេបានវិភាគ។ ឧទាហរណ៍ក្រដាសបោះពុម្ភផ្សាយនៅក្នុង វិទ្យាសាស្ត្រដែល កំពុងសិក្សាអំពីនិន្នាការការប្រើប្រាស់ពាក្យនៅក្នុងហ្គូហ្គោលសៀវភៅហ្គុលអេចស៍រួមមាន: (Michel et al. 2011) :
"ក្រុមហ៊ុនរបស់យើងមានជាង 500 ពាន់លានពាក្យនៅក្នុងភាសាអង់គ្លេស (361 ពាន់លាន) បារាំង (45 ពាន់លាន) អេស្ប៉ាញ (45 ពាន់លាន) អាល្លឺម៉ង់ (37 ពាន់លាន) ចិន (13 ពាន់លាន) រុស្ស៊ី (35 ពាន់លានដុល្លារ) និងហេប្រ៊ូ (2 ពាន់លានដុល្លារ) ។ ស្នាដៃចាស់បំផុតត្រូវបានបោះពុម្ពផ្សាយនៅក្នុងឆ្នាំ 1500 ។ ទសវត្សដំបូងត្រូវបានតំណាងដោយតែសៀវភៅមួយចំនួនក្នុងមួយឆ្នាំដែលរាប់រយរាប់ពាន់ពាក្យ។ នៅត្រឹមឆ្នាំ 1800 អង្គរនេះលូតលាស់រហូតដល់ 98 លានពាក្យក្នុងមួយឆ្នាំ។ រហូតដល់ឆ្នាំ 1900 មាន 1,8 ពាន់លាននាក់។ និងឆ្នាំ 2000 ចំនួន 11 ពាន់លាន។ ស្ថាប័នមិនអាចអានដោយមនុស្សបានទេ។ ប្រសិនបើអ្នកព្យាយាមអានត្រឹមតែភាសាអង់គ្លេសចាប់ពីឆ្នាំ 2000 តែប៉ុណ្ណោះក្នុងល្បឿន 200 គីឡូ / នាទីដោយមិនមានការរំខានដល់អាហារឬគេងវាចំណាយពេល 80 ឆ្នាំ។ លំដាប់នៃអក្សរគឺ 1000 ដងច្រើនជាងហ្សែនរបស់មនុស្ស: ប្រសិនបើអ្នកសរសេរវានៅក្នុងបន្ទាត់ត្រង់មួយវានឹងទៅដល់ព្រះច័ន្ទហើយត្រលប់មកវិញ 10 ដង។ "
ទំហំនៃទិន្នន័យនេះពិតជាគួរឱ្យចាប់អារម្មណ៍ណាស់ហើយយើងទាំងអស់គ្នាមានសំណាងដែលក្រុមសៀវភៅ Google បានផ្សព្វផ្សាយទិន្នន័យទាំងនេះដល់សាធារណជន (ជាការពិតសកម្មភាពមួយចំនួននៅចុងបញ្ចប់នៃជំពូកនេះប្រើទិន្នន័យនេះ) ។ ប៉ុន្តែនៅពេលដែលអ្នកឃើញអ្វីមួយដូចនេះអ្នកគួរតែសួរថាតើទិន្នន័យទាំងអស់ពិតជាធ្វើអ្វីទេ? តើពួកគេអាចធ្វើការស្រាវជ្រាវដូចគ្នាដែរទេប្រសិនបើទិន្នន័យអាចទៅដល់ព្រះច័ន្ទនិងត្រឡប់មកវិញម្តង? តើមានអ្វីប្រសិនបើទិន្នន័យអាចទៅដល់កំពូលភ្នំអេវឺរ៉េសឬនៅលើកំពូលប៉មអេហ្វហ្វីថល?
ក្នុងករណីនេះការស្រាវជ្រាវរបស់ពួកគេពិតជាមានការរកឃើញមួយចំនួនដែលតម្រូវឱ្យមានពាក្យសំដីជាច្រើនក្នុងរយៈពេលយូរ។ ឧទាហរណ៍អ្វីមួយដែលពួកគេស្វែងរកគឺការវិវត្តន៍នៃវេយ្យាករណ៍ជាពិសេសការផ្លាស់ប្តូរនៅក្នុងអត្រានៃការកិរិយាស័ព្ទមិនទៀងទាត់។ ដោយសារកិរិយាស័ព្ទមិនទៀងទាត់មួយចំនួនគឺកម្រណាស់ទិន្នន័យមួយចំនួនធំត្រូវការរកមើលការប្រែប្រួលក្នុងរយៈពេល។ ជារឿយៗទោះជាយ៉ាងណាក៏ដោយក្រុមអ្នកស្រាវជ្រាវហាក់ដូចជាយកចិត្តទុកដាក់លើទំហំទិន្នន័យប្រភពទិន្នន័យធំ ៗ ជាចុងបញ្ចប់ - "មើលថាតើខ្ញុំអាចប្រមូលទិន្នន័យបានច្រើនប៉ុណ្ណា" - ជាមធ្យោបាយសម្រាប់គោលបំណងវិទ្យាសាស្ត្រសំខាន់ៗមួយចំនួន។
ក្នុងបទពិសោធរបស់ខ្ញុំការសិក្សាពីព្រឹត្តិការណ៍ដ៏កម្រគឺជាផ្នែកមួយនៃការបញ្ចប់ខាងវិទ្យាសាស្ដ្រជាក់លាក់ចំនួន 3 ដែលសំណុំទិន្នន័យធំ ៗ មានទំនោរ។ ទីពីរគឺការសិក្សាពីភាពមិនទៀងទាត់ដូចដែលអាចបង្ហាញដោយការសិក្សាដោយ Raj Chetty និងសហសេវិក (2014) ស្តីពីការចល័តផ្នែកសង្គមនៅក្នុងសហរដ្ឋអាមេរិក។ កាលពីអតីតកាលអ្នកស្រាវជ្រាវជាច្រើនបានសិក្សាពីការចល័តផ្នែកសង្គមដោយប្រៀបធៀបលទ្ធផលនៃជីវិតរបស់ឪពុកម្តាយនិងកុមារ។ ការរកឃើញស្របគ្នាពីអក្សរសិល្ប៍នេះគឺថាឪពុកម្តាយដែលមានគុណសម្បត្តិច្រើនមានទំនោរទៅរកកុមារប៉ុន្តែភាពខ្លាំងនៃទំនាក់ទំនងនេះប្រែប្រួលតាមពេលវេលានិងទូទាំងប្រទេស (Hout and DiPrete 2006) ។ ថ្មីៗនេះទោះជាយ៉ាងណា Chetty និងមិត្តរួមការងាររបស់គាត់អាចប្រើកំណត់ត្រាពន្ធពីមនុស្ស 40 លាននាក់ដើម្បីប៉ាន់ប្រមាណវិសមវិស័យនៃកត្តាអវិជ្ជមាននៃការចល័តឆ្លងពីមនុស្សនៅទូទាំងតំបន់នៅសហរដ្ឋអាមេរិក (រូបភាព 2.1) ។ ឧទាហរណ៍ពួកគេបានរកឃើញថាប្រូបាប៊ីលីតេដែលក្មេងម្នាក់ឈានដល់កំពូលនៃការចែកចាយប្រាក់ចំណូលជាតិដែលចាប់ផ្តើមពីគ្រួសារនៅខាងក្រោមមានប្រមាណ 13% នៅ San Jose រដ្ឋកាលីហ្វ័រនីញ៉ាតែប្រហែលជា 4% នៅ Charlotte រដ្ឋ North Carolina ។ ប្រសិនបើអ្នកក្រឡេកមើលតួលេខ 2.1 ឥឡូវនេះអ្នកអាចចាប់ផ្ដើមឆ្ងល់ថាហេតុអ្វីបានជាចលនកម្មរវាងមនុស្សជំនាន់ក្រោយមានកម្រិតខ្ពស់ជាងកន្លែងផ្សេងទៀត។ Chetty និងសហសេវិកមានសំណួរដូចគ្នានេះហើយពួកគេបានរកឃើញថាតំបន់ដែលមានចលនកម្មខ្ពស់មានការបែងចែកលំនៅដ្ឋានមិនសូវវិសមភាពប្រាក់ចំណូលសាលាបឋមសិក្សាដើមទុនសង្គមកាន់តែច្រើននិងស្ថិរភាពគ្រួសារកាន់តែច្រើន។ ជាការពិតការជាប់ទាក់ទងគ្នាទាំងនេះមិនបង្ហាញថាកត្តាទាំងនេះបណ្តាលឱ្យមានចលនភាពខ្ពស់នោះទេប៉ុន្តែពួកគេបានលើកឡើងពីយន្តការដែលអាចធ្វើទៅបានដែលអាចត្រូវបានរកឃើញនៅក្នុងការងារបន្ថែមទៀតដែលជាអ្វីដែល Chetty និងមិត្តរួមការងារបានធ្វើនៅក្នុងការងារជាបន្តបន្ទាប់។ ចូរកត់សម្គាល់ពីទំហំនៃទិន្នន័យពិតជាមានសារៈសំខាន់នៅក្នុងគម្រោងនេះ។ ប្រសិនបើ Chetty និងសហសេវិកបានប្រើកំណត់ត្រាពន្ធលើមនុស្សចំនួន 40 ពាន់នាក់ជាជាង 40 លាននាក់ពួកគេមិនអាចប៉ាន់ប្រមាណភាពមិនទៀងទាត់ក្នុងតំបន់ហើយពួកគេមិនដែលអាចធ្វើការស្រាវជ្រាវជាបន្តបន្ទាប់ដើម្បីព្យាយាមកំណត់យន្តការដែលបង្កើតការប្រែប្រួលនោះទេ។
ជាចុងក្រោយបន្ថែមលើការសិក្សាព្រឹត្តិការណ៍ដ៏កម្រនិងការសិក្សាវិសមភាពផ្សេងៗទិន្នន័យជាច្រើននឹងធ្វើឱ្យក្រុមអ្នកស្រាវជ្រាវរកឃើញភាពខុសគ្នាតិចតួច។ តាមការពិតការផ្តោតសំខាន់លើទិន្នន័យធំ ៗ នៅក្នុងឧស្សាហកម្មគឺអំពីភាពខុសគ្នាតូចៗទាំងនេះ: អាចជឿទុកចិត្តបានពីភាពខុសគ្នារវាងអត្រានៃការចុចលើអ៊ីនធឺណេតពី 1% ទៅ 1,1% នៅលើការផ្សាយពាណិជ្ជកម្មដែលអាចបកប្រែជាប្រាក់ចំណូលរាប់លានដុល្លារ។ ទោះយ៉ាងណាក៏ដោយនៅក្នុងការកំណត់វិទ្យាសាស្ត្រខ្លះភាពខុសគ្នាតិចតួចអាចមិនសំខាន់ជាពិសេសបើទោះបីជាវាមានកម្រិតគួរអោយកត់សម្គាល់ក៏ដោយ (Prentice and Miller 1992) ។ ប៉ុន្តែនៅក្នុងការកំណត់គោលនយោបាយមួយចំនួនវាអាចមានសារៈសំខាន់នៅពេលដែលបានមើលទាំងស្រុង។ ឧទាហរណ៍ប្រសិនបើមានការអន្តរាគមន៍ផ្នែកសុខភាពសាធារណៈពីរហើយមួយទៀតមានប្រសិទ្ធភាពជាងមួយផ្សេងទៀតនោះការជ្រើសរើសអន្តរាគមន៍ដែលមានប្រសិទ្ធភាពជាងនេះអាចបញ្ចប់ការសង្គ្រោះជីវិតរាប់ពាន់បន្ថែមទៀត។
ថ្វីបើទោះជាយ៉ាងណាក្ដីជាទូទៅគឺជាទ្រព្យសម្បត្តិដ៏ល្អនៅពេលប្រើត្រឹមត្រូវខ្ញុំបានកត់សម្គាល់ឃើញថាពេលខ្លះវាអាចនាំឱ្យមានកំហុសក្នុងគំនិត។ ដោយហេតុផលមួយចំនួន bigness ហាក់ដូចជានាំអ្នកស្រាវជ្រាវមិនអើពើអំពីរបៀបដែលទិន្នន័យរបស់ពួកគេត្រូវបានបង្កើត។ ខណៈពេលដែល bigness កាត់បន្ថយនូវតម្រូវការនៃការព្រួយបារម្ភអំពីកំហុសចៃដន្យវាពិតជា បង្កើន តម្រូវការក្នុងការព្រួយបារម្ភអំពីកំហុសជាប្រព័ន្ធប្រភេទនៃកំហុសដែលខ្ញុំនឹងពណ៌នាខាងក្រោមដែលកើតឡើងពីភាពលំអៀងក្នុងរបៀបដែលទិន្នន័យត្រូវបានបង្កើត។ ឧទាហរណ៍ក្នុងគម្រោងដែលខ្ញុំនឹងរៀបរាប់នៅក្នុងជំពូកនេះក្រុមអ្នកស្រាវជ្រាវបានប្រើសារដែលបានបង្កើតនៅថ្ងៃទី 11 ខែកញ្ញាឆ្នាំ 2001 ដើម្បីបង្កើតពេលវេលាកំណត់អារម្មណ៍ដែលមានប្រសិទ្ធិភាពខ្ពស់ចំពោះប្រតិកម្មចំពោះការវាយប្រហារភេរវកម្ម (Back, Küfner, and Egloff 2010) ។ ដោយសារអ្នកស្រាវជ្រាវមានសារច្រើនពេកពួកគេមិនចាំបាច់ព្រួយបារម្ភអំពីថាតើគំរូដែលពួកគេបានសង្កេត - កំហឹងកាន់តែខ្លាំងឡើងក្នុងពេលថ្ងៃអាចពន្យល់បានដោយការប្រែប្រួលចៃដន្យ។ មានទិន្នន័យច្រើនណាស់ហើយគំរូនេះច្បាស់ណាស់ថារាល់ការធ្វើតេស្តស្ថិតិបានបង្ហាញថានេះជាគំរូពិតប្រាកដ។ ប៉ុន្តែការធ្វើតេស្តស្ថិតិទាំងនេះមិនដឹងពីរបៀបដែលទិន្នន័យត្រូវបានបង្កើតទេ។ ជាការពិតវាបានបង្ហាញថាគំរូជាច្រើនត្រូវបានបង្កឡើងដោយប៊ុតតែមួយដែលបានបង្កើតសារដែលមិនមានអត្ថន័យច្រើនឡើង ៗ ពេញមួយថ្ងៃ។ ការដកចេញបណ្តុំមួយនេះបានបំផ្លាញទាំងស្រុងនូវការរកឃើញសំខាន់ៗមួយចំនួននៅក្នុងក្រដាស (Pury 2011; Back, Küfner, and Egloff 2011) ។ ជាធម្មតាអ្នកស្រាវជ្រាវដែលមិនគិតអំពីកំហុសប្រព័ន្ធមានប្រឈមនឹងហានិភ័យនៃការប្រើប្រាស់ទិន្នន័យធំរបស់ពួកគេដើម្បីទទួលបានការប៉ាន់ប្រមាណជាក់លាក់នៃបរិមាណមិនសំខាន់ដូចជាមាតិកាសិចនៃសារដែលគ្មានខ្លឹមសារដែលផលិតដោយប៊ិចស្វ័យប្រវត្តិ។
ជាចុងបញ្ចប់សំណុំទិន្នន័យធំមិនមែនជាទីបញ្ចប់ទេប៉ុន្តែវាអាចជួយដល់ប្រភេទនៃការស្រាវជ្រាវមួយចំនួនរួមទាំងការសិក្សាអំពីព្រឹត្តិការណ៍ដ៏កម្រការប៉ាន់ប្រមាណនៃភាពមិនធម្មតានិងការរកឃើញភាពខុសគ្នាតិចតួច។ ទិន្នន័យធំក៏ហាក់បីដូចជាធ្វើអោយក្រុមអ្នកស្រាវជ្រាវមួយចំនួនមិនអើពើអំពីរបៀបដែលទិន្នន័យរបស់ពួកគេត្រូវបានបង្កើតឡើងដែលអាចនាំពួកគេឱ្យទទួលបាននូវការប៉ាន់ប្រមាណជាក់លាក់នៃបរិមាណមិនសំខាន់។