ទិន្នន័យធំត្រូវបានបង្កើតនិងប្រមូលដោយក្រុមហ៊ុននិងរដ្ឋាភិបាលសម្រាប់គោលបំណងផ្សេងក្រៅពីការស្រាវជ្រាវ។ ការប្រើទិន្នន័យនេះសម្រាប់ការស្រាវជ្រាវដូច្នេះតម្រូវឱ្យមានការជួសជុលឡើងវិញ។
វិធីទីមួយដែលមនុស្សជាច្រើនបានជួបប្រទះការស្រាវជ្រាវសង្គមនៅក្នុងយុគសម័យឌីជីថលគឺតាមរយៈអ្វីដែលត្រូវបានគេហៅថា ទិន្នន័យធំ ។ ទោះបីជាការប្រើប្រាស់ពាក្យនេះរីករាលដាលក៏គ្មានការយល់ស្របអំពីទិន្នន័យដ៏ធំណាដែរ។ ទោះយ៉ាងណាក៏ដោយនិយមន័យទូទៅបំផុតនៃទិន្នន័យធំផ្តោតលើ "3 Vs": កម្រិតសម្លេងនិងភាពខុសគ្នា។ ប្រហែលមានទិន្នន័យជាច្រើនក្នុងទ្រង់ទ្រាយផ្សេងៗហើយវាកំពុងត្រូវបានបង្កើតជានិច្ច។ អ្នកគាំទ្រមួយចំនួននៃទិន្នន័យធំក៏បន្ថែម "Vs" ផ្សេងទៀតដូចជាភាពត្រឹមត្រូវនិងគុណសម្បត្តិចំណែកឯអ្នករិះគន់មួយចំនួនបន្ថែម Vs ដូចជា Vague and Vacuous ។ ជាជាង 3 "Vs" (ឬ 5 "Vs" ឬ 7 "Vs") សម្រាប់គោលបំណងនៃការស្រាវជ្រាវសង្គមខ្ញុំគិតថាកន្លែងល្អប្រសើរជាងមុនដើម្បីចាប់ផ្តើមគឺ "Ws" 5: តើអ្នកណាតើកន្លែងណានៅពេលណា និងហេតុអ្វី។ តាមពិតខ្ញុំគិតថាបញ្ហាប្រឈមនិងឱកាសជាច្រើនដែលបង្កើតឡើងដោយប្រភពទិន្នន័យធំ ៗ មានតែមួយ "W": ហេតុអ្វី។
ក្នុងយុគសម័យអាណាឡូកភាគច្រើនទិន្នន័យដែលត្រូវបានប្រើសម្រាប់ការស្រាវជ្រាវសង្គមត្រូវបានបង្កើតឡើងសម្រាប់គោលបំណងនៃការស្រាវជ្រាវ។ ក្នុងយុគសម័យឌីជីថលទិន្នន័យដ៏ធំមួយកំពុងត្រូវបានបង្កើតឡើងដោយក្រុមហ៊ុននិងរដ្ឋាភិបាលសម្រាប់គោលបំណងផ្សេងក្រៅពីការស្រាវជ្រាវដូចជាការផ្តល់សេវាកម្មការរកប្រាក់ចំណេញនិងការគ្រប់គ្រងច្បាប់។ មនុស្សមានគំនិតច្នៃប្រឌិត, ទោះជាយ៉ាងណា, បានដឹងថាអ្នកអាច repurpose ទិន្នន័យសាជីវកម្មនិងរដ្ឋាភិបាលនេះសម្រាប់ការស្រាវជ្រាវ។ ដោយគិតពីភាពស្រដៀងគ្នានៃសិល្បៈនៅក្នុងជំពូកទី 1 ដូចជាឌូជីមបានកែសម្រួលវត្ថុដែលរកឃើញដើម្បីបង្កើតសិល្បៈអ្នកវិទ្យាសាស្ត្រអាចកែប្រែទិន្នន័យដែលបានរកឃើញដើម្បីបង្កើតការស្រាវជ្រាវ។
ខណៈពេលដែលមានឱកាសដ៏ធំសម្បើមសម្រាប់ការ repurposing ការប្រើប្រាស់ទិន្នន័យដែលមិនត្រូវបានបង្កើតឡើងសម្រាប់គោលបំណងនៃការស្រាវជ្រាវក៏បានបង្ហាញពីបញ្ហាប្រឈមថ្មី។ ប្រៀបធៀប, ឧទាហរណ៍, សេវាប្រព័ន្ធផ្សព្វផ្សាយសង្គមមួយ, ដូចជាក្នុង Twitter, ជាមួយនឹងការស្ទង់មតិមតិសាធារណៈជាប្រពៃណី, ដូចជាការស្ទង់មតិសង្គមទូទៅ។ គោលដៅចម្បងរបស់ Twitter គឺដើម្បីផ្តល់នូវសេវាកម្មដល់អ្នកប្រើប្រាស់របស់ខ្លួននិងដើម្បីរកប្រាក់ចំណេញ។ ការស្ទង់មតិសង្គមទូទៅត្រូវបានផ្តោតលើការបង្កើតទិន្នន័យគោលបំណងទូទៅសម្រាប់ការស្រាវជ្រាវសង្គមជាពិសេសសម្រាប់ការស្រាវជ្រាវមតិសាធារណៈ។ ភាពខុសគ្នានៅក្នុងគោលដៅមានន័យថាទិន្នន័យដែលបានបង្កើតឡើងដោយ Twitter និងដែលបានបង្កើតដោយការស្ទង់មតិសង្គមទូទៅមានលក្ខណៈសម្បត្តិខុសៗគ្នាទោះបីជាទាំងពីរនេះអាចត្រូវបានប្រើសម្រាប់ការសិក្សាមតិសាធារណៈក៏ដោយ។ Twitter ដំណើរការក្នុងទំហំនិងល្បឿនដែលការស្ទង់មតិសង្គមទូទៅមិនអាចផ្គូរផ្គងបានប៉ុន្តែមិនដូចប្រព័ន្ធស្ទង់មតិសង្គមទូទៅទេ Twitter មិនស្ទាក់ស្ទើរអ្នកប្រើគំរូនិងមិនខិតខំប្រឹងប្រែងដើម្បីរក្សាការប្រៀបធៀបតាមពេលវេលាទេ។ ដោយសារប្រភពទិន្នន័យទាំងពីរនេះខុសគ្នាដូច្នេះវាមិនសមហេតុផលទេដែលនិយាយថាការស្ទង់មតិសង្គមទូទៅល្អជាង Twitter ឬផ្ទុយមកវិញ។ ប្រសិនបើអ្នកត្រូវការរង្វាស់នៃអារម្មណ៍ពិភពលោក (ឧ។ Golder and Macy (2011) ) Twitter គឺល្អបំផុត។ ផ្ទុយទៅវិញប្រសិនបើអ្នកចង់យល់ពីការផ្លាស់ប្តូររយៈពេលវែងនៃការបែកខ្ញែកនៃឥរិយាបថនៅសហរដ្ឋអាមេរិក (ឧ។ DiMaggio, Evans, and Bryson (1996) ) បន្ទាប់មកការស្ទង់មតិសង្គមទូទៅគឺជាជម្រើសដ៏ល្អបំផុត។ ជាទូទៅជាជាងការព្យាយាមជំទាស់ថាប្រភពទិន្នន័យធំ ៗ មានភាពល្អប្រសើរឬអាក្រក់ជាងប្រភេទទិន្នន័យផ្សេងទៀតជំពូកនេះនឹងព្យាយាមបញ្ជាក់ថាតើប្រភេទនៃការស្រាវជ្រាវណាដែលមានប្រភពទិន្នន័យធំ ៗ មានលក្ខណៈសម្បត្តិគួរឱ្យទាក់ទាញនិងសម្រាប់ប្រភេទសំណួរដែលពួកគេប្រហែលជាមិនមាន។ ល្អ។
នៅពេលគិតអំពីប្រភពទិន្នន័យធំអ្នកស្រាវជ្រាវជាច្រើនផ្តោតលើទិន្នន័យលើអ៊ីនធឺណិតដែលបានបង្កើតនិងប្រមូលដោយក្រុមហ៊ុនដូចជាកំណត់ហេតុម៉ាស៊ីនស្វែងរកនិងការផ្សព្វផ្សាយសង្គម។ ទោះជាយ៉ាងណាក៏ដោយការយកចិត្តទុកដាក់តូចចង្អៀតនេះបានបន្សល់ទុកប្រភពសំខាន់ពីរផ្សេងទៀតនៃទិន្នន័យធំ។ ទីមួយប្រភពទិន្នន័យធំ ៗ របស់សាជីវកម្មបានមកពីឧបករណ៍ឌីជីថលនៅក្នុងពិភពរូបវន្ត។ ឧទាហរណ៍នៅក្នុងជំពូកនេះខ្ញុំនឹងប្រាប់អ្នកអំពីការសិក្សាដែលបានកែប្រែទិន្នន័យពិនិត្យមើលផ្សារទំនើបដើម្បីសិក្សាពីរបៀបដែលផលិតភាពរបស់កម្មករត្រូវបានប៉ះពាល់ដោយផលិតភាពរបស់មិត្តភក្ដិរបស់នាង (Mas and Moretti 2009) ។ បន្ទាប់មកនៅក្នុងជំពូកក្រោយៗទៀតខ្ញុំនឹងប្រាប់អ្នកអំពីអ្នកស្រាវជ្រាវដែលបានប្រើកំណត់ត្រាហៅពីទូរស័ព្ទដៃ (Blumenstock, Cadamuro, and On 2015) និងទិន្នន័យវិក័យប័ត្រដែលបានបង្កើតឡើងដោយឧបករណ៍អគ្គិសនី (Allcott 2015) ។ ដូចឧទាហរណ៍ទាំងនេះបង្ហាញថាប្រភពទិន្នន័យធំ ៗ របស់ក្រុមហ៊ុនគឺមានច្រើនជាងឥរិយាបថលើអ៊ីនធឺណិត។
ទិន្នន័យសំខាន់ទី 2 នៃទិន្នន័យធំ ៗ ដែលខកខានដោយការផ្តោតលើការប្រើឥរិយាបទលើអ៊ីនធឺណិតគឺជាទិន្នន័យដែលបង្កើតឡើងដោយរដ្ឋាភិបាល។ ទិន្នន័យរបស់រាជរដ្ឋាភិបាលដែលអ្នកស្រាវជ្រាវហៅថា កំណត់ត្រារដ្ឋបាលរបស់ រដ្ឋរួមមានអ្វីៗដូចជាកំណត់ត្រាពន្ធកំណត់ត្រាសាលានិងកំណត់ត្រាស្ថិតិសំខាន់ៗ (ឧទាហរណ៍ការចុះឈ្មោះកំណើតនិងការស្លាប់) ។ រដ្ឋាភិបាលត្រូវបានបង្កើតប្រភេទទិន្នន័យទាំងនេះក្នុងករណីខ្លះរាប់រយឆ្នាំហើយអ្នកវិទ្យាសាស្រ្តសង្គមបាននិងកំពុងធ្វើអាជីវកម្មវាអស់រយៈពេលជិតដរាបណាមានអ្នកវិទ្យាសាស្រ្តសង្គម។ ប៉ុន្តែអ្វីដែលបានផ្លាស់ប្តូរគឺការធ្វើឌីជីថលដែលបានធ្វើឱ្យមានភាពងាយស្រួលសម្រាប់រដ្ឋាភិបាលក្នុងការប្រមូលបញ្ជូននិងរក្សាទុកទិន្នន័យ។ ឧទាហរណ៍នៅក្នុងជំពូកនេះខ្ញុំនឹងប្រាប់អ្នកអំពីការសិក្សាដែលបានកែតម្រូវទិន្នន័យពីមធ្យោបាយតាក់ស៊ីឌីជីថលឌីជីថលរបស់រដ្ឋាភិបាលក្រុងញូវយ៉កដើម្បីដោះស្រាយការជជែកជាមូលដ្ឋានក្នុងសេដ្ឋកិច្ចពលកម្ម (Farber 2015) ។ បន្ទាប់មកនៅក្នុងជំពូកក្រោយៗទៀតខ្ញុំនឹងប្រាប់អ្នកអំពីរបៀបដែលការកត់ត្រាការបោះឆ្នោតដែលប្រមូលដោយរដ្ឋាភិបាលត្រូវបានប្រើក្នុងការស្ទង់មតិមួយ (Ansolabehere and Hersh 2012) និងការពិសោធន៍មួយ (Bond et al. 2012) ។
ខ្ញុំគិតថាគំនិតនៃការកែប្រែឡើងវិញគឺជាមូលដ្ឋានគ្រឹះនៃការរៀនសូត្រពីប្រភពទិន្នន័យដ៏ធំហើយមុននឹងនិយាយដោយជាក់លាក់អំពីលក្ខណៈសម្បត្តិនៃប្រភពទិន្នន័យធំ ៗ (ផ្នែក 2.3) និងរបៀបដែលវាអាចប្រើក្នុងការស្រាវជ្រាវ (ផ្នែកទី 2.4) ខ្ញុំចូលចិត្ត ដើម្បីផ្តល់ជូននូវដំបូន្មានទូទៅពីរអំពីការ repurposing ។ ទីមួយវាអាចត្រូវបានល្បួងឱ្យគិតអំពីភាពផ្ទុយគ្នាដែលខ្ញុំបានបង្កើតឡើងរវាងទិន្នន័យ "រកឃើញ" និង "ទិន្នន័យ" ដែលបានរៀបចំ។ នោះជាការជិតស្និទ្ធប៉ុន្តែវាមិនត្រឹមត្រូវទេ។ ទោះបីមកពីទស្សនវិស័យរបស់អ្នកស្រាវជ្រាវក៏ដោយប្រភពទិន្នន័យធំ ៗ ត្រូវបាន "រកឃើញ" ពួកគេមិនត្រឹមតែធ្លាក់ពីលើមេឃទេ។ ផ្ទុយទៅវិញប្រភពទិន្នន័យដែលត្រូវបាន "រកឃើញ" ដោយក្រុមអ្នកស្រាវជ្រាវត្រូវបានរចនាឡើងដោយនរណាម្នាក់សម្រាប់គោលបំណងមួយចំនួន។ ដោយសារតែទិន្នន័យ "បានរកឃើញ" ត្រូវបានរចនាឡើងដោយនរណាម្នាក់ខ្ញុំតែងតែណែនាំឱ្យអ្នកព្យាយាមយល់ដឹងច្រើនអំពីមនុស្សនិងដំណើរការដែលបានបង្កើតទិន្នន័យរបស់អ្នក។ ទីពីរនៅពេលដែលអ្នកកំពុងជួសជុលទិន្នន័យវាច្រើនតែមានប្រយោជន៍ក្នុងការស្រមៃនូវសំណុំទិន្នន័យល្អបំផុតសម្រាប់បញ្ហារបស់អ្នកហើយបន្ទាប់មកប្រៀបធៀបទិន្នន័យគំរូដ៏ល្អជាមួយមួយដែលអ្នកកំពុងប្រើ។ ប្រសិនបើអ្នកមិនបានប្រមូលទិន្នន័យរបស់អ្នកដោយខ្លួនឯងវាទំនងជាមានភាពខុសគ្នារវាងអ្វីដែលអ្នកចង់បាននិងអ្វីដែលអ្នកមាន។ ការកត់សម្គាល់ភាពខុសគ្នាទាំងនេះនឹងជួយបញ្ជាក់ពីអ្វីដែលអ្នកអាចនិងមិនអាចរៀនពីទិន្នន័យដែលអ្នកមានហើយវាអាចណែនាំទិន្នន័យថ្មីដែលអ្នកគួរប្រមូល។
នៅក្នុងបទពិសោធន៍របស់ខ្ញុំអ្នកវិទ្យាសាស្រ្តសង្គមនិងអ្នកវិទ្យាសាស្រ្តទិន្នន័យមានទំនោរទៅរកការផ្លាស់ប្តូរខុសគ្នាយ៉ាងខ្លាំង។ អ្នកវិទ្យាសាស្រ្តសង្គមដែលមានទម្លាប់ធ្វើការជាមួយទិន្នន័យដែលបានរៀបចំសម្រាប់ការស្រាវជ្រាវជាទូទៅត្រូវបានចង្អុលបង្ហាញយ៉ាងឆាប់រហ័សអំពីបញ្ហាជាមួយនឹងទិន្នន័យដែលត្រូវបានកែតម្រូវខណៈពេលដែលមិនអើពើភាពខ្លាំងរបស់វា។ ម៉្យាងទៀតអ្នកវិទ្យាសាស្ត្រទិន្នន័យរហ័សបង្ហាញពីអត្ថប្រយោជន៍នៃទិន្នន័យដែលត្រូវបានកែតម្រូវឡើងវិញខណៈពេលដែលមិនអើពើនឹងចំណុចខ្សោយរបស់ខ្លួន។ ធម្មជាតិវិធីសាស្រ្តល្អបំផុតគឺកូនកាត់។ នោះគឺអ្នកស្រាវជ្រាវចាំបាច់ត្រូវយល់ពីចរិតលក្ខណៈនៃប្រភពទិន្នន័យធំ ៗ ទាំងល្អនិងអាក្រក់ហើយបន្ទាប់មករកវិធីរៀនពីពួកគេ។ ហើយនោះគឺជាផែនការសម្រាប់សេសសល់នៃជំពូកនេះ។ នៅផ្នែកបន្ទាប់ខ្ញុំនឹងរៀបរាប់លក្ខណៈទូទៅចំនួនដប់នៃប្រភពទិន្នន័យធំ ៗ ។ បន្ទាប់មកនៅក្នុងផ្នែកខាងក្រោមខ្ញុំនឹងរៀបរាប់ពីវិធីសាស្រ្តស្រាវជ្រាវចំនួនបីដែលអាចដំណើរការបានល្អជាមួយទិន្នន័យបែបនេះ។