مهما كانت حجم البيانات الضخمة لديك ، فمن المحتمل ألا تحتوي على المعلومات التي تريدها.
معظم مصادر البيانات الضخمة غير مكتملة ، بمعنى أنها لا تملك المعلومات التي تريدها للبحث الخاص بك. هذه ميزة شائعة للبيانات التي تم إنشاؤها لأغراض أخرى غير البحث. لقد كان لدى العديد من علماء الاجتماع بالفعل خبرة في التعامل مع عدم الاكتمال ، مثل المسح القائم الذي لم يطرح السؤال المطلوب. لسوء الحظ ، تميل مشكلات عدم الاكتمال إلى أن تكون أكثر تطرفًا في البيانات الكبيرة. من واقع خبرتي ، تميل البيانات الضخمة إلى فقدان ثلاثة أنواع من المعلومات المفيدة للبحث الاجتماعي: المعلومات الديموغرافية حول المشاركين ، والسلوك على الأنظمة الأساسية الأخرى ، والبيانات لتفعيل التركيبات النظرية.
من بين الأنواع الثلاثة لعدم اكتمالها ، فإن مشكلة البيانات غير الكاملة لتفعيل التركيبات النظرية هي أصعب الحلول. وفي تجربتي ، غالبًا ما يتم إغفالها عن طريق الخطأ. تقريبا، يبني النظرية هي الأفكار المجردة التي علماء الاجتماع دراسة وتفعيل بناء نظريا يعني اقتراح بعض الطرق لالتقاط تلك بناء مع البيانات يمكن ملاحظتها. لسوء الحظ ، غالباً ما تبدو هذه العملية السليمة بسيطة للغاية. على سبيل المثال ، دعونا نتخيل محاولة إجراء اختبار تجريبي للادعاء البسيط على ما يبدو بأن الأشخاص الأكثر ذكاءً يكسبون المزيد من المال. من أجل اختبار هذا الادعاء ، ستحتاج إلى قياس "الذكاء". ولكن ما هو الذكاء؟ جادل Gardner (2011) بأن هناك بالفعل ثمانية أشكال مختلفة من الذكاء. وهل هناك إجراءات يمكن أن تقيس بدقة أيًا من هذه الأشكال من الذكاء؟ على الرغم من الكم الهائل من العمل من قبل علماء النفس ، لا تزال هذه الأسئلة لا تحتوي على إجابات لا لبس فيها.
وهكذا ، حتى المطالبة البسيطة نسبياً - أناس أكثر ذكاءً يكسبون المزيد من المال - قد يكون من الصعب تقييمها تجريبياً لأنه قد يكون من الصعب تفعيل التركيبات النظرية في البيانات. ومن الأمثلة الأخرى على التركيبات النظرية المهمة والتي يصعب تنفيذها: "المعايير" و "رأس المال الاجتماعي" و "الديمقراطية". يُطلق علماء الاجتماع على المباراة بين التركيبات النظرية وصحة بناء البيانات (Cronbach and Meehl 1955) . وكما تشير هذه القائمة القصيرة من التراكيب ، فإن صلاحيتها هي مشكلة واجهها علماء الاجتماع منذ فترة طويلة. ولكن من خلال خبرتي ، فإن مشاكل بناء الصلاحية تكون أكبر عند التعامل مع البيانات التي لم يتم إنشاؤها لأغراض البحث (Lazer 2015) .
عندما تقوم بتقييم نتيجة بحث ، فإن إحدى الطرق السريعة والمفيدة لتقييم صلاحية البناء هي أخذ النتيجة ، والتي يتم التعبير عنها عادة من حيث التركيبات ، وإعادة التعبير عنها من حيث البيانات المستخدمة. على سبيل المثال ، فكر في دراستين افتراضيتين تدعيان إظهار أن الأشخاص الأكثر ذكاءً يكسبون المزيد من المال. في الدراسة الأولى ، وجد الباحث أن الأشخاص الذين يسجلون جيدًا في اختبار مصفوفات الغراب التقدمية - وهو اختبار مدروس جيدًا للذكاء التحليلي (Carpenter, Just, and Shell 1990) وجوست (Carpenter, Just, and Shell 1990) - حققوا مداخيل أعلى في عائداتهم الضريبية. في الدراسة الثانية ، وجد الباحث أن الأشخاص على تويتر الذين استخدموا كلمات أطول هم أكثر عرضة للإشارة إلى العلامات التجارية الفاخرة. في كلتا الحالتين ، يمكن أن يدعي هؤلاء الباحثون أنهم أظهروا أن الأشخاص الأكثر ذكاءً يكسبون المزيد من المال. ومع ذلك ، في الدراسة الأولى يتم تشغيل التركيبات النظرية بشكل جيد من خلال البيانات ، في حين أنها ليست في الثانية. علاوة على ذلك ، وكما يوضح هذا المثال ، فإن المزيد من البيانات لا تحل المشاكل تلقائيًا مع صلاحية الإنشاء. يجب أن تشك في نتائج الدراسة الثانية ، سواء أكانت تتضمن مليون تغريدة ، أو مليار تغريدة ، أو تريليون تغريدة. ﺑﺎﻟﻨﺴﺒﺔ ﻟﻠﺒﺎﺣﺜﻴﻦ ﻏﻴﺮ اﻟﻤﻌﺮﻓﻴﻦ ﺑﻔﻜﺮة ﺻﻼﺣﻴﺔ اﻟﺒﻨﺎء ، ﻳﻘﺪم اﻟﺠﺪول 2-2 ﺑﻌﺾ اﻷﻣﺜﻠﺔ ﻋﻠﻰ اﻟﺪراﺳﺎت اﻟﺘﻲ أﻃﻠﻘﺖ اﻟﺘﺸﻜﻴﻼت اﻟﻨﻈﺮﻳﺔ ﺑﺎﺳﺘﺨﺪام ﺑﻴﺎﻧﺎت اﻟﺘﺘﺒﻊ اﻟﺮﻗﻤﻲ.
مصدر البيانات | البناء النظري | المراجع |
---|---|---|
سجلات البريد الإلكتروني من إحدى الجامعات (البيانات الوصفية فقط) | العلاقات الاجتماعيه | Kossinets and Watts (2006) ، Kossinets and Watts (2009) ، De Choudhury et al. (2010) |
منشورات وسائل الاعلام الاجتماعية على Weibo | المشاركة المدنية | Zhang (2016) |
سجلات البريد الإلكتروني من شركة (البيانات الوصفية والنص الكامل) | تناسب ثقافي في منظمة | Srivastava et al. (2017) |
على الرغم من صعوبة حل مشكلة البيانات غير المكتملة لالتقاط التركيبات النظرية ، إلا أنه توجد حلول مشتركة للأنواع الشائعة الأخرى من عدم اكتمال المعلومات غير المكتملة والمعلومات الديموغرافية غير الكاملة حول السلوك على الأنظمة الأساسية الأخرى. الحل الأول هو في الواقع جمع البيانات التي تحتاجها ؛ سأخبرك عن ذلك في الفصل 3 عندما أخبرك عن الاستطلاعات. الحل الرئيسي الثاني هو أن تفعل ما يسميه العلماء بيانات الاستدلال المستخدم السمة وعلماء الاجتماع يدعون الإسناد. في هذا النهج ، يستخدم الباحثون المعلومات التي لديهم على بعض الأشخاص لاستنتاج سمات أشخاص آخرين. الحل الثالث المحتمل هو الجمع بين عدة مصادر للبيانات. هذه العملية تسمى أحيانا الربط القياسي . تم كتابة استعارة المفضلة لهذه العملية بواسطة Dunn (1946) في الفقرة الأولى من أول ورقة مكتوبة على وصلة التسجيل:
"يخلق كل شخص في العالم كتابًا للحياة. يبدأ هذا الكتاب بالولادة وينتهي بالموت. تتكون صفحاته من سجلات الأحداث الرئيسية في الحياة. الربط القياسي هو الاسم المعطى لعملية تجميع صفحات هذا الكتاب في مجلد. "
عندما كتب دان هذا الممر كان يتخيل أن كتاب الحياة يمكن أن يشمل أحداث الحياة الرئيسية مثل الولادة والزواج والطلاق والموت. ومع ذلك ، بعد أن تم تسجيل الكثير من المعلومات حول الأشخاص ، يمكن أن يكون كتاب الحياة صورة تفصيلية بشكل لا يصدق ، إذا كانت هذه الصفحات المختلفة (أي آثارنا الرقمية) يمكن ربطها ببعضها البعض. هذا الكتاب من الحياة يمكن أن يكون مصدرا كبيرا للباحثين. ولكن ، يمكن أن يطلق عليه أيضًا قاعدة بيانات عن الخراب (Ohm 2010) ، والتي يمكن استخدامها لجميع أنواع الأغراض غير الأخلاقية ، كما سأذكر في الفصل 6 (الأخلاقيات).