2.3.2.1 غير كاملة

مهما بك "البيانات الكبيرة" "كبيرة" وربما لم يكن لديك المعلومات التي تريدها.

معظم مصادر البيانات الكبيرة غير مكتملة، بمعنى أن ليس لديهم المعلومات التي سوف تحتاج للبحث الخاص بك. هذا هو سمة مشتركة من البيانات التي تم إنشاؤها لأغراض أخرى غير البحث. وكان العديد من علماء الاجتماع بالفعل خبرة في التعامل مع النقص، مثل مسح القائمة التي لم نطرح هذا السؤال أردت. لسوء الحظ، تميل المشاكل من عدم اكتمال لتكون أكثر تطرفا في البيانات الكبيرة. في تجربتي، والبيانات الكبيرة يميل إلى أن يكون في عداد المفقودين ثلاثة أنواع من المعلومات المفيدة للبحوث الاجتماعية: التركيبة السكانية، والسلوك على منصات أخرى، وبيانات لتفعيل البنى النظرية.

موضحة كل ثلاثة من هذه الأشكال من نقص في دراسة أجرتها Gueorgi Kossinets ودنكان واتس (2006) عن تطور الشبكة الاجتماعية في الجامعة. التي Kossinets واتس مع سجلات البريد الإلكتروني من الجامعة، والتي لديها معلومات دقيقة عن الذي أرسل رسائل البريد الإلكتروني الذي في وقت ما (لم الباحثين يستطيعون الوصول إلى محتوى رسائل البريد الإلكتروني). هذه سجلات البريد الإلكتروني تبدو مثل بيانات مذهلة، ولكن، فهي-على الرغم من حجمها وغير مكتملة تحبب-جذريا. على سبيل المثال، سجلات البريد الإلكتروني لا تتضمن بيانات عن الخصائص الديموغرافية للطلاب، مثل الجنس والعمر. وعلاوة على ذلك، سجلات البريد الإلكتروني لا تتضمن معلومات حول الاتصال من خلال وسائل الإعلام الأخرى، مثل مكالمات هاتفية أو رسالة نصية، أو المحادثات وجها لوجه. وأخيرا، سجلات البريد الإلكتروني لا تتضمن معلومات مباشرة حول العلاقات والبنى النظرية في كثير من النظريات القائمة. في وقت لاحق في هذا الفصل، وعندما أتحدث عن استراتيجيات البحث، سترى كيف Kossinets واتس حل هذه المشاكل.

ثلاثة أنواع من النقص، ومشكلة نقص البيانات لتفعيل البنى النظرية هي اصعب لحلها، وفي تجربتي، وغالبا ما يتم التغاضي عن طريق الخطأ من قبل العلماء البيانات. تقريبا، يبني النظرية هي الأفكار المجردة التي يدرس علماء الاجتماع، ولكن، للأسف، هذه ثوابت لا يمكن دائما أن يعرف بشكل لا لبس فيه وقياسه. على سبيل المثال، دعونا نتخيل محاولة لاختبار تجريبيا المطالبة يبدو بسيط هو أن الناس الذين هم أكثر ذكاء كسب المزيد من المال. من أجل اختبار هذا الادعاء قد تحتاج إلى قياس "الذكاء". ولكن، ما هو الذكاء؟ على سبيل المثال، Gardner (2011) جادل بأن هناك فعلا ثمانية أشكال مختلفة من الذكاء. و، هل هناك إجراءات يمكن أن تقيس بدقة أي من هذه الأشكال من الذكاء؟ وعلى الرغم من كميات هائلة من العمل من قبل علماء النفس، وهذه الأسئلة لا تزال تفتقر أجوبة لا لبس فيها. وهكذا، حتى بسيطة نسبيا المطالبة-الناس الذين هم أكثر ذكاء كسب المزيد من المال يمكن أن يكون من الصعب تقييم تجريبيا لأنه يمكن أن يكون من الصعب لتفعيل البنى النظرية في البيانات. أمثلة أخرى من بنيات النظرية التي تعتبر مهمة ولكن من الصعب لتفعيل تشمل "المعايير"، "رأس المال الاجتماعي"، و "الديمقراطية". علماء الاجتماع استدعاء مباراة بين بنيات النظرية وصحة بناء البيانات (Cronbach and Meehl 1955) . و، وهذه القائمة من بنيات تشير، بناء صحة هي المشكلة التي علماء الاجتماع وكافحت مع لفترة طويلة جدا، حتى عندما كانوا يعملون مع البيانات التي تم جمعها لأغراض البحث. عند العمل مع البيانات التي تم جمعها لأغراض أخرى من البحوث، ومشاكل صحة بناء، بل هي أكثر صعوبة (Lazer 2015) .

عندما كنت تقرأ ورقة بحثية، واحد طريقة سريعة ومفيدة لتقييم المخاوف بشأن صحة بناء هو اتخاذ المطالبة الرئيسية في ورقة، وهو ما يعبر عنه عادة من حيث يبني، وإعادة التعبير، فإنه من حيث البيانات المستخدمة. على سبيل المثال، والنظر في دراستين افتراضية التي تدعي أنها تظهر أن الناس أكثر ذكاء كسب المزيد من المال:

  • دراسة 1: الناس الذين يسجلون أيضا على اختبار واحد الغراب مصفوفات اختبار مدروسة الاستخبارات التحليلي (Carpenter, Just, and Shell 1990) -have الدخل ذكرت أعلى على العوائد الضريبية
  • دراسة 2: الناس على تويتر الذي استخدم كلمات أطول من المرجح أن نذكر العلامات التجارية الفاخرة

في كلتا الحالتين، يمكن أن الباحثين يؤكدون أنهم قد أظهرت أن الناس أكثر ذكاء كسب المزيد من المال. ولكن، في أول دراسة البنى النظرية وتفعيلها بشكل جيد من قبل البيانات، وفي الحالة الثانية ليست كذلك. وعلاوة على ذلك، كما يوضح هذا المثال، المزيد من البيانات لا حل المشاكل مع صلاحية بناء تلقائيا. يجب أن كنت تشك في نتائج الدراسات 2 ما إذا كان ينطوي على مليون تويت، مليار تويت، أو تريليون تويت. للباحثين لم تكن مألوفة مع فكرة صلاحية بناء، ويقدم الجدول 2.2 بعض الأمثلة من الدراسات التي تفعيلها يبني النظرية باستخدام بيانات التتبع الرقمية.

الجدول 2.2: أمثلة من آثار الرقمية التي يتم استخدامها في إجراءات المفاهيم النظرية أكثر تجريدا. علماء الاجتماع يدعون هذه المباراة بناء صحة ويمثل تحديا كبيرا مع استخدام مصادر بيانات كبيرة للبحث الاجتماعي (Lazer 2015) .
أثر الرقمي بناء النظرية تنويه
سجلات البريد الإلكتروني من إحدى الجامعات (بيانات التعريف فقط) العلاقات الاجتماعيه Kossinets and Watts (2006) ، Kossinets and Watts (2009) ، De Choudhury et al. (2010)
المشاركات وسائل الإعلام الاجتماعية في ويبو المشاركة المدنية Zhang (2016)
سجلات البريد الإلكتروني من شركة (بيانات التعريف والنص الكامل) صالح الثقافي في المنظمة Goldberg et al. (2015)

على الرغم من أن مشكلة نقص البيانات ليبني نظرية تفعيل ومن الصعب جدا أن تحل، وهناك ثلاثة حلول مشتركة لمشكلة المعلومات الديموغرافية ناقصة ومعلومات غير كاملة على السلوك على منصات أخرى. الأول هو في الواقع لجمع البيانات التي تحتاجها. انا اقول لكم عن مثالا على ذلك في الفصل 3 عندما أقول لكم عن الدراسات الاستقصائية. للأسف، وهذا النوع من جمع البيانات ليس من الممكن دائما. الحل الرئيسي الثاني هو أن تفعل ما يسميه العلماء بيانات الاستدلال المستخدم السمة وما علماء الاجتماع يدعون الإسناد. في هذا النهج، يستخدم الباحثون المعلومات التي لديهم على بعض الناس لاستنتاج سمات أشخاص آخرين. ، كان واتس ثالث الممكن حل تلك المستخدمة من قبل Kossinets والجمع بين مصادر بيانات متعددة. وتسمى هذه العملية أحيانا دمج أو ربط السجلات. واقترح لي استعارة المفضلة لهذه العملية في الفقرة الأولى من الورقة الأولى مكتوبة من أي وقت مضى على الربط القياسي (Dunn 1946) :

"كل شخص في العالم يشكل كتاب الحياة. يبدأ هذا الكتاب مع ولادته وتنتهي بالموت. مصنوعة صفحاتها تتكون من سجلات الأحداث المبدأ في الحياة. سجل الربط هو الاسم الذي يطلق على عملية تجميع صفحات هذا الكتاب في مجلد ".

وقد كتب هذا النص في عام 1946، وفي ذلك الوقت، كان الناس يفكرون أن كتاب الحياة يمكن أن تشمل أحداث الحياة الكبرى مثل الولادة والزواج والطلاق والوفاة. ومع ذلك، الآن بعد أن يتم تسجيل الكثير من المعلومات عن الناس، وكتاب الحياة يمكن أن يكون صورة مفصلة بشكل لا يصدق، إذا كانت هذه صفحات مختلفة (أي، لدينا آثار الرقمية)، يمكن أن تكون ملزمة معا. هذا الكتاب من الحياة يمكن أن تكون موردا كبيرا للباحثين. ولكن، ويمكن أيضا أن يسمى كتاب الحياة قاعدة بيانات من الخراب (Ohm 2010) ، والتي يمكن استخدامها لجميع أنواع أغراض غير أخلاقية، كما هو موضح أكثر أدناه عندما أتحدث عن طبيعة الحساسة للمعلومات التي تم جمعها من مصادر البيانات الكبيرة أدناه وفي الفصل 6 (الأخلاق).