2.3.2.3 غير ممثل

مصدران عدم التمثيل، هي مجموعات سكانية مختلفة وأنماط الاستخدام المختلفة.

تميل بيانات كبيرة ليكون متحيزا بشكل منهجي بطريقتين رئيسيتين. هذه الحاجة لا يسبب مشكلة لجميع النوع من التحليل، لكن بالنسبة لبعض التحليل يمكن أن يكون عيب حرجة.

والمصدر الأول للتحيز المنهجي هو أن الأشخاص الذين قبض عليهم هم عادة لا الكون كامل لجميع الناس أو عينة عشوائية من أية مجموعة من السكان محددة. على سبيل المثال، فإن الأميركيين على تويتر ليست عينة عشوائية من الأميركيين (Hargittai 2015) . والمصدر الثاني للتحيز المنهجي هو أن العديد من نظم البيانات الكبيرة التقاط الإجراءات، وبعض الناس تساهم العديد من الإجراءات من غيرها. على سبيل المثال، بعض الناس على تويتر تسهم مئات المرات اكثر تويت من غيرها. لذلك، لا يمكن للأحداث على منصة محددة يكون تعبيرا من أي وقت مضى بشكل أكبر من مجموعات فرعية معينة من المنصة نفسها.

عادة الباحثين يريدون أن يعرفوا الكثير عن البيانات التي لديهم. ولكن نظرا للطبيعة غير التمثيلية للبيانات الكبيرة، فإنه من المفيد أن الوجه أيضا تفكيرك. أنت أيضا بحاجة إلى معرفة الكثير عن البيانات التي لم يكن لديك. هذا ينطبق بشكل خاص عندما تكون البيانات التي لم يكن لديك مختلفة بشكل منهجي من البيانات أن لديك. على سبيل المثال، إذا كان لديك سجلات المكالمات من شركة الهاتف المحمول في البلدان النامية، يجب أن نفكر ليس فقط عن الناس في ورقة العمل، ولكن أيضا عن الناس الذين قد يكونون فقراء جدا لامتلاك الهاتف المحمول. وعلاوة على ذلك، في الفصل 3، ونحن سوف تتعلم حول كيفية الترجيح تمكن الباحثون من وضع تقديرات أفضل من البيانات غير تمثيلية.