في العصر التناظري ، كان جمع البيانات حول السلوك - من يفعل ماذا ، ومتى - مكلفًا ، وبالتالي نادرًا نسبيًا. الآن ، في العصر الرقمي ، يتم تسجيل سلوكيات المليارات من الأشخاص وتخزينها وتحليلها. على سبيل المثال ، في كل مرة تنقر فيها على موقع ويب ، أو تجري مكالمة على هاتفك الجوال ، أو تدفع شيئًا ما باستخدام بطاقة الائتمان الخاصة بك ، يتم إنشاء سجل رقمي لسلوكك وتخزينه من قبل شركة. نظرًا لأن هذه الأنواع من البيانات هي نتيجة ثانوية للإجراءات اليومية للأشخاص ، فإنها غالبًا ما تُسمى آثارًا رقمية . بالإضافة إلى هذه الآثار التي تحتفظ بها الشركات ، تمتلك الحكومات أيضًا بيانات غنية بشكل لا يصدق عن الأفراد والشركات. وكثيرا ما تسمى هذه السجلات التجارية والحكومية معًا البيانات الضخمة .
إن الفيض المتزايد باستمرار للبيانات الضخمة يعني أننا انتقلنا من عالم حيث كانت البيانات السلوكية نادرة إلى عالم حيث تتوفر البيانات السلوكية. إن الخطوة الأولى للتعلم من البيانات الضخمة هي إدراك أنها جزء من فئة أوسع من البيانات التي تم استخدامها للبحث الاجتماعي لسنوات عديدة: بيانات الرصد . على وجه التقريب ، بيانات الرصد هي أي بيانات تنتج عن مراقبة النظام الاجتماعي دون التدخل بطريقة ما. ومن الطرق الأساسية للتفكير في ذلك أن البيانات الرصدية هي كل ما لا ينطوي على التحدث مع الناس (مثل الاستطلاعات ، أو موضوع الفصل 3) أو تغيير بيئات الناس (على سبيل المثال ، التجارب ، موضوع الفصل 4). وهكذا ، بالإضافة إلى السجلات التجارية والحكومية ، تتضمن بيانات الرصد أشياء مثل نص مقالات الصحف وصور الأقمار الصناعية.
هذا الفصل له ثلاثة أجزاء. أولاً ، في القسم 2.2 ، أصف مصادر البيانات الكبيرة بمزيد من التفصيل وأوضّح الفرق الأساسي بينها وبين البيانات التي تم استخدامها عادةً في الأبحاث الاجتماعية في الماضي. بعد ذلك ، في القسم 2.3 ، أصف الخصائص المشتركة العشر لمصادر البيانات الكبيرة. يمكّنك فهم هذه الخصائص من التعرف بسرعة على نقاط القوة والضعف في المصادر الموجودة وسيساعدك على الاستفادة من المصادر الجديدة التي ستتوفر في المستقبل. أخيرًا ، في القسم 2.4 ، أصف ثلاث استراتيجيات بحث رئيسية يمكنك استخدامها للتعلم من بيانات الرصد: عد الأشياء والتنبؤ بالأشياء وتقريب التجربة.