در عصر آنالوگ، جمع آوری اطلاعات در مورد رفتار - چه چیزی و چه زمانی - گران بود، و از این رو نسبتا نادر است. در حال حاضر، در عصر دیجیتال، رفتار میلیاردها نفر ثبت، ذخیره و تجزیه و تحلیل می شود. به عنوان مثال، هر بار که شما بر روی یک وب سایت کلیک میکنید، با تلفن همراه خود تماس بگیرید یا با کارت اعتباری خود چیزی بخرید، یک رکورد دیجیتال رفتار شما ایجاد شده و توسط یک شرکت ذخیره می شود. از آنجا که این نوع داده ها یک محصول جانبی از اقدامات روزمره مردم است، آنها اغلب به عنوان علامت های دیجیتال نامیده می شود. علاوه بر این ردیابی هایی که توسط کسب و کارها برگزار می شود، دولت ها نیز اطلاعات فوق العاده غنی در مورد هر دو افراد و کسب و کار ها دارند. با هم این پرونده های کسب و کار و دولت اغلب به نام داده های بزرگ است .
سقوط رو به رشد داده های بزرگ به این معنی است که ما از دنیایی که اطلاعات رفتاری کمیاب به دنیایی است که اطلاعات رفتاری فراوان است نقل مکان کرده ایم. گام اول برای یادگیری از داده های بزرگ این است که این بخش بخشی از یک طبقه بندی گسترده ای از داده ها است که برای تحقیقات اجتماعی برای سال ها مورد استفاده قرار گرفته است: داده های مشاهده شده . تقریبا داده های مشاهداتی هرگونه اطلاعاتی است که از مشاهده یک سیستم اجتماعی بدون مداخله در برخی موارد حاصل می شود. یک روش خام برای تفکر در مورد این است که داده های مشاهداتی همه چیز را شامل نمی شود که صحبت کردن با مردم را شامل می شود (نظیر نظرسنجی، موضوع فصل 3) یا تغییر محیط افراد (مثلا آزمایش ها، موضوع فصل 4). بنابراین، علاوه بر سوابق کسب و کار و دولت، اطلاعات مشاهداتی نیز شامل مواردی مانند متن روزنامه ها و عکس های ماهواره ای می شود.
این فصل سه بخش دارد. اول، در بخش 2.2، منابع اطلاعاتی بزرگ را به طور دقیق تر توضیح می دهم و تفاوت اساسی بین آنها و داده هایی که برای تحقیقات اجتماعی در گذشته مورد استفاده قرار گرفته است، مشخص می شود. سپس، در بخش 2.3، ده ویژگی مشترک از منابع داده بزرگ را توصیف می کنم. درک این ویژگی ها، شما را قادر می سازد تا نقاط قوت و ضعف منابع موجود را سریع تشخیص دهید و به شما کمک می کند که منابع جدیدی را که در آینده در دسترس شما قرار می گیرند، استفاده کنید. سرانجام در بخش 2.4 من سه راهبرد تحقیق اصلی را که شما می توانید از داده های مشاهداتی یاد بگیرید را شرح دهید: شمارش چیزها، پیش بینی چیزها و تقریب یک آزمایش را توصیف می کنم.