בעידן האנלוגי, איסוף נתונים על התנהגות - מי עושה מה, ומתי - היה יקר, ולכן נדיר יחסית. עכשיו, בעידן הדיגיטלי, ההתנהגויות של מיליארדי אנשים נרשמות, מאוחסנות וניתנות לניתוח. לדוגמה, בכל פעם שאתה לוחץ על אתר אינטרנט, לבצע שיחה בטלפון הנייד שלך, או לשלם על משהו עם כרטיס האשראי שלך, הרשומה הדיגיטלית של ההתנהגות שלך נוצר ומאוחסן על ידי העסק. מכיוון שסוגי נתונים אלה הם תוצר לוואי של פעולות היומיום של אנשים, הם נקראים לעתים קרובות עקבות דיגיטליים . בנוסף עקבות אלה המוחזקים על ידי עסקים, ממשלות יש גם נתונים עשירים להפליא על אנשים ועסקים. יחד רשומות אלה עסקים הממשלה נקראים לעתים קרובות נתונים גדולים .
המבול ההולך וגדל של נתונים גדולים פירושו שעברנו מעולם שבו נתונים התנהגותיים היו נדירים לעולם שבו נתונים התנהגותיים בשפע. צעד ראשון ללמידה מתוך נתונים גדולים הוא להבין כי הוא חלק מקטגוריה רחבה יותר של נתונים אשר שימשו במחקר חברתי במשך שנים רבות: נתונים תצפיתיים . באופן כללי, נתונים תצפיתיים הם נתונים הנובעים מתצפית על מערכת חברתית מבלי להתערב בדרך כלשהי. דרך גולמית לחשוב על זה היא כי נתונים תצפיתיים היא כל מה שאינו כרוך לדבר עם אנשים (למשל, סקרים, הנושא של פרק 3) או שינוי סביבות של אנשים (למשל, ניסויים, הנושא של פרק 4). לכן, בנוסף רשומות עסקים הממשלה, נתונים תצפיתיים כולל גם דברים כמו טקסט של מאמרים בעיתון ותצלומי לוויין.
פרק זה כולל שלושה חלקים. ראשית, בסעיף 2.2, אני מתאר מקורות נתונים גדולים בפירוט רב יותר ומבהיר הבדל מהותי בינם לבין הנתונים ששימשו בדרך כלל למחקרים חברתיים בעבר. ואז, בסעיף 2.3, אני מתאר עשר מאפיינים משותפים של מקורות נתונים גדולים. הבנת המאפיינים האלה מאפשרת לך לזהות במהירות את נקודות החוזק והחולשה של מקורות קיימים ותסייע לך לרתום את המקורות החדשים שיהיו זמינים בעתיד. לבסוף, בסעיף 2.4, אני מתאר שלוש אסטרטגיות מחקר עיקריות שבהן ניתן להשתמש כדי ללמוד מנתונים תצפיתיים: ספירה של דברים, חיזוי דברים וקרוב לניסוי.