בעידן האנלוגי, איסוף נתונים על התנהגות-מי עושה מה כאשר-היה יקר, ולכן, יחסית נדיר. עכשיו, ב הדיגיטלי גיל, התנהגויות של מיליארדי אנשים נרשמים, מאוחסן, analyzable. לדוגמא, בכל פעם שאתה לחץ על אתר אינטרנט, לבצע שיחה בטלפון הנייד שלך, או לשלם על משהו עם כרטיס האשראי שלך, תיעוד דיגיטלי של ההתנהגות שלך נוצר ומאוחסן על ידי עסק. בגלל הנתונים האלה הם תוצר לוואי של כל פעולות יום של אנשים, הם נקראים לעתים קרובות עקבות דיגיטליות. בנוסף עקבות אלה המוחזקים על ידי עסקים, ממשלות גם נתונים עשירים להפליא על שני אנשים ועסקים, נתונים אשר לעתים קרובות דיגיטציה analyzable. יחד רשומות העסקים וממשל אלה נקראות לעתים קרובות נתונים גדולים.
המבול הולך העולה של נתונים גדולים אומר שאנחנו עברנו מן עולם שבו נתונים התנהגותיים היו מועטים לעולם שבו נתונים התנהגותיים מצויים בשפע. אבל, בגלל נתוני סוגים אלה הם חדשים יחסית, בסכום מצער של מחקר באמצעות מהם נראה כמו מדענים לרדוף נתונים זמינים באופן עיוור. פרק זה, במקום, מציע גישה עקרונית להבנת המקורות השונים של נתונים וכיצד הם יכולים לשמש. הבנה עשירה יותר זה אמור לעזור לך לבצע התאמה טובה יותר שאלות המחקר שלך למקורות הנתונים המתאימים. לחלופין, אם המקורות הקיימים כגון חסרים, לשכנע אותך כדי לאסוף נתונים משלך באמצעות רעיונות בפרקים בעתיד.
צעד ראשון כדי ללמוד מנתונים גדולים הוא להבין שזה חלק קטגוריה רחבה של נתונים, שבו נעשה שימוש למחקר חברתי במשך שנים רבות: נתונים תצפיתיים. פחות או יותר, נתונים תצפיתיים הוא כל הנתונים המוצגים בעקבות מהסתכלות מערכת חברתית מבלי להתערב בדרך כלשהי. דרך גולמי לחשוב על זה כי נתונים תצפיתיים הוא הכל שאינה כרוכה מדבר עם אנשים (למשל, סקרים, הנושא של פרק 3) או לשינויים הסביבתיים של אנשים (למשל, ניסויים, הנושא של פרק 4). לכן, בנוסף לרשומות עסקים וממשל, נתונים תצפיתיים כוללים גם דברים כמו הטקסט של כתבות בעיתוני תצלומי לווין.
יש פרק זה שלושה חלקים. ראשית, בסעיף 2.2, אני מתאר נתונים גדולים ביתר פירוט ולהבהיר הבדל מהותי בינה לבין הנתונים אשר שמשו בדרך כלל למחקר חברתי בעבר. לאחר מכן, בסעיף 2.3, אני מתאר עשרה מאפיינים משותפים של מקורות נתונים גדולים. הבנת מאפיינים אלה מאפשר לנו להכיר את נקודות חוזק וחולשה במהירות של מקורות קיימים ויסייעו לנו לרתום את המקורות החדשים שייוצרו בעתיד. לבסוף, בסעיף 2.4, אני מתאר שלוש אסטרטגיות מחקר עיקריות שאתה יכול להשתמש בו כדי ללמוד מנתונים תצפיתיים: דברים לספור, דברי חיזוי, ואת קירוב ניסוי.