В аналогичната епоха събирането на данни за поведението - кой какво прави и кога е - е скъпо и следователно относително рядко. Сега, в дигиталната епоха, поведението на милиарди хора се записва, съхранява и анализира. Например, всеки път, когато кликнете върху уебсайт, направите обаждане на мобилния си телефон или платите за нещо с кредитната си карта, се създава и съхранява цифров запис за поведението ви от дадена фирма. Тъй като тези типове данни са страничен продукт на ежедневните действия на хората, те често се наричат цифрови следи . В допълнение към тези следи, притежавани от бизнеса, правителствата също имат невероятно богати данни както за хората, така и за бизнеса. Заедно тези бизнес и правителствени записи често се наричат големи данни .
Все по-голямото наводнение на големи данни означава, че сме се преместили от свят, в който поведенческите данни са оскъдни в един свят, където данните за поведението са многобройни. Първата стъпка към изучаването от големи данни е, че тя е част от по-широка категория данни, която се използва за социални изследвания в продължение на много години: наблюдателни данни . Приблизително наблюдателните данни са всички данни, които произтичат от спазването на една социална система, без да се намесва по някакъв начин. Непрекъснат начин да се мисли за това е, че наблюдателните данни са всичко, което не включва разговорите с хората (напр. Проучвания, темата на глава 3) или промяната на средата на хората (напр. Експерименти, темата на глава 4). По този начин, в допълнение към бизнес и правителствени записи, наблюдателните данни също включват неща като текста на вестникарски статии и сателитни снимки.
Тази глава има три части. Първо, в раздел 2.2 описвам по-подробно големи източници на данни и изяснявам фундаментална разлика между тях и данните, които обикновено се използват за социални изследвания в миналото. След това, в раздел 2.3, описвам десет общи характеристики на големи източници на данни. Разбирането на тези характеристики ви позволява бързо да разпознавате силните и слабите страни на съществуващите източници и ще ви помогне да се възползвате от новите източници, които ще бъдат налични в бъдеще. Накрая, в раздел 2.4, описвам три основни стратегии за изследване, които можете да използвате, за да се учите от наблюдателни данни: броене на неща, прогнозиране на неща и приближаване на експеримент.