В аналогов възраст, събиране на данни за поведението-кой какво прави, когато-е скъпо, и следователно, относително рядко. Сега, в дигиталната епоха, поведението на милиарди хора са регистрирани, съхранявани и анализиран. Например, всеки път, когато щракнете върху един сайт, направи обаждане на мобилния си телефон, или да плащат за нещо, с вашата кредитна карта, цифров запис на вашето поведение се създава и съхранява от бизнеса. Тъй като тези данни са страничен продукт от всеки ден действията на хората, те често се нарича цифрови следи. В допълнение към тези следи, притежавани от предприятията, правителствата също имат невероятно богати данни за двете хора и предприятия, данните, които често са цифровизирани и анализиран. Взети заедно, тези бизнес и правителствени записи често се наричат големи данни.
Все по-нарастващата потопа на големия данни означава, че ние се движим от един свят, където поведенчески данни бяха недостатъчни за един свят, където поведенчески данни е в изобилие. Но, тъй като тези данни видове са сравнително нови, жалко количество изследвания използването им изглежда като учени сляпо преследват наличните данни. Тази глава, вместо това предлага принципен подход към разбирането на различните източници на данни и как те могат да бъдат използвани. Това богато разбиране трябва да ви помогне по-добре отговаря на вашите изследователски въпроси към подходящи източници на данни. Или, ако такива съществуващи източници липсват, убеди ли да събира собствените си данни с помощта на идеите в бъдещите глави.
Първата стъпка, за да се учим от големи данни е да се осъзнае, че това е част от една по-широка категория от данни, която е била използвана за социални изследвания в продължение на много години: данни от наблюдения. Грубо казано, наблюдателни данни е всяка информация, която е резултат от спазване на социалната система, без да се намесва по някакъв начин. А суров начин да се мисли за това е, че наблюдателната данни е всичко, което не включва говори с хората (например, проучвания, темата за глава 3) или променящи се среди на хората (например, експерименти, темата на глава 4). По този начин, в допълнение към бизнес и правителствени записи, наблюдателни данни включва и неща като текста на статии от вестници и сателитни снимки.
Тази глава има три части. Първо, в раздел 2.2, ще опиша големи данни по-подробно и да се изяснят фундаментална разлика между него и данните, които по принцип са били използвани за социални изследвания в миналото. След това, в раздел 2.3, ще опиша десет общи характеристики на големите източници на данни. Разбирането на тези характеристики, ни позволява бързо да се признае на силните и слабите страни на съществуващите източници и ще ни помогне да се извлече полза от нови източници, които ще бъдат създадени в бъдеще. Накрая, в раздел 2.4, ще опиша три основни стратегии за научни изследвания, които можете да използвате, за да се поучат от наблюдателни данни: преброяване неща, прогнозиране неща, и приравняване на експеримент.