Trong độ tuổi tương tự, thu thập dữ liệu về hành vi ai làm gì khi-là đắt tiền, và do đó, tương đối hiếm. Bây giờ, trong thời đại kỹ thuật số, các hành vi của hàng tỷ người được ghi nhận, lưu trữ, và phân tích được. Ví dụ, mỗi khi bạn click vào một trang web, thực hiện cuộc gọi trên điện thoại di động của bạn, hoặc trả tiền cho một cái gì đó bằng thẻ tín dụng của bạn, một kỷ lục kỹ thuật số của hành vi của bạn được tạo ra và lưu trữ bởi một doanh nghiệp. Bởi vì những dữ liệu này là một sản phẩm phụ của mỗi hoạt động ngày của người dân, chúng thường được gọi là dấu vết kỹ thuật số. Ngoài những dấu vết do các doanh nghiệp, chính phủ cũng có dữ liệu vô cùng phong phú về cả con người và doanh nghiệp, dữ liệu thường được số hóa và phân tích được. Cùng các hồ sơ kinh doanh và chính phủ thường được gọi là dữ liệu lớn.
Lũ lụt ngày càng tăng của dữ liệu lớn có nghĩa là chúng tôi đã chuyển từ một thế giới nơi mà dữ liệu hành vi khan hiếm đến một thế giới nơi mà dữ liệu hành vi là rất dồi dào. Nhưng, vì các kiểu dữ liệu là tương đối mới, một số tiền không may của nghiên cứu sử dụng chúng trông giống như các nhà khoa học một cách mù quáng chạy theo dữ liệu có sẵn. Chương này, thay vào đó, cung cấp một cách tiếp cận có nguyên tắc để hiểu các nguồn dữ liệu khác nhau và làm thế nào họ có thể được sử dụng. sự hiểu biết phong phú hơn này sẽ giúp bạn kết hợp tốt hơn các câu hỏi nghiên cứu của bạn với các nguồn dữ liệu thích hợp. Hoặc, nếu các nguồn hiện có như đang thiếu, thuyết phục bạn để thu thập dữ liệu của riêng bạn bằng cách sử dụng những ý tưởng trong các chương tương lai.
Bước đầu tiên để học hỏi từ các dữ liệu lớn là để nhận ra rằng nó là một phần của một thể loại rộng lớn hơn của dữ liệu đã được sử dụng cho các nghiên cứu xã hội trong nhiều năm: dữ liệu quan sát. Khoảng, dữ liệu quan sát là bất kỳ dữ liệu mà kết quả từ việc quan sát một hệ thống xã hội mà không cần can thiệp một cách nào đó. Một cách thô để suy nghĩ về nó là dữ liệu quan sát tất cả những gì không liên quan đến nói chuyện với mọi người (ví dụ, các cuộc điều tra, chủ đề của Chương 3) hoặc thay đổi môi trường của người dân (ví dụ, các thí nghiệm, chủ đề của chương 4). Như vậy, ngoài hồ sơ kinh doanh và chính phủ, dữ liệu quan sát cũng bao gồm những thứ như các văn bản của các bài báo và hình ảnh vệ tinh.
Chương này có ba phần. Đầu tiên, tại mục 2.2, tôi mô tả dữ liệu lớn một cách chi tiết hơn và làm rõ một sự khác biệt cơ bản giữa nó và các dữ liệu mà đã thường được sử dụng cho các nghiên cứu xã hội trong quá khứ. Sau đó, trong phần 2.3, tôi mô tả mười đặc điểm chung của các nguồn dữ liệu lớn. Hiểu được những đặc tính cho phép chúng tôi nhanh chóng nhận ra những điểm mạnh và điểm yếu của các nguồn hiện có và sẽ giúp chúng ta khai thác các nguồn mới sẽ được tạo ra trong tương lai. Cuối cùng, tại mục 2.4, tôi mô tả ba chiến lược nghiên cứu chính mà bạn có thể sử dụng để học hỏi từ dữ liệu quan sát: những điều kể, những điều dự báo, và xấp xỉ một thử nghiệm.