Các nguồn dữ liệu lớn ở khắp mọi nơi, nhưng việc sử dụng chúng cho nghiên cứu xã hội có thể phức tạp. Theo kinh nghiệm của tôi, có điều gì đó giống như quy tắc “không ăn trưa miễn phí” cho dữ liệu: nếu bạn không đặt nhiều công việc thu thập nó, thì có thể bạn sẽ phải suy nghĩ rất nhiều về nó và phân tích nó.
Các nguồn dữ liệu lớn của ngày hôm nay — và có thể là ngày mai — sẽ có xu hướng có 10 đặc điểm. Ba trong số này nói chung (nhưng không phải luôn luôn) hữu ích cho nghiên cứu: lớn, luôn luôn, và không phản ứng. Bảy nói chung (nhưng không phải luôn luôn) có vấn đề đối với nghiên cứu: không đầy đủ, không thể tiếp cận, không đại diện, trôi dạt, thuật toán bị nhầm lẫn, bẩn thỉu và nhạy cảm. Nhiều đặc điểm này cuối cùng phát sinh do các nguồn dữ liệu lớn không được tạo ra cho mục đích nghiên cứu xã hội.
Dựa trên những ý tưởng trong chương này, tôi nghĩ rằng có ba cách chính mà các nguồn dữ liệu lớn sẽ có giá trị nhất cho nghiên cứu xã hội. Đầu tiên, họ có thể cho phép các nhà nghiên cứu quyết định giữa các dự đoán lý thuyết cạnh tranh. Ví dụ về loại công việc này bao gồm Farber (2015) (New York Taxi drivers) và King, Pan, and Roberts (2013) (kiểm duyệt ở Trung Quốc). Thứ hai, các nguồn dữ liệu lớn có thể cho phép cải thiện đo lường cho chính sách thông qua hiện nay. Một ví dụ về loại công việc này là Ginsberg et al. (2009) (Google Xu hướng dịch cúm). Cuối cùng, các nguồn dữ liệu lớn có thể giúp các nhà nghiên cứu đưa ra các ước tính nhân quả mà không cần chạy thử nghiệm. Ví dụ về loại công việc này là Mas and Moretti (2009) (tác động ngang hàng về năng suất) và Einav et al. (2015) (ảnh hưởng của giá khởi điểm đấu giá tại eBay). Tuy nhiên, mỗi phương pháp này có xu hướng yêu cầu các nhà nghiên cứu mang lại rất nhiều dữ liệu, chẳng hạn như định nghĩa về số lượng quan trọng để ước tính hoặc hai lý thuyết đưa ra các dự đoán cạnh tranh. Vì vậy, tôi nghĩ cách tốt nhất để nghĩ về những nguồn dữ liệu lớn có thể làm là họ có thể giúp các nhà nghiên cứu có thể hỏi những câu hỏi thú vị và quan trọng.
Trước khi kết luận, tôi nghĩ rằng nó là giá trị xem xét rằng các nguồn dữ liệu lớn có thể có ảnh hưởng quan trọng đến mối quan hệ giữa dữ liệu và lý thuyết. Cho đến nay, chương này đã đưa ra cách tiếp cận của nghiên cứu thực nghiệm dựa trên lý thuyết. Nhưng các nguồn dữ liệu lớn cũng cho phép các nhà nghiên cứu thực hiện lý thuyết theo kinh nghiệm . Đó là, thông qua sự tích lũy cẩn thận các sự kiện thực tế, các mẫu và câu đố, các nhà nghiên cứu có thể xây dựng các lý thuyết mới. Cách tiếp cận dữ liệu đầu tiên thay thế cho lý thuyết này không phải là mới, và nó đã được Barney Glaser và Anselm Strauss kết hợp chặt chẽ nhất (1967) với lời kêu gọi lý thuyết nền tảng của họ. Tuy nhiên, cách tiếp cận dữ liệu đầu tiên này không hàm ý “kết thúc của lý thuyết”, như đã được tuyên bố trong một số báo chí xung quanh nghiên cứu trong kỷ nguyên số (Anderson 2008) . Thay vào đó, khi môi trường dữ liệu thay đổi, chúng ta nên mong đợi một sự tái cân bằng trong mối quan hệ giữa dữ liệu và lý thuyết. Trong một thế giới nơi thu thập dữ liệu rất tốn kém, nó chỉ có ý nghĩa khi thu thập dữ liệu mà các lý thuyết đề xuất sẽ hữu ích nhất. Nhưng, trong một thế giới nơi mà một lượng lớn dữ liệu đã có sẵn miễn phí, nó có ý nghĩa để cũng thử một cách tiếp cận dữ liệu đầu tiên (Goldberg 2015) .
Như tôi đã chỉ ra trong chương này, các nhà nghiên cứu có thể học được rất nhiều bằng cách quan sát mọi người. Trong ba chương tiếp theo, tôi sẽ mô tả cách chúng ta có thể tìm hiểu nhiều thứ khác nhau nếu chúng ta điều chỉnh thu thập dữ liệu và tương tác trực tiếp với mọi người bằng cách đặt câu hỏi (chương 3), chạy thử nghiệm (chương 4) và thậm chí liên quan đến chúng trong quá trình nghiên cứu trực tiếp (chương 5).