Dữ liệu lớn được tạo ra và được thu thập bởi các chính phủ cho các mục đích khác hơn là nghiên cứu. Sử dụng dữ liệu này để nghiên cứu, do đó, đòi hỏi phải đặt lại mục tiêu.
Một điểm lý tưởng hóa của nghiên cứu xã hội tưởng tượng một nhà khoa học có một ý tưởng và sau đó thu thập dữ liệu để kiểm tra ý tưởng đó. Phong cách này của nghiên cứu dẫn đến một sự phù hợp chặt chẽ giữa các câu hỏi nghiên cứu và dữ liệu, nhưng nó bị hạn chế bởi vì một nhà nghiên cứu cá nhân thường không có các nguồn lực cần thiết để thu thập các dữ liệu cần thiết, chẳng hạn như dữ liệu lớn, phong phú, và toàn quốc đại diện. Vì vậy, rất nhiều nghiên cứu xã hội trong quá khứ đã sử dụng các cuộc điều tra xã hội quy mô lớn, chẳng hạn như các khảo sát chung xã hội (GSS), Nghiên cứu bầu cử quốc gia Mỹ (ANES), và Study Panel của thu nhập Dynamics (PSID). Những cuộc khảo sát quy mô lớn thường được điều hành bởi một đội ngũ các nhà nghiên cứu và chúng được thiết kế để tạo ra dữ liệu có thể được sử dụng bởi nhiều nhà nghiên cứu. Bởi vì trong những mục tiêu của các cuộc điều tra quy mô lớn, chăm sóc tuyệt vời được đưa vào thiết kế bộ sưu tập dữ liệu và chuẩn bị các dữ liệu kết quả để sử dụng bởi các nhà nghiên cứu. Những dữ liệu này được các nhà nghiên cứu và các nhà nghiên cứu.
Hầu hết các nghiên cứu xã hội sử dụng các nguồn đại kỹ thuật số, tuy nhiên, về cơ bản là khác nhau. Thay vì sử dụng dữ liệu thu thập bởi các nhà nghiên cứu và các nhà nghiên cứu, nó sử dụng nguồn dữ liệu đã được tạo ra và được thu thập bởi các doanh nghiệp và chính phủ cho mục đích riêng của họ chẳng hạn như tạo ra lợi nhuận, cung cấp một dịch vụ, hoặc hành một đạo luật. Những nguồn dữ liệu kinh doanh và chính phủ đã đến để được gọi là dữ liệu lớn. Làm nghiên cứu với dữ liệu lớn là khác nhau hơn là làm nghiên cứu với dữ liệu ban đầu được tạo ra để nghiên cứu. So sánh, ví dụ, một trang web truyền thông xã hội, chẳng hạn như Twitter, với một cuộc điều tra dư luận truyền thống như các khảo sát xã hội chung (GSS). mục tiêu chính của Twitter là để cung cấp một dịch vụ cho người sử dụng và tạo ra lợi nhuận. Trong quá trình đạt được những mục tiêu này, Twitter tạo ra dữ liệu có thể có ích cho việc nghiên cứu một số khía cạnh của dư luận. Nhưng, không giống như các khảo sát xã hội chung (GSS), Twitter không phải là chủ yếu tập trung vào việc nghiên cứu xã hội.
Các dữ liệu lớn hạn là phiền mơ hồ, và nó nhóm với nhau nhiều điều khác nhau. Đối với các mục đích của nghiên cứu xã hội, tôi nghĩ rằng nó là hữu ích để phân biệt giữa hai loại nguồn dữ liệu lớn:. Hồ sơ hành chính của chính phủ và các hồ sơ hành chính kinh doanh hồ sơ hành chính của Chính phủ là những dữ liệu được tạo ra bởi chính phủ như là một phần của hoạt động thường xuyên của họ. Các loại hồ sơ đã được sử dụng bởi các nhà nghiên cứu trong quá khứ, chẳng hạn như nhà nhân khẩu học nghiên cứu sinh, kết hôn, và tử vong ghi-nhưng các chính phủ đang ngày càng thu và phát hành hồ sơ chi tiết trong các hình thức phân tích được. Ví dụ, chính quyền thành phố New York cài đặt mét kỹ thuật số bên trong của mỗi xe taxi trong thành phố. Những mét ghi lại tất cả các loại dữ liệu về từng đi xe taxi kể cả lái xe, thời gian bắt đầu và vị trí, thời gian dừng và vị trí, và giá vé. Trong một nghiên cứu mà tôi sẽ nói ở phần sau, Henry Farber (2015) thêm thắt những dữ liệu để giải quyết một cuộc tranh luận cơ bản trong kinh tế lao động về mối quan hệ giữa tiền lương theo giờ và số giờ làm việc.
Các loại chính thứ hai của dữ liệu lớn cho nghiên cứu xã hội kinh doanh hồ sơ hành chính. Đây là những dữ liệu mà doanh nghiệp tạo ra và thu thập như một phần của hoạt động thường xuyên của họ. Những hồ sơ hành chính kinh doanh thường được gọi là dấu vết kỹ thuật số, và bao gồm những thứ như nhật ký truy vấn cụ tìm kiếm, viết phương tiện truyền thông xã hội, và kêu gọi các bản ghi từ điện thoại di động. Phê bình, những hồ sơ hành chính kinh doanh không chỉ là về hành vi trực tuyến. Ví dụ, các cửa hàng sử dụng máy quét kiểm tra-out được tạo ra biện pháp thời gian thực của năng suất lao động. Trong một nghiên cứu mà tôi sẽ nói cho bạn về sau này trong chương này, Alexandre Mas và Enrico Moretti (2009) thắt siêu thị dữ liệu này trả phòng để nghiên cứu như thế nào năng suất của công nhân bị ảnh hưởng bởi năng suất của các đồng nghiệp của họ.
Khi cả hai ví dụ minh họa, ý tưởng đặt lại mục tiêu là nền tảng cho việc học từ dữ liệu lớn. Theo kinh nghiệm của tôi, các nhà khoa học xã hội và các nhà khoa học dữ liệu tiếp cận này đặt lại mục tiêu rất khác nhau. các nhà khoa học xã hội, những người đang quen với việc làm việc với các dữ liệu được thiết kế để nghiên cứu, nhanh chóng chỉ ra các vấn đề với dữ liệu thêm thắt trong khi bỏ qua thế mạnh của mình. Mặt khác, các nhà khoa học dữ liệu nhanh chóng chỉ ra những lợi ích của các dữ liệu thêm thắt trong khi bỏ qua điểm yếu của nó. Đương nhiên, cách tiếp cận tốt nhất là một lai. Đó là, các nhà nghiên cứu cần phải hiểu được đặc điểm của các nguồn mới của dữ liệu cả tốt và xấu, và sau đó tìm ra cách để học hỏi từ họ. Và, đó là kế hoạch cho phần còn lại của chương này. Tiếp theo, tôi sẽ mô tả mười đặc điểm chung của dữ liệu hành chính doanh nghiệp và chính phủ. Sau đó, tôi sẽ mô tả ba cách tiếp cận nghiên cứu có thể được sử dụng với các dữ liệu, phương pháp tiếp cận cũng là phù hợp với đặc điểm của dữ liệu này.