Dữ liệu lớn được tạo ra và thu thập bởi các công ty và chính phủ cho các mục đích khác ngoài nghiên cứu. Do đó, việc sử dụng dữ liệu này để nghiên cứu đòi hỏi phải sử dụng lại.
Cách đầu tiên mà nhiều người gặp phải nghiên cứu xã hội trong thời đại kỹ thuật số là thông qua những gì thường được gọi là dữ liệu lớn . Mặc dù việc sử dụng rộng rãi thuật ngữ này, không có sự đồng thuận về dữ liệu lớn. Tuy nhiên, một trong những định nghĩa phổ biến nhất của dữ liệu lớn tập trung vào "3 Vs": Volume, Variety, và Velocity. Nói chung, có rất nhiều dữ liệu, trong một loạt các định dạng, và nó đang được tạo ra liên tục. Một số fan hâm mộ của dữ liệu lớn cũng thêm khác "Vs" như Veracity và Value, trong khi một số nhà phê bình thêm Vs như Vague và Vacuous. Thay vì 3 "Vs" (hoặc 5 "Vs" hoặc 7 "Vs"), với mục đích nghiên cứu xã hội, tôi nghĩ một nơi tốt hơn để bắt đầu là 5 "Ws": Ai, Cái gì, Ở đâu, Khi nào , và tại sao. Trong thực tế, tôi nghĩ rằng nhiều thách thức và cơ hội được tạo ra bởi các nguồn dữ liệu lớn chỉ theo một "W": Tại sao.
Trong độ tuổi tương tự, hầu hết các dữ liệu được sử dụng cho nghiên cứu xã hội đã được tạo ra cho mục đích nghiên cứu. Tuy nhiên, trong thời đại kỹ thuật số, một lượng lớn dữ liệu đang được tạo ra bởi các công ty và chính phủ cho các mục đích khác ngoài nghiên cứu, chẳng hạn như cung cấp dịch vụ, tạo ra lợi nhuận và quản lý luật. Tuy nhiên, những người sáng tạo đã nhận ra rằng bạn có thể sử dụng lại dữ liệu của công ty và chính phủ này để nghiên cứu. Nghĩ lại tương tự nghệ thuật trong chương 1, giống như Duchamp đã thay đổi một đối tượng tìm thấy để tạo ra nghệ thuật, các nhà khoa học giờ đây có thể sử dụng lại dữ liệu tìm thấy để tạo ra nghiên cứu.
Trong khi chắc chắn có những cơ hội lớn để tái sử dụng, việc sử dụng dữ liệu không được tạo ra cho mục đích nghiên cứu cũng mang lại những thách thức mới. So sánh, ví dụ, một dịch vụ truyền thông xã hội, chẳng hạn như Twitter, với một cuộc khảo sát ý kiến công chúng truyền thống, chẳng hạn như Khảo sát xã hội chung. Mục tiêu chính của Twitter là cung cấp dịch vụ cho người dùng và tạo ra lợi nhuận. Mặt khác, Tổng điều tra xã hội tập trung vào việc tạo ra dữ liệu có mục đích chung cho nghiên cứu xã hội, đặc biệt cho nghiên cứu ý kiến công chúng. Sự khác biệt về mục tiêu này có nghĩa là dữ liệu do Twitter tạo ra và được tạo ra bởi Khảo sát Xã hội Chung có các thuộc tính khác nhau, mặc dù cả hai đều có thể được sử dụng để nghiên cứu dư luận. Twitter hoạt động ở quy mô và tốc độ mà Khảo sát Xã hội Chung không thể khớp, nhưng, không giống như Khảo sát Xã hội Chung, Twitter không cẩn thận lấy mẫu người dùng và không làm việc chăm chỉ để duy trì sự so sánh theo thời gian. Bởi vì hai nguồn dữ liệu này rất khác nhau, nên không có ý nghĩa khi nói rằng Khảo sát xã hội chung tốt hơn Twitter hoặc ngược lại. Nếu bạn muốn các biện pháp theo giờ của tâm trạng toàn cầu (ví dụ, Golder and Macy (2011) ), Twitter là tốt nhất. Mặt khác, nếu bạn muốn hiểu những thay đổi dài hạn trong việc phân cực thái độ ở Hoa Kỳ (ví dụ DiMaggio, Evans, and Bryson (1996) ), thì Khảo sát Xã hội Chung là lựa chọn tốt nhất. Nói chung, thay vì cố gắng tranh luận rằng các nguồn dữ liệu lớn tốt hơn hoặc tệ hơn các loại dữ liệu khác, chương này sẽ cố gắng làm rõ các loại nghiên cứu nào có nguồn dữ liệu lớn có đặc tính hấp dẫn và loại câu hỏi nào lý tưởng.
Khi suy nghĩ về các nguồn dữ liệu lớn, nhiều nhà nghiên cứu ngay lập tức tập trung vào dữ liệu trực tuyến được tạo ra và thu thập bởi các công ty, chẳng hạn như nhật ký công cụ tìm kiếm và bài đăng trên phương tiện truyền thông xã hội. Tuy nhiên, tiêu điểm hẹp này đã loại bỏ hai nguồn dữ liệu quan trọng khác. Thứ nhất, ngày càng có nhiều nguồn dữ liệu lớn của công ty đến từ các thiết bị kỹ thuật số trong thế giới vật chất. Ví dụ, trong chương này, tôi sẽ cho bạn biết về một nghiên cứu đã sửa lại dữ liệu kiểm tra siêu thị để nghiên cứu năng suất lao động của người lao động bị ảnh hưởng như thế nào bởi năng suất của các đồng nghiệp (Mas and Moretti 2009) . Sau đó, trong các chương sau, tôi sẽ cho bạn biết về các nhà nghiên cứu đã sử dụng các bản ghi cuộc gọi từ điện thoại di động (Blumenstock, Cadamuro, and On 2015) và dữ liệu thanh toán được tạo ra bởi các tiện ích điện (Allcott 2015) . Như những ví dụ này minh họa, các nguồn dữ liệu lớn của công ty không chỉ là hành vi trực tuyến.
Nguồn quan trọng thứ hai của dữ liệu lớn bị bỏ qua bởi sự tập trung hẹp vào hành vi trực tuyến là dữ liệu do chính phủ tạo ra. Những dữ liệu của chính phủ, mà các nhà nghiên cứu gọi là hồ sơ hành chính của chính phủ , bao gồm những thứ như hồ sơ thuế, hồ sơ trường học, và hồ sơ thống kê quan trọng (ví dụ, đăng ký khai sinh và tử vong). Chính phủ đã tạo ra những loại dữ liệu này, trong một số trường hợp, hàng trăm năm, và các nhà khoa học xã hội đã khai thác chúng trong gần như miễn là có các nhà khoa học xã hội. Tuy nhiên, điều đã thay đổi là số hóa, điều này đã giúp các chính phủ thu thập, truyền tải, lưu trữ và phân tích dữ liệu dễ dàng hơn nhiều. Ví dụ, trong chương này, tôi sẽ cho bạn biết về một nghiên cứu định lại dữ liệu từ các đồng hồ taxi kỹ thuật số của chính quyền thành phố New York để giải quyết một cuộc tranh luận cơ bản trong kinh tế lao động (Farber 2015) . Sau đó, trong các chương sau, tôi sẽ cho bạn biết về cách các hồ sơ bỏ phiếu do chính phủ thu thập được sử dụng trong một cuộc khảo sát (Ansolabehere and Hersh 2012) và một thử nghiệm (Bond et al. 2012) .
Tôi nghĩ ý tưởng tái sử dụng là nền tảng để học từ các nguồn dữ liệu lớn, và như vậy, trước khi nói cụ thể hơn về các thuộc tính của các nguồn dữ liệu lớn (phần 2.3) và cách chúng có thể được sử dụng trong nghiên cứu (phần 2.4), tôi muốn đưa ra hai lời khuyên chung về việc sử dụng lại. Đầu tiên, bạn có thể muốn suy nghĩ về sự tương phản mà tôi đã thiết lập như là giữa dữ liệu “được tìm thấy” và dữ liệu “được thiết kế”. Đó là gần, nhưng nó không hoàn toàn đúng. Mặc dù, từ quan điểm của các nhà nghiên cứu, các nguồn dữ liệu lớn được “tìm thấy”, chúng không chỉ rơi xuống từ bầu trời. Thay vào đó, các nguồn dữ liệu được "tìm thấy" bởi các nhà nghiên cứu được thiết kế bởi một ai đó cho một số mục đích. Bởi vì dữ liệu “được tìm thấy” được thiết kế bởi một người nào đó, tôi luôn khuyên bạn nên cố gắng hiểu càng nhiều càng tốt về con người và các quy trình đã tạo dữ liệu của bạn. Thứ hai, khi bạn đang sử dụng lại dữ liệu, thường rất hữu ích khi tưởng tượng tập dữ liệu lý tưởng cho vấn đề của bạn và sau đó so sánh tập dữ liệu lý tưởng đó với tập dữ liệu bạn đang sử dụng. Nếu bạn không tự thu thập dữ liệu của mình, có thể có những khác biệt quan trọng giữa những gì bạn muốn và những gì bạn có. Nhận thấy những khác biệt này sẽ giúp làm rõ những gì bạn có thể và không thể học hỏi từ dữ liệu bạn có và có thể đề xuất dữ liệu mới mà bạn nên thu thập.
Theo kinh nghiệm của tôi, các nhà khoa học xã hội và các nhà khoa học dữ liệu có khuynh hướng tiếp cận việc sử dụng lại rất khác nhau. Các nhà khoa học xã hội, những người quen với việc làm việc với dữ liệu được thiết kế cho nghiên cứu, thường nhanh chóng chỉ ra các vấn đề với dữ liệu được định vị lại trong khi bỏ qua các điểm mạnh của nó. Mặt khác, các nhà khoa học dữ liệu thường nhanh chóng chỉ ra những lợi ích của dữ liệu được định vị lại trong khi bỏ qua những điểm yếu của nó. Đương nhiên, cách tiếp cận tốt nhất là lai. Đó là, các nhà nghiên cứu cần phải hiểu các đặc tính của các nguồn dữ liệu lớn - cả tốt và xấu - và sau đó tìm ra cách học hỏi từ chúng. Và, đó là kế hoạch cho phần còn lại của chương này. Trong phần tiếp theo, tôi sẽ mô tả mười đặc điểm chung của các nguồn dữ liệu lớn. Sau đó, trong phần sau, tôi sẽ mô tả ba phương pháp nghiên cứu có thể hoạt động tốt với dữ liệu đó.