Dữ liệu được tổ chức bởi các công ty và chính phủ rất khó cho các nhà nghiên cứu truy cập.
Vào tháng 5 năm 2014, Cơ quan an ninh quốc gia Hoa Kỳ đã mở một trung tâm dữ liệu ở vùng nông thôn Utah với một cái tên vụng về, Trung tâm dữ liệu sáng kiến toàn diện về an ninh quốc gia về tình báo cộng đồng thông minh. Tuy nhiên, trung tâm dữ liệu này, được gọi là Trung tâm dữ liệu Utah, được cho là có khả năng đáng kinh ngạc. Một báo cáo cáo buộc rằng nó có thể lưu trữ và xử lý tất cả các hình thức liên lạc bao gồm “nội dung đầy đủ của email cá nhân, cuộc gọi điện thoại di động và tìm kiếm của Google, cũng như tất cả các loại dữ liệu cá nhân - biên lai đỗ xe, hành trình du lịch, mua sách và “túi rác” kỹ thuật số khác (Bamford 2012) . Ngoài việc nâng cao mối quan tâm về tính chất nhạy cảm của phần lớn thông tin được thu thập trong dữ liệu lớn, chúng sẽ được mô tả bên dưới, Trung tâm Dữ liệu Utah là một ví dụ cực đoan về nguồn dữ liệu phong phú mà các nhà nghiên cứu không thể tiếp cận. Nói chung, nhiều nguồn dữ liệu lớn hữu ích được kiểm soát và hạn chế bởi chính phủ (ví dụ: dữ liệu thuế và dữ liệu giáo dục) hoặc các công ty (ví dụ: truy vấn công cụ tìm kiếm và siêu dữ liệu cuộc gọi điện thoại). Do đó, mặc dù các nguồn dữ liệu này tồn tại, chúng vô dụng vì mục đích nghiên cứu xã hội vì chúng không thể tiếp cận được.
Theo kinh nghiệm của tôi, nhiều nhà nghiên cứu có trụ sở tại các trường đại học hiểu sai nguồn gốc của sự không thể tiếp cận này. Những dữ liệu này không thể tiếp cận được vì không phải mọi người ở các công ty và chính phủ đều ngu ngốc, lười biếng hoặc không quan tâm. Thay vào đó, có những rào cản pháp lý, kinh doanh và đạo đức nghiêm trọng ngăn chặn truy cập dữ liệu. Ví dụ: một số thỏa thuận điều khoản dịch vụ cho trang web chỉ cho phép nhân viên sử dụng dữ liệu hoặc để cải thiện dịch vụ. Vì vậy, một số hình thức chia sẻ dữ liệu nhất định có thể khiến các công ty đưa ra các vụ kiện hợp pháp từ khách hàng. Ngoài ra còn có những rủi ro kinh doanh đáng kể cho các công ty liên quan đến việc chia sẻ dữ liệu. Hãy thử tưởng tượng công chúng sẽ phản hồi như thế nào nếu dữ liệu tìm kiếm cá nhân vô tình bị rò rỉ khỏi Google như là một phần của dự án nghiên cứu đại học. Vi phạm dữ liệu như vậy, nếu cực đoan, thậm chí có thể là một rủi ro tồn tại đối với công ty. Vì vậy, Google — và hầu hết các công ty lớn - đều rất rủi ro khi chia sẻ dữ liệu với các nhà nghiên cứu.
Trong thực tế, hầu như tất cả mọi người ở một vị trí để cung cấp quyền truy cập vào một lượng lớn dữ liệu đều biết câu chuyện của Abdur Chowdhury. Năm 2006, khi ông là người đứng đầu nghiên cứu tại AOL, ông cố ý phát hành cho cộng đồng nghiên cứu những gì ông nghĩ là các truy vấn tìm kiếm ẩn danh từ 650.000 người dùng AOL. Theo như tôi có thể nói, Chowdhury và các nhà nghiên cứu tại AOL có ý định tốt, và họ nghĩ rằng họ đã ẩn danh dữ liệu. Nhưng họ đã sai. Nó đã nhanh chóng phát hiện ra rằng dữ liệu không phải là vô danh như các nhà nghiên cứu nghĩ, và các phóng viên từ New York Times đã có thể xác định ai đó trong tập dữ liệu một cách dễ dàng (Barbaro and Zeller 2006) . Một khi những vấn đề này được phát hiện, Chowdhury đã xóa dữ liệu khỏi trang web của AOL, nhưng đã quá muộn. Dữ liệu đã được đăng lại trên các trang web khác và có thể vẫn có sẵn khi bạn đọc cuốn sách này. Chowdhury bị sa thải, và giám đốc công nghệ của AOL đã từ chức (Hafner 2006) . Như ví dụ này cho thấy, những lợi ích cho các cá nhân cụ thể bên trong các công ty để tạo thuận lợi cho việc truy cập dữ liệu là khá nhỏ và kịch bản xấu nhất là khủng khiếp.
Tuy nhiên, các nhà nghiên cứu có thể truy cập vào dữ liệu mà công chúng không thể tiếp cận được. Một số chính phủ có các thủ tục mà các nhà nghiên cứu có thể làm theo để xin tiếp cận, và như các ví dụ sau trong chương này, các nhà nghiên cứu đôi khi có thể truy cập vào dữ liệu của công ty. Ví dụ, Einav et al. (2015) hợp tác với một nhà nghiên cứu tại eBay để nghiên cứu đấu giá trực tuyến. Tôi sẽ nói nhiều hơn về nghiên cứu đến từ sự hợp tác này trong chương sau, nhưng tôi đề cập đến nó bởi vì nó có tất cả bốn thành phần mà tôi thấy trong quan hệ đối tác thành công. . Tôi đã nhìn thấy nhiều sự hợp tác tiềm năng không thành công vì một trong hai nhà nghiên cứu hoặc đối tác - có thể là một công ty hay chính phủ - thiếu một trong những thành phần này.
Ngay cả khi bạn có thể phát triển quan hệ đối tác với một doanh nghiệp hoặc có quyền truy cập vào dữ liệu của chính phủ bị hạn chế, tuy nhiên, có một số nhược điểm cho bạn. Đầu tiên, có thể bạn sẽ không thể chia sẻ dữ liệu của mình với các nhà nghiên cứu khác, điều đó có nghĩa là các nhà nghiên cứu khác sẽ không thể xác minh và mở rộng kết quả của bạn. Thứ hai, các câu hỏi mà bạn có thể hỏi có thể bị giới hạn; các công ty ít có khả năng cho phép nghiên cứu có thể khiến họ trông xấu. Cuối cùng, các quan hệ đối tác này có thể tạo ra ít nhất sự xuất hiện của xung đột lợi ích, nơi mọi người có thể nghĩ rằng kết quả của bạn bị ảnh hưởng bởi quan hệ đối tác của bạn. Tất cả những nhược điểm này có thể được giải quyết, nhưng điều quan trọng là phải rõ ràng rằng làm việc với dữ liệu mà không thể truy cập được với mọi người đều có cả các mặt tích cực và nhược điểm.
Tóm lại, rất nhiều dữ liệu lớn không thể tiếp cận được với các nhà nghiên cứu. Có những rào cản pháp lý, kinh doanh và đạo đức nghiêm trọng ngăn chặn truy cập dữ liệu, và những rào cản này sẽ không biến mất khi công nghệ cải thiện vì chúng không phải là rào cản kỹ thuật. Một số chính phủ quốc gia đã thiết lập các thủ tục cho phép truy cập dữ liệu đối với một số bộ dữ liệu, nhưng quá trình này đặc biệt đặc biệt ở cấp tiểu bang và địa phương. Ngoài ra, trong một số trường hợp, các nhà nghiên cứu có thể hợp tác với các công ty để có được truy cập dữ liệu, nhưng điều này có thể tạo ra một loạt các vấn đề cho các nhà nghiên cứu và công ty.