2.3.1.1 Big

Tập dữ liệu lớn là một phương tiện để chấm dứt; họ không phải là một kết thúc trong chính mình.

Việc đầu tiên của ba đặc tính tốt của dữ liệu lớn là bàn luận nhiều nhất: đó là những dữ liệu lớn. Những nguồn dữ liệu có thể được lớn theo ba cách khác nhau: nhiều người, rất nhiều thông tin cho mỗi người, hoặc nhiều người quan sát theo thời gian. Có một tập dữ liệu lớn cho phép một số loại hình cụ thể của tính không đồng nhất nghiên cứu đo lường, nghiên cứu các sự kiện hiếm, phát hiện sự khác biệt nhỏ, và lập dự toán nhân quả từ dữ liệu quan sát. Nó dường như cũng dẫn đến một loại hình cụ thể của luộm thuộm.

Điều đầu tiên mà kích thước đặc biệt hữu ích đang dần vượt khỏi mức trung bình, lập dự toán cho các phân nhóm cụ thể. Ví dụ, Gary King, Jennifer Pan, và Molly Roberts (2013) đo xác suất mà gửi phương tiện truyền thông xã hội ở Trung Quốc sẽ bị kiểm duyệt của chính phủ. Bản thân xác suất trung bình này xóa không phải là rất hữu ích trong việc tìm hiểu tại sao chính phủ kiểm duyệt một số bài viết nhưng không phải người khác. Nhưng, vì dữ liệu của họ bao gồm 11 triệu bài viết, vua và các đồng nghiệp cũng sản xuất ước tính cho khả năng kiểm duyệt bài viết trên 85 chuyên mục riêng biệt (ví dụ, nội dung khiêu dâm, Tây Tạng, và giao thông ở Bắc Kinh). Bằng cách so sánh khả năng kiểm duyệt bài viết trong các chuyên mục khác nhau, họ đã có thể hiểu thêm về làm thế nào và tại sao chính phủ kiểm duyệt một số loại bài viết. Với 11.000 bài viết (hơn 11 triệu bài viết), họ sẽ không có khả năng để tạo ra những ước tính loại cụ thể.

Thứ hai, kích thước đặc biệt hữu ích cho đang nghiên cứu các sự kiện hiếm. Ví dụ, Goel và các cộng sự (2015) muốn nghiên cứu những cách thức khác nhau mà tweets có thể đi virus. Bởi vì thác lớn của tái tweets là cực kỳ hiếm trong một khoảng một 3000 họ cần phải học nhiều hơn một tỷ tweets để tìm đủ thác lớn để phân tích của họ.

Thứ ba, tập dữ liệu lớn cho phép các nhà nghiên cứu phát hiện những khác biệt nhỏ. Trong thực tế, phần lớn tập trung vào dữ liệu lớn trong ngành công nghiệp là về những khác biệt nhỏ: đáng tin cậy phát hiện sự khác biệt giữa tỉ lệ click-through 1% và 1,1% vào quảng cáo có thể lên tới hàng triệu đô la doanh thu thêm. Trong một số cài đặt khoa học, sự khác biệt nhỏ như vậy có thể không phải đặc biệt quan trọng (thậm chí nếu họ có ý nghĩa thống kê). Nhưng, trong một số thiết lập chính sách, sự khác biệt nhỏ như vậy có thể trở nên quan trọng khi xem trong tổng hợp. Ví dụ, nếu có hai biện pháp can thiệp y tế công cộng và một là hơi nhiều hiệu quả hơn khác, sau đó chuyển sang các can thiệp có hiệu quả hơn có thể sẽ tiết kiệm hàng ngàn cuộc sống thêm.

Cuối cùng, tập dữ liệu lớn làm tăng đáng kể khả năng của chúng tôi để có những ước tính quan hệ nhân quả từ dữ liệu quan sát. Mặc dù các tập dữ liệu lớn không thay đổi cơ bản các vấn đề với việc suy luận nhân quả từ dữ liệu quan sát, kết hợp và thí nghiệm hai tự nhiên kỹ thuật mà các nhà nghiên cứu đã phát triển để làm cho tuyên bố nguyên nhân từ quan sát dữ liệu cả lợi rất nhiều từ các tập dữ liệu lớn. Tôi sẽ giải thích và minh họa cho nhận định này chi tiết hơn ở phần sau khi tôi mô tả các chiến lược nghiên cứu.

Mặc dù lớn mạnh nói chung là một tài sản tốt khi được sử dụng một cách chính xác, tôi đã nhận thấy rằng lớn mạnh thường dẫn đến một lỗi về khái niệm. Đối với một số lý do, lớn mạnh dường như dẫn các nhà nghiên cứu để bỏ qua như thế nào dữ liệu của họ đã tạo ra. Trong khi lớn mạnh không làm giảm sự cần thiết phải lo lắng về sai số ngẫu nhiên, nó thực sự làm tăng sự cần thiết phải lo lắng về các lỗi hệ thống, các loại lỗi mà tôi sẽ mô tả chi tiết dưới đây phát sinh từ những thành kiến trong cách dữ liệu được tạo ra và thu thập. Trong một tập dữ liệu nhỏ, cả sai số ngẫu nhiên và sai số hệ thống có thể là quan trọng, nhưng trong một sai số ngẫu nhiên lớn dữ liệu là có thể được trung bình đi và lỗi hệ thống chiếm ưu thế. Các nhà nghiên cứu người không nghĩ về lỗi hệ thống sẽ kết thúc bằng cách sử dụng các tập dữ liệu lớn của họ để có được một ước tính chính xác của những điều sai trái; họ sẽ có chính xác không chính xác (McFarland and McFarland 2015) .