Tập dữ liệu lớn là một phương tiện để chấm dứt; họ không phải là một kết thúc trong chính mình.
Tính năng được thảo luận rộng rãi nhất của các nguồn dữ liệu lớn là chúng lớn. Nhiều giấy tờ, ví dụ, bắt đầu bằng cách thảo luận và đôi khi khoe khoang - về số lượng dữ liệu họ phân tích. Ví dụ: một bài báo được xuất bản trong Science nghiên cứu xu hướng sử dụng từ trong kho văn bản của Google Sách bao gồm những điều sau (Michel et al. 2011) :
“Tập đoàn của chúng tôi chứa hơn 500 tỷ từ, bằng tiếng Anh (361 tỷ), tiếng Pháp (45 tỷ), tiếng Tây Ban Nha (45 tỷ), tiếng Đức (37 tỷ), tiếng Trung (13 tỷ), tiếng Nga (35 tỷ) và tiếng Do Thái (2 tỷ). Các tác phẩm lâu đời nhất được xuất bản vào những năm 1500. Những thập niên đầu được thể hiện bằng một vài cuốn sách mỗi năm, bao gồm hàng trăm ngàn từ. Đến năm 1800, kho tàng phát triển tới 98 triệu từ mỗi năm; năm 1900, 1,8 tỷ đồng; và đến năm 2000, 11 tỷ. Các corpus không thể được đọc bởi một con người. Nếu bạn cố gắng chỉ đọc các bài viết bằng tiếng Anh từ năm 2000 một mình, với tốc độ hợp lý 200 từ / phút, không bị gián đoạn thức ăn hoặc ngủ, sẽ mất 80 năm. Trình tự các chữ cái dài hơn 1000 lần so với bộ gen của con người: Nếu bạn viết nó thành một đường thẳng, nó sẽ chạm tới Mặt trăng và quay lại 10 lần. ”
Quy mô của dữ liệu này chắc chắn là ấn tượng và chúng tôi rất may mắn khi nhóm Google Sách đã phát hành những dữ liệu này cho công chúng (trên thực tế, một số hoạt động ở cuối chương này sử dụng dữ liệu này). Nhưng, bất cứ khi nào bạn nhìn thấy một cái gì đó như thế này, bạn nên hỏi: là tất cả những dữ liệu đó thực sự làm bất cứ điều gì? Họ có thể thực hiện nghiên cứu tương tự nếu dữ liệu có thể chạm tới Mặt trăng và chỉ quay lại một lần không? Điều gì sẽ xảy ra nếu dữ liệu chỉ có thể đạt đến đỉnh Núi Everest hoặc đỉnh tháp Eiffel?
Trong trường hợp này, nghiên cứu của họ thực tế, có một số phát hiện đòi hỏi một lượng lớn các từ trong một khoảng thời gian dài. Ví dụ, một điều họ khám phá là sự tiến hóa của ngữ pháp, đặc biệt là những thay đổi trong tỷ lệ chia động từ bất quy tắc. Vì một số động từ bất quy tắc khá hiếm, nên một lượng lớn dữ liệu cần phải phát hiện các thay đổi theo thời gian. Tuy nhiên, quá thường xuyên, các nhà nghiên cứu dường như đối xử với kích thước của nguồn dữ liệu lớn như là một kết thúc— “xem có bao nhiêu dữ liệu tôi có thể khủng hoảng” - hơn là một phương tiện cho một số mục tiêu khoa học quan trọng hơn.
Theo kinh nghiệm của tôi, nghiên cứu về các sự kiện hiếm hoi là một trong ba kết thúc khoa học cụ thể mà các tập dữ liệu lớn có xu hướng cho phép. Thứ hai là nghiên cứu về tính không đồng nhất, có thể được minh họa bởi một nghiên cứu của Raj Chetty và các đồng nghiệp (2014) về tính di động xã hội tại Hoa Kỳ. Trong quá khứ, nhiều nhà nghiên cứu đã nghiên cứu tính di động xã hội bằng cách so sánh kết quả cuộc sống của cha mẹ và con cái. Một phát hiện nhất quán từ văn học này là cha mẹ có lợi thế có khuynh hướng có những đứa trẻ thuận lợi, nhưng sức mạnh của mối quan hệ này thay đổi theo thời gian và giữa các quốc gia (Hout and DiPrete 2006) . Gần đây hơn, tuy nhiên, Chetty và các đồng nghiệp đã có thể sử dụng hồ sơ thuế từ 40 triệu người để ước tính tính không đồng nhất trong tính di động liên thế hệ giữa các vùng ở Hoa Kỳ (hình 2.1). Ví dụ, họ tìm thấy xác suất mà một đứa trẻ đạt đến phân vị thu nhập quốc gia hàng đầu bắt nguồn từ một gia đình ở nhóm ngũ phân vị thấp nhất là khoảng 13% ở San Jose, California, nhưng chỉ khoảng 4% ở Charlotte, Bắc Carolina. Nếu bạn nhìn vào hình 2.1 trong một khoảnh khắc, bạn có thể bắt đầu tự hỏi tại sao tính di động liên thế hệ lại cao hơn ở một số nơi so với những nơi khác. Chetty và các đồng nghiệp đã có cùng một câu hỏi, và họ nhận thấy rằng các khu vực có tính di động cao có sự phân biệt dân cư ít hơn, bất bình đẳng thu nhập thấp hơn, trường tiểu học tốt hơn, vốn xã hội lớn hơn và ổn định gia đình lớn hơn. Tất nhiên, những mối tương quan này không chỉ ra rằng những yếu tố này gây ra tính di động cao hơn, nhưng chúng gợi ý các cơ chế có thể được khám phá trong công việc tiếp theo, chính xác là những gì Chetty và đồng nghiệp đã làm trong công việc tiếp theo. Lưu ý kích thước của dữ liệu thực sự quan trọng trong dự án này như thế nào. Nếu Chetty và cộng sự đã sử dụng hồ sơ thuế của 40 nghìn người thay vì 40 triệu, họ sẽ không thể ước tính tính không đồng nhất của khu vực và họ sẽ không bao giờ có thể thực hiện nghiên cứu tiếp theo để xác định các cơ chế tạo ra biến thể này.
Cuối cùng, ngoài việc nghiên cứu các sự kiện hiếm hoi và nghiên cứu tính không đồng nhất, các tập dữ liệu lớn cũng cho phép các nhà nghiên cứu phát hiện những khác biệt nhỏ. Trên thực tế, phần lớn tập trung vào dữ liệu lớn trong ngành là về những khác biệt nhỏ này: phát hiện sự khác biệt giữa tỷ lệ nhấp 1% và 1,1% trên quảng cáo có thể chuyển thành hàng triệu đô la doanh thu thêm. Tuy nhiên, trong một số thiết lập khoa học, sự khác biệt nhỏ như vậy có thể không quan trọng đặc biệt, ngay cả khi chúng có ý nghĩa thống kê (Prentice and Miller 1992) . Tuy nhiên, trong một số cài đặt chính sách, chúng có thể trở nên quan trọng khi được xem tổng hợp. Ví dụ, nếu có hai biện pháp can thiệp sức khỏe cộng đồng và một can thiệp có hiệu quả hơn một chút so với cách khác, thì việc chọn biện pháp can thiệp hiệu quả hơn có thể giúp tiết kiệm hàng ngàn cuộc sống bổ sung.
Mặc dù bigness nói chung là một tài sản tốt khi được sử dụng một cách chính xác, tôi đã nhận thấy rằng nó đôi khi có thể dẫn đến một lỗi khái niệm. Vì lý do nào đó, bigness dường như dẫn các nhà nghiên cứu bỏ qua cách dữ liệu của họ được tạo ra. Trong khi bigness làm giảm sự cần thiết phải lo lắng về lỗi ngẫu nhiên, nó thực sự làm tăng sự cần thiết phải lo lắng về lỗi hệ thống, các loại lỗi mà tôi sẽ mô tả dưới đây phát sinh từ thành kiến trong cách dữ liệu được tạo ra. Ví dụ, trong một dự án tôi sẽ mô tả sau trong chương này, các nhà nghiên cứu đã sử dụng các thông điệp được tạo ra vào ngày 11 tháng 9 năm 2001 để tạo ra một dòng thời gian cảm xúc có độ phân giải cao của phản ứng đối với cuộc tấn công khủng bố (Back, Küfner, and Egloff 2010) . Bởi vì các nhà nghiên cứu đã có một số lượng lớn các thông điệp, họ không thực sự cần phải lo lắng về việc liệu các mẫu họ có quan sát hay không - tăng sự giận dữ trong suốt cả ngày - có thể được giải thích bằng sự thay đổi ngẫu nhiên. Có rất nhiều dữ liệu và mô hình rõ ràng đến nỗi tất cả các bài kiểm tra thống kê thống kê đều cho rằng đây là một mô hình thực sự. Tuy nhiên, những thử nghiệm thống kê này không biết làm thế nào dữ liệu được tạo ra. Trong thực tế, hóa ra nhiều mô hình được quy cho một bot đơn lẻ tạo ra nhiều thông điệp vô nghĩa hơn trong suốt cả ngày. Loại bỏ một bot này đã phá hủy hoàn toàn một số phát hiện chính trong bài báo (Pury 2011; Back, Küfner, and Egloff 2011) . Rất đơn giản, các nhà nghiên cứu không nghĩ về lỗi hệ thống đối mặt với nguy cơ sử dụng các tập dữ liệu lớn của họ để có được ước tính chính xác về số lượng không quan trọng, chẳng hạn như nội dung tình cảm của các thông điệp vô nghĩa được tạo ra bởi bot tự động.
Tóm lại, các tập dữ liệu lớn không phải là kết thúc trong bản thân, nhưng chúng có thể cho phép một số loại nghiên cứu nhất định bao gồm nghiên cứu các sự kiện hiếm hoi, ước tính tính không đồng nhất và phát hiện các khác biệt nhỏ. Các tập dữ liệu lớn cũng dường như dẫn đến một số nhà nghiên cứu bỏ qua cách dữ liệu của họ được tạo ra, có thể dẫn họ đến để có được một ước tính chính xác về một số lượng không quan trọng.