Dự đoán tương lai là khó khăn, nhưng dự đoán hiện tại là dễ dàng hơn.
Các nhà nghiên cứu chiến lược chính thứ hai có thể sử dụng với các dữ liệu quan sát được dự báo . Việc dự đoán về tương lai là nổi tiếng khó khăn, và có lẽ vì lý do đó, dự báo hiện không phải là một phần lớn của nghiên cứu xã hội (mặc dù nó là một phần nhỏ và quan trọng về nhân khẩu học, kinh tế, dịch tễ học và khoa học chính trị). Tuy nhiên, ở đây, tôi muốn tập trung vào một loại dự báo đặc biệt gọi là nowcasting — một thuật ngữ bắt nguồn từ việc kết hợp “bây giờ” và “dự báo.” Thay vì dự đoán tương lai, cố gắng sử dụng ý tưởng từ dự báo để đo trạng thái hiện tại của thế giới; nó cố gắng để "dự đoán hiện tại" (Choi and Varian 2012) . Nowcasting có tiềm năng đặc biệt hữu ích cho các chính phủ và các công ty yêu cầu các biện pháp kịp thời và chính xác của thế giới.
Một thiết lập mà nhu cầu đo lường kịp thời và chính xác là rất rõ ràng là dịch tễ học. Hãy xem xét trường hợp cúm (“cúm”). Mỗi năm, dịch cúm theo mùa gây ra hàng triệu bệnh tật và hàng trăm ngàn ca tử vong trên khắp thế giới. Hơn nữa, mỗi năm, có khả năng một dạng bệnh cúm mới có thể xuất hiện sẽ giết chết hàng triệu người. Ví dụ, dịch cúm năm 1918 được ước tính đã giết chết từ 50 đến 100 triệu người (Morens and Fauci 2007) . Do nhu cầu theo dõi và có khả năng ứng phó với dịch cúm, các chính phủ trên khắp thế giới đã tạo ra các hệ thống giám sát cúm. Ví dụ, Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) thường xuyên và thu thập hệ thống thông tin từ các bác sĩ được lựa chọn cẩn thận trên toàn quốc. Mặc dù hệ thống này tạo ra dữ liệu chất lượng cao, nhưng nó có độ trễ báo cáo. Đó là, vì thời gian cần thiết cho các dữ liệu đến từ các bác sĩ để được làm sạch, xử lý và xuất bản, hệ thống CDC đưa ra các ước tính về số lượng cúm đã xảy ra cách đây hai tuần. Tuy nhiên, khi xử lý một dịch bệnh mới nổi, các quan chức y tế công cộng không muốn biết có bao nhiêu bệnh cúm cách đây hai tuần; họ muốn biết có bao nhiêu bệnh cúm ngay bây giờ.
Đồng thời CDC đang thu thập dữ liệu để theo dõi bệnh cúm, Google cũng đang thu thập dữ liệu về tỷ lệ hiện nhiễm cúm, mặc dù ở một dạng hoàn toàn khác. Mọi người từ khắp nơi trên thế giới liên tục gửi các truy vấn tới Google và một số truy vấn này — như "biện pháp phòng ngừa cúm" và "các triệu chứng cúm" —nhiều chỉ ra rằng người đưa ra truy vấn bị cúm. Tuy nhiên, việc sử dụng các truy vấn tìm kiếm này để ước tính tỷ lệ hiện nhiễm cúm là khó khăn: không phải tất cả những người mắc bệnh cúm đều tìm kiếm liên quan đến cúm và không phải mọi tìm kiếm liên quan đến cúm là từ người bị cúm.
Jeremy Ginsberg và một nhóm các đồng nghiệp (2009) , một số tại Google và một số ở CDC, đã có ý tưởng quan trọng và thông minh để kết hợp hai nguồn dữ liệu này. Nói chung, thông qua một loại giả kim thuật thống kê, các nhà nghiên cứu đã kết hợp dữ liệu tìm kiếm nhanh và không chính xác với dữ liệu CDC chậm và chính xác để tạo ra các phép đo nhanh và chính xác về tỷ lệ mắc cúm. Một cách khác để nghĩ về nó là họ đã sử dụng dữ liệu tìm kiếm để tăng tốc dữ liệu CDC.
Cụ thể hơn, sử dụng dữ liệu từ năm 2003 đến 2007, Ginsberg và các đồng nghiệp đã ước tính mối quan hệ giữa tỷ lệ cúm trong dữ liệu CDC và khối lượng tìm kiếm cho 50 triệu cụm từ riêng biệt. Từ quá trình này, hoàn toàn dựa trên dữ liệu và không đòi hỏi kiến thức chuyên môn về y tế, các nhà nghiên cứu đã tìm thấy một bộ 45 truy vấn khác nhau dường như là tiên đoán nhất về dữ liệu tỷ lệ hiện nhiễm cúm CDC. Sau đó, bằng cách sử dụng các mối quan hệ mà họ đã học được từ dữ liệu 2003-2007, Ginsberg và các đồng nghiệp đã thử nghiệm mô hình của họ trong mùa cúm 2007-2008. Họ nhận thấy rằng các thủ tục của họ thực sự có thể tạo ra các bản tin hữu ích và chính xác (hình 2.6). Những kết quả này đã được công bố trên tạp chí Nature và nhận được sự ủng hộ của báo chí. Dự án này — được gọi là Google Xu hướng Dịch cúm — đã trở thành câu chuyện ngụ ngôn thường xuyên lặp lại về sức mạnh của dữ liệu lớn để thay đổi thế giới.
Tuy nhiên, câu chuyện thành công rõ ràng này cuối cùng đã trở thành một sự bối rối. Theo thời gian, các nhà nghiên cứu đã phát hiện ra hai giới hạn quan trọng khiến Google Xu hướng dịch cúm kém ấn tượng so với ban đầu. Thứ nhất, hiệu suất của Google Xu hướng dịch cúm thực sự không tốt hơn nhiều so với mô hình đơn giản ước tính số lượng dịch cúm dựa trên ngoại suy tuyến tính từ hai lần đo lường cúm mới nhất (Goel et al. 2010) . Và, trong một khoảng thời gian, Google Xu hướng dịch cúm thực sự tồi tệ hơn phương pháp đơn giản này (Lazer et al. 2014) . Nói cách khác, Google Xu hướng dịch cúm với tất cả dữ liệu, học máy và tính toán mạnh mẽ của nó không làm tốt hơn đáng kể một cách đơn giản và dễ hiểu hơn. Điều này gợi ý rằng khi đánh giá bất kỳ dự báo hoặc thời gian nào, điều quan trọng là phải so sánh với đường cơ sở.
Lời cảnh báo quan trọng thứ hai về Google Xu hướng dịch cúm là khả năng dự đoán dữ liệu cúm CDC dễ bị thất bại ngắn hạn và suy giảm lâu dài do sự lúng túng và thuật toán . Ví dụ, trong đợt dịch cúm heo năm 2009, Google Xu hướng dịch cúm đã đánh giá quá cao lượng cúm, có lẽ vì mọi người có xu hướng thay đổi hành vi tìm kiếm của họ để đối phó với nỗi sợ hãi của đại dịch toàn cầu (Cook et al. 2011; Olson et al. 2013) . Ngoài những vấn đề ngắn hạn, hiệu suất dần dần bị hư hỏng theo thời gian. Việc chẩn đoán lý do cho sự phân rã dài hạn này rất khó vì thuật toán tìm kiếm của Google là độc quyền, nhưng có vẻ như trong năm 2011, Google bắt đầu đề xuất các cụm từ tìm kiếm có liên quan khi mọi người tìm kiếm các triệu chứng cúm như “sốt” và “ho” tính năng này không còn hoạt động nữa). Việc thêm tính năng này là điều hoàn toàn hợp lý nếu bạn đang chạy công cụ tìm kiếm, nhưng thay đổi thuật toán này có tác dụng tạo ra nhiều tìm kiếm liên quan đến sức khỏe hơn khiến Google Xu hướng dịch cúm đánh giá quá cao tỷ lệ hiện nhiễm cúm (Lazer et al. 2014) .
Hai điều này làm phức tạp những nỗ lực hiện tại trong tương lai, nhưng chúng không làm họ thất vọng. Trong thực tế, bằng cách sử dụng các phương pháp cẩn thận hơn, Lazer et al. (2014) và Yang, Santillana, and Kou (2015) đã có thể tránh được hai vấn đề này. Trong tương lai, tôi hy vọng rằng các nghiên cứu hiện đại kết hợp các nguồn dữ liệu lớn với dữ liệu do nhà nghiên cứu thu thập sẽ cho phép các công ty và chính phủ tạo ra các ước tính chính xác hơn và kịp thời hơn bằng cách đẩy nhanh bất kỳ phép đo nào được thực hiện liên tục theo thời gian. Các dự án đang phát triển như Google Xu hướng Dịch cúm cũng cho thấy điều gì có thể xảy ra nếu các nguồn dữ liệu lớn được kết hợp với nhiều dữ liệu truyền thống được tạo cho mục đích nghiên cứu. Nghĩ lại tương tự nghệ thuật của chương 1, nowcasting có khả năng kết hợp các kiểu đọc theo phong cách Duchamp với các tùy chỉnh theo phong cách Michelangelo để cung cấp cho các nhà ra quyết định với các phép đo kịp thời và chính xác hơn về hiện tại và dự đoán trong tương lai gần.