2.4.2 Dự báo và nowcasting

Dự đoán tương lai là khó khăn, nhưng dự đoán hiện tại là dễ dàng hơn.

Chiến lược chính thứ hai được sử dụng bởi các nhà nghiên cứu với dữ liệu quan sát dự báo. Dự đoán tương lai là rất khó khăn, nhưng nó có thể là vô cùng quan trọng đối với các nhà sản xuất quyết định, cho dù họ làm việc trong các công ty hoặc chính phủ.

Kleinberg et al. (2015) cung cấp hai tầng làm rõ tầm quan trọng của dự báo cho các vấn đề chính sách nhất định. Hãy tưởng tượng một người làm chính sách, tôi sẽ gọi cho Anna của cô, người đang đối mặt với hạn hán và phải quyết định có nên thuê một pháp sư để làm một điệu nhảy mưa để tăng cơ hội của mưa. Một người làm chính sách, tôi sẽ gọi ông Bob, phải quyết định xem có nên lấy một chiếc ô để làm việc để tránh bị ướt trên đường về nhà. Cả hai Anna và Bob có thể đưa ra quyết định tốt hơn nếu họ hiểu thời tiết, nhưng họ cần biết những điều khác nhau. Anna cần để hiểu xem múa mưa gây ra mưa. Bob, mặt khác, không cần hiểu biết gì về quan hệ nhân quả; ông chỉ cần một dự báo chính xác. Các nhà nghiên cứu xã hội thường tập trung vào những gì Kleinberg et al. (2015) gọi vấn đề-những chính sách "mưa múa giống như" tập trung vào quan hệ nhân quả và bỏ qua các vấn đề chính sách "chiếc ô" mà tập trung vào dự báo.

Tôi muốn tập trung, tuy nhiên, vào một loại đặc biệt của dự báo gọi nowcasting -a hạn xuất phát từ kết hợp "bây giờ" và "dự báo". Thay vì dự đoán tương lai, nowcasting nỗ lực để dự đoán hiện nay (Choi and Varian 2012) . Nói cách khác, nowcasting sử dụng phương pháp dự báo cho các vấn đề về đo lường. Như vậy, nó phải là đặc biệt hữu ích cho các chính phủ những người đòi hỏi các biện pháp kịp thời và chính xác về các quốc gia của họ. Nowcasting có thể được minh họa rõ ràng nhất với ví dụ của Google Trends cúm.

Hãy tưởng tượng rằng bạn đang cảm thấy một chút theo thời tiết, do đó bạn gõ "thuốc cúm" vào một công cụ tìm kiếm, nhận được một trang của các liên kết trong phản ứng, và sau đó làm theo một trong số họ đến một trang web hữu ích. Bây giờ hãy tưởng tượng hoạt động này được diễn ra từ quan điểm của các công cụ tìm kiếm. Mỗi khoảnh khắc, hàng triệu truy vấn đến từ khắp nơi trên thế giới, và dòng này của các truy vấn có gì Battelle (2006) đã được gọi là "cơ sở dữ liệu về ý định" - cung cấp một cửa sổ cập nhật liên tục vào ý thức toàn cầu tập thể. Tuy nhiên, biến dòng thông tin này vào một thước đo của sự phổ biến của bệnh cúm là khó khăn. Đơn giản chỉ cần đếm lên số truy vấn cho "phương thuốc cúm" có thể không làm việc tốt. Không phải ai có tìm kiếm cúm cho thuốc cúm và không ai tìm kiếm các biện pháp cúm có cúm.

Bí quyết quan trọng và thông minh đằng sau Google Trends cúm đã biến một vấn đề đo lường vào một vấn đề dự báo. Các Trung tâm Kiểm soát và Phòng ngừa dịch bệnh (CDC) có một hệ thống giám sát cúm thu thập thông tin từ các bác sĩ trên khắp đất nước. Tuy nhiên, một vấn đề với hệ thống CDC này là có một báo cáo trễ hai tuần; thời gian cần thiết cho các dữ liệu đến từ các bác sĩ để được làm sạch, xử lý, và công bố. Tuy nhiên, khi xử lý dịch bệnh mới nổi, các cơ quan y tế công cộng không muốn biết bao nhiêu cúm đã có hai tuần trước; họ muốn biết có bao nhiêu cúm có ngay bây giờ. Trong thực tế, tại nhiều nguồn truyền thống khác của dữ liệu xã hội, có những khoảng trống giữa các sóng thu thập dữ liệu và độ trễ báo cáo. Hầu hết các nguồn dữ liệu lớn, mặt khác, luôn-on (mục 2.3.1.2).

Do đó, Jeremy Ginsberg và các cộng sự (2009) đã cố gắng để dự đoán các dữ liệu dịch cúm CDC từ các dữ liệu tìm kiếm của Google. Đây là một ví dụ về "dự đoán hiện tại" bởi vì các nhà nghiên cứu đang cố gắng để đo lường bao nhiêu dịch cúm hiện nay là bằng cách dự đoán dữ liệu trong tương lai từ CDC, dữ liệu trong tương lai mà được đo lường hiện tại. Sử dụng máy tính học tập, họ đã tìm kiếm thông qua 50 triệu điều kiện tìm kiếm khác nhau để xem đó là dự đoán hầu hết các dữ liệu dịch cúm của CDC. Cuối cùng, họ đã tìm thấy một bộ 45 câu truy vấn khác nhau mà dường như là tiên đoán nhất, và kết quả là khá tốt: họ có thể sử dụng các dữ liệu tìm kiếm để dự đoán các dữ liệu của CDC. Một phần dựa trên giấy này, được công bố trên tạp chí Nature, Google Trends cúm đã trở thành một câu chuyện thành công thường lặp đi lặp lại về sức mạnh của dữ liệu lớn.

Có hai cảnh báo quan trọng cho sự thành công rõ ràng này, tuy nhiên, và sự hiểu biết những hãy cẩn thận sẽ giúp bạn đánh giá và làm dự báo và nowcasting. Đầu tiên, hiệu suất của Google Trends cúm chưa được thực hiện tốt hơn nhiều so với một mô hình đơn giản mà ước tính số lượng của dịch cúm dựa trên một phép ngoại suy tuyến tính từ hai phép đo gần đây nhất của nhiễm cúm (Goel et al. 2010) . Và, trên một số khoảng thời gian dịch cúm hoặc Google Trends là thực sự tồi tệ hơn so với phương pháp này đơn giản (Lazer et al. 2014) . Nói cách khác, Google Trends với tất cả các dữ liệu của nó, học máy, và máy tính mạnh mẽ cúm không tốt hơn đáng kể một cách đơn giản và dễ dàng hơn để hiểu heuristic. Điều này cho thấy khi đánh giá bất kỳ dự báo hoặc nowcast điều quan trọng là để so sánh với một đường cơ sở.

Sự cảnh báo quan trọng thứ hai về Google Xu hướng Dịch cúm rằng khả năng của nó để dự đoán dữ liệu dịch cúm của CDC là dễ bị thất bại ngắn hạn và sâu dài hạn vì trôigây nhiễu thuật toán. Ví dụ, trong năm 2009 dịch cúm lợn Google Trends cúm đột ngột qua ước tính số lượng của bệnh cúm, có lẽ bởi vì mọi người có xu hướng thay đổi hành vi tìm kiếm của họ để đáp ứng với sự sợ hãi lan rộng của một đại dịch toàn cầu (Cook et al. 2011; Olson et al. 2013) . Ngoài những vấn đề ngắn hạn, việc thực hiện dần dần mục nát theo thời gian. Chẩn đoán nguyên nhân sâu dài hạn này là khó khăn bởi vì các thuật toán tìm kiếm của Google là độc quyền, nhưng nó xuất hiện trong năm 2011, Google đã thay đổi mà sẽ đề nghị thuật ngữ tìm kiếm liên quan đến khi mọi người tìm kiếm các triệu chứng như "cơn sốt" và "ho" (nó cũng có vẻ rằng tính năng này không còn hoạt động). Thêm tính năng này là một điều hoàn toàn hợp lý để làm gì nếu bạn đang chạy một doanh nghiệp công cụ tìm kiếm, và nó có tác dụng tạo ra các tìm kiếm liên quan đến sức khỏe nhiều hơn. Đây có thể là một thành công cho doanh nghiệp, nhưng nó gây ra Google Trends cúm để nhiễm cúm bán ước tính (Lazer et al. 2014) .

May mắn thay, những vấn đề này với Google Trends cúm là có thể cứu vãn. Trong thực tế, sử dụng phương pháp cẩn thận hơn, Lazer et al. (2014)Yang, Santillana, and Kou (2015) đã có thể để có được kết quả tốt hơn. Trong tương lai, tôi hy vọng rằng nghiên cứu nowcasting kết hợp dữ liệu lớn với nhà nghiên cứu thu thập dữ liệu kết hợp readymades Duchamp-phong cách với Michaelangelo kiểu Custommades-sẽ cho phép các nhà sản xuất chính sách để sản xuất nhanh hơn và chính xác hơn đo của hiện tại và dự đoán về tương lai.