2.4.2 Ramalan dan nowcasting

Meramalkan masa depan adalah sukar, tetapi meramalkan masa kini adalah lebih mudah.

Strategi utama kedua yang digunakan oleh penyelidik dengan data pemerhatian meramalkan. Meramalkan masa depan adalah terkenal sukar, tetapi ia boleh menjadi sangat penting bagi pembuat keputusan, sama ada mereka bekerja dalam syarikat-syarikat atau kerajaan.

Kleinberg et al. (2015) menawarkan dua cerita-cerita yang menjelaskan kepentingan ramalan untuk masalah dasar tertentu. Bayangkan satu pembuat dasar, saya akan memanggil Anna beliau, yang menghadapi kemarau dan mesti membuat keputusan sama ada untuk mengupah bomoh untuk melakukan tarian hujan untuk meningkatkan peluang hujan. Satu lagi pembuat dasar, saya akan memanggilnya Bob, perlu membuat keputusan sama ada untuk mengambil payung untuk bekerja untuk mengelakkan diri daripada basah dalam perjalanan pulang. Kedua-dua Anna dan Bob boleh membuat keputusan yang lebih baik jika mereka memahami cuaca, tetapi mereka perlu tahu perkara yang berbeza. Anna perlu memahami sama ada tarian hujan menyebabkan hujan. Bob, di sisi lain, tidak perlu untuk memahami apa-apa mengenai sebab dan akibat; dia hanya perlu ramalan tepat. Penyelidik sosial sering memberi tumpuan kepada apa yang Kleinberg et al. (2015) memanggil "hujan tarian seperti" Dasar masalah-yang memberi tumpuan kepada sebab-musabab dan mengabaikan masalah-masalah dasar "payung seperti" yang memberi tumpuan ke atas peramalan.

Saya ingin memberi tumpuan, bagaimanapun, pada sejenis khas ramalan dipanggil nowcasting -a istilah yang berasal dari menggabungkan "sekarang" dan "ramalan." Daripada meramalkan masa depan, nowcasting percubaan untuk meramalkan masa kini (Choi and Varian 2012) . Dengan kata lain, nowcasting menggunakan kaedah peramalan untuk masalah ukuran. Oleh itu, ia perlu menjadi amat berguna kepada kerajaan yang memerlukan langkah-langkah yang tepat pada masanya dan tepat mengenai negara mereka. Nowcasting boleh digambarkan dengan jelas dengan contoh Google Trend Flu.

Bayangkan bahawa anda berasa sedikit di bawah cuaca supaya anda menaip "ubat flu" ke dalam enjin carian, menerima halaman pautan dalam tindak balas, dan kemudian ikut salah seorang daripada mereka ke laman web membantu. Sekarang bayangkan aktiviti ini sedang dimainkan dari perspektif enjin carian. Setiap detik, berjuta-juta pertanyaan tiba dari seluruh dunia, dan aliran ini pertanyaan-apa Battelle (2006) telah dipanggil "pangkalan data niat" - menyediakan tetingkap sentiasa dikemaskini ke dalam kesedaran global kolektif. Walau bagaimanapun, menukarkan aliran ini maklumat ke dalam ukuran kelaziman selesema adalah sukar. Hanya mengira sehingga bilangan pertanyaan untuk "ubat flu" mungkin tidak berfungsi dengan baik. Tidak semua orang yang mempunyai carian selesema remedi selesema dan tidak semua orang yang pencari untuk ubat selesema mempunyai selesema.

Itu helah penting dan pandai di belakang Google Trend Flu adalah untuk menutup masalah pengukuran menjadi masalah peramalan. Pusat Kawalan dan Pencegahan Penyakit (CDC) mempunyai sistem pemantauan influenza yang mengumpul maklumat dari doktor di seluruh negara. Walau bagaimanapun, satu masalah dengan sistem CDC ini terdapat laporan lag dua minggu; masa yang diambil untuk data yang tiba dari doktor untuk dibersihkan, diproses, dan diterbitkan. Tetapi, apabila mengendalikan wabak baru muncul, pejabat kesihatan awam tidak mahu tahu berapa banyak influenza terdapat dua minggu lalu; mereka ingin tahu berapa banyak influenza terdapat sekarang. Malah, dalam banyak sumber-sumber tradisional lain data sosial, terdapat jurang antara gelombang pengumpulan data dan kecil sedemikian pelaporan. Kebanyakan sumber data yang besar, di sisi lain, sentiasa-on (Seksyen 2.3.1.2).

Oleh itu, Jeremy Ginsberg dan rakan-rakan (2009) cuba untuk meramalkan selesema data CDC daripada data carian Google. Ini adalah satu contoh "meramalkan hadir" kerana para penyelidik cuba untuk mengukur berapa banyak selesema kini terdapat dengan meramalkan data masa hadapan daripada CDC, data masa depan yang berukuran masa kini. Menggunakan pembelajaran mesin, mereka mencari melalui 50 juta istilah carian yang berbeza untuk melihat yang paling ramalan data selesema CDC. Akhirnya, mereka mendapati satu set 45 pertanyaan yang berbeza yang seolah-olah menjadi yang paling ramalan, dan hasilnya agak baik: mereka boleh menggunakan data carian untuk meramalkan data CDC. Berdasarkan sebahagiannya di atas kertas ini, yang diterbitkan dalam Nature, Google Trend Flu menjadi kisah kejayaan sering berulang tentang kuasa data yang besar.

Terdapat dua kaveat penting untuk kejayaan ini jelas, bagaimanapun, dan memahami kaveat ini akan membantu anda menilai dan melakukan ramalan dan nowcasting. Pertama, prestasi Google Trend Flu sebenarnya tidak lebih baik daripada model mudah yang menganggarkan jumlah selesema berdasarkan ekstrapolasi linear dari kedua-dua ukuran paling baru-baru selesema kelaziman (Goel et al. 2010) . Dan, dari beberapa tempoh masa Flu Google Trend sebenarnya lebih teruk daripada pendekatan yang mudah ini (Lazer et al. 2014) . Dalam erti kata lain, Google Trend Flu dengan semua data, pembelajaran mesin dan pengkomputeran berkuasa tidak secara mendadak mengatasi yang mudah dan mudah untuk memahami heuristik. Ini menunjukkan bahawa apabila menilai apa-apa ramalan atau nowcast adalah penting untuk membandingkan terhadap garis asas.

Kaveat penting kedua mengenai Google Trend Flu adalah bahawa keupayaan untuk meramalkan selesema data CDC itu adalah terdedah kepada kegagalan jangka pendek dan kerosakan jangka panjang kerana hanyut dan membaurkan algoritma. Sebagai contoh, semasa 2009 wabak Swine Flu Google Trend Flu secara mendadak lebih-menganggarkan jumlah influenza, mungkin kerana orang cenderung untuk mengubah tingkah laku carian mereka sebagai tindak balas kepada ketakutan meluas pandemik global (Cook et al. 2011; Olson et al. 2013) . Selain daripada masalah jangka pendek, prestasi secara beransur-ansur reput dari masa ke masa. Mendiagnosis sebab-sebab kerosakan jangka panjang ini adalah sukar kerana algoritma carian Google adalah hak milik, tetapi ternyata bahawa pada tahun 2011 Google membuat perubahan yang akan mencadangkan istilah carian berkaitan apabila orang mencari tanda-tanda seperti "demam" dan "batuk" (ia juga seolah-olah bahawa ciri ini tidak lagi aktif). Menambah ciri-ciri ini adalah satu perkara yang benar-benar munasabah yang perlu dilakukan jika anda menjalankan perniagaan enjin carian, dan ia mempunyai kesan menjana lebih banyak carian kesihatan yang berkaitan. Ini mungkin satu kejayaan bagi perniagaan, tetapi ia menyebabkan Google Trend Flu kepada lebih-anggaran selesema kelaziman (Lazer et al. 2014) .

Nasib baik, masalah-masalah ini dengan Google Trend Flu boleh dibetulkan. Malah, dengan menggunakan kaedah yang lebih berhati-hati, Lazer et al. (2014) dan Yang, Santillana, and Kou (2015) mampu untuk mendapatkan keputusan yang lebih baik. Melangkah ke hadapan, saya menjangkakan bahawa kajian nowcasting yang menggabungkan data yang besar dengan penyelidik mengumpul data-yang menggabungkan Readymades gaya Duchamp dengan gaya Michaelangelo Custommades-akan membolehkan pembuat dasar untuk menghasilkan ukuran yang lebih cepat dan lebih tepat di dunia dan ramalan masa depan.