Memprediksi masa depan adalah sulit, tapi memprediksi saat ini lebih mudah.
Strategi utama kedua digunakan oleh peneliti dengan data pengamatan adalah peramalan. Memprediksi masa depan ini sangat sulit, tapi bisa sangat penting bagi para pengambil keputusan, apakah mereka bekerja di perusahaan atau pemerintah.
Kleinberg et al. (2015) menawarkan dua cerita yang memperjelas pentingnya peramalan untuk masalah kebijakan tertentu. Bayangkan satu pembuat kebijakan, saya akan memanggil Anna nya, yang menghadapi kekeringan dan harus memutuskan apakah akan menyewa dukun untuk melakukan tarian hujan untuk meningkatkan kemungkinan hujan. Pembuat kebijakan lain, aku akan memanggilnya Bob, harus memutuskan apakah akan membawa payung untuk bekerja untuk menghindari basah dalam perjalanan pulang. Kedua Anna dan Bob dapat membuat keputusan yang lebih baik jika mereka memahami cuaca, tetapi mereka harus mengetahui hal-hal yang berbeda. Anna perlu memahami apakah tari hujan menyebabkan hujan. Bob, di sisi lain, tidak perlu memahami apa-apa tentang kausalitas; ia hanya perlu perkiraan yang akurat. Peneliti sosial sering fokus pada apa yang Kleinberg et al. (2015) menyebutnya "hujan tari-seperti" kebijakan masalah-mereka yang fokus pada kausalitas-dan mengabaikan "payung-seperti" masalah kebijakan yang difokuskan pada peramalan.
Saya ingin fokus, namun, pada jenis khusus dari peramalan disebut nowcasting -a istilah yang berasal dari menggabungkan "sekarang" dan "peramalan." Daripada memprediksi masa depan, nowcasting upaya untuk memprediksi hadir (Choi and Varian 2012) . Dengan kata lain, nowcasting menggunakan metode peramalan untuk masalah pengukuran. Dengan demikian, itu harus sangat berguna bagi pemerintah yang membutuhkan tindakan yang tepat waktu dan akurat tentang negara mereka. Nowcasting dapat diilustrasikan paling jelas dengan contoh Google Flu Trends.
Bayangkan bahwa Anda merasa sedikit di bawah cuaca sehingga Anda mengetik "obat flu" ke mesin pencari, menerima halaman link di respon, dan kemudian ikuti salah satu dari mereka untuk halaman web membantu. Sekarang bayangkan kegiatan ini sedang dimainkan dari sudut pandang mesin pencari. Setiap saat, jutaan permintaan tiba dari seluruh dunia, dan aliran ini pertanyaan-apa Battelle (2006) menyebut "database niat" - menyediakan jendela terus diperbarui ke dalam kesadaran global kolektif. Namun, mengubah aliran informasi ini menjadi pengukuran prevalensi flu sulit. Hanya menghitung sampai jumlah permintaan untuk "obat flu" mungkin tidak bekerja dengan baik. Tidak semua orang yang memiliki pencarian flu untuk obat flu dan tidak semua orang yang pencari untuk obat flu memiliki flu.
Trik penting dan cerdas belakang Google Flu Trends adalah untuk mengubah masalah pengukuran menjadi masalah peramalan. US Centers for Disease Control dan Pencegahan (CDC) memiliki sistem pemantauan influenza yang mengumpulkan informasi dari dokter di seluruh negeri. Namun, satu masalah dengan sistem CDC ini ada pelaporan lag dua minggu; waktu yang diperlukan untuk data yang datang dari dokter untuk dibersihkan, diproses, dan diterbitkan. Tapi, ketika menangani epidemi muncul, kantor kesehatan masyarakat tidak ingin tahu berapa banyak influenza ada dua minggu lalu; mereka ingin tahu berapa banyak influenza ada sekarang. Bahkan, di banyak sumber tradisional lainnya data sosial, ada kesenjangan antara gelombang pengumpulan data dan pelaporan tertinggal. Kebanyakan sumber data yang besar, di sisi lain, selalu-on (Bagian 2.3.1.2).
Oleh karena itu, Jeremy Ginsberg dan rekan (2009) mencoba untuk memprediksi data flu CDC dari data pencarian Google. Ini adalah contoh dari "memprediksi hadir" karena para peneliti mencoba untuk mengukur berapa banyak flu sekarang ada dengan memprediksi data masa depan dari CDC, data masa depan yang mengukur saat ini. Menggunakan mesin belajar, mereka mencari melalui 50 juta istilah pencarian yang berbeda untuk melihat mana yang paling prediktif dari data flu CDC. Pada akhirnya, mereka menemukan satu set 45 pertanyaan yang berbeda yang tampaknya paling prediktif, dan hasilnya cukup baik: mereka bisa menggunakan data pencarian untuk memprediksi data CDC. Sebagian didasarkan pada makalah ini, yang diterbitkan di Nature, Google Flu Trends menjadi kisah sukses sering diulang tentang kekuatan data besar.
Ada dua peringatan penting untuk keberhasilan nyata ini, bagaimanapun, dan memahami peringatan ini akan membantu Anda mengevaluasi dan melakukan peramalan dan nowcasting. Pertama, kinerja Google Flu Trends sebenarnya tidak jauh lebih baik daripada model sederhana yang memperkirakan jumlah flu didasarkan pada ekstrapolasi linear dari dua pengukuran terbaru dari prevalensi flu (Goel et al. 2010) . Dan, lebih dari beberapa periode waktu Flu Google Trends benar-benar lebih buruk daripada pendekatan sederhana ini (Lazer et al. 2014) . Dengan kata lain, Google Flu Trends dengan semua data, pembelajaran mesin, dan komputasi yang kuat tidak secara dramatis mengungguli sederhana dan mudah dimengerti heuristik. Hal ini menunjukkan bahwa ketika mengevaluasi perkiraan atau nowcast penting untuk membandingkan terhadap baseline.
Peringatan penting kedua tentang Google Flu Trends adalah bahwa kemampuannya untuk memprediksi data flu CDC adalah rentan terhadap kegagalan jangka pendek dan pembusukan jangka panjang karena hanyut dan membingungkan algoritmik. Misalnya, selama 2009 Flu Babi wabah Google Flu Trends secara dramatis selama-perkiraan jumlah influenza, mungkin karena orang cenderung untuk mengubah perilaku pencarian mereka dalam menanggapi ketakutan meluas dari pandemi global (Cook et al. 2011; Olson et al. 2013) . Selain masalah jangka pendek ini, kinerja secara bertahap membusuk dari waktu ke waktu. Mendiagnosis alasan untuk pembusukan jangka panjang ini sulit karena algoritma pencarian Google adalah proprietary, tetapi tampaknya bahwa di 2011 membuat perubahan yang akan menyarankan istilah pencarian terkait ketika orang mencari gejala seperti "demam" dan "batuk" (itu juga tampak bahwa fitur ini tidak aktif lagi). Menambahkan fitur ini adalah hal yang benar-benar masuk akal untuk dilakukan jika Anda menjalankan bisnis mesin pencari, dan memiliki efek menghasilkan lebih banyak pencarian yang terkait dengan kesehatan. Ini mungkin sukses untuk bisnis, tapi itu menyebabkan Google Flu Trends untuk prevalensi flu over-estimasi (Lazer et al. 2014) .
Untungnya, masalah ini dengan Google Flu Trends yang diperbaiki. Bahkan, menggunakan metode yang lebih hati-hati, Lazer et al. (2014) dan Yang, Santillana, and Kou (2015) bisa mendapatkan hasil yang lebih baik. Ke depan, saya berharap bahwa penelitian nowcasting yang menggabungkan data besar dengan peneliti mengumpulkan data-yang menggabungkan readymades Duchamp-gaya dengan Michaelangelo-gaya Custommades-akan memungkinkan para pembuat kebijakan untuk menghasilkan pengukuran yang lebih cepat dan lebih akurat dari sekarang dan prediksi masa depan.