Memprediksi masa depan adalah sulit, tapi memprediksi saat ini lebih mudah.
Peneliti strategi utama kedua dapat menggunakan dengan data observasi adalah peramalan . Membuat dugaan tentang masa depan sangat sulit, dan mungkin karena alasan itu, peramalan saat ini bukan merupakan bagian besar dari penelitian sosial (meskipun itu adalah bagian kecil dan penting dari demografi, ekonomi, epidemiologi dan ilmu politik). Namun, di sini, saya ingin fokus pada jenis peramalan khusus yang disebut nowcasting - istilah yang berasal dari menggabungkan "sekarang" dan "perkiraan." Daripada memprediksi masa depan, sekarang upaya penyiaran untuk menggunakan ide dari peramalan untuk mengukur keadaan saat ini di dunia; itu mencoba untuk "memprediksi sekarang" (Choi and Varian 2012) . Nowcasting memiliki potensi untuk menjadi sangat berguna bagi pemerintah dan perusahaan yang membutuhkan pengukuran dunia secara tepat waktu dan akurat.
Satu pengaturan di mana kebutuhan untuk pengukuran yang tepat waktu dan akurat sangat jelas adalah epidemiologi. Pertimbangkan kasus influenza ("flu"). Setiap tahun, epidemi influenza musiman menyebabkan jutaan penyakit dan ratusan ribu kematian di seluruh dunia. Lebih lanjut, setiap tahun, ada kemungkinan bahwa bentuk baru influenza dapat muncul yang akan membunuh jutaan orang. Wabah influenza 1918, misalnya, diperkirakan telah menewaskan antara 50 dan 100 juta orang (Morens and Fauci 2007) . Karena kebutuhan untuk melacak dan berpotensi menanggapi wabah influenza, pemerintah di seluruh dunia telah menciptakan sistem pengawasan influenza. Sebagai contoh, Pusat Pengendalian dan Pencegahan Penyakit (CDC) AS secara teratur dan sistematis mengumpulkan informasi dari dokter yang dipilih secara hati-hati di seluruh negeri. Meskipun sistem ini menghasilkan data berkualitas tinggi, ia memiliki kelambatan pelaporan. Artinya, karena waktu yang diperlukan untuk data tiba dari dokter untuk dibersihkan, diproses, dan diterbitkan, sistem CDC merilis perkiraan berapa banyak flu yang ada dua minggu lalu. Tapi, ketika menangani epidemi yang muncul, pejabat kesehatan masyarakat tidak ingin tahu berapa banyak influenza di sana dua minggu lalu; mereka ingin tahu berapa banyak influenza yang ada saat ini.
Pada saat yang sama ketika CDC mengumpulkan data untuk melacak influenza, Google juga mengumpulkan data tentang prevalensi influenza, meskipun dalam bentuk yang sangat berbeda. Orang-orang dari seluruh dunia terus mengirim pertanyaan ke Google, dan beberapa pertanyaan ini — seperti "obat flu" dan "gejala flu" —mungkin menunjukkan bahwa orang yang membuat kueri mengalami flu. Tapi, menggunakan pertanyaan pencarian ini untuk memperkirakan prevalensi flu adalah hal yang rumit: tidak semua orang yang terkena flu membuat pencarian terkait flu, dan tidak setiap pencarian terkait flu berasal dari seseorang yang terkena flu.
Jeremy Ginsberg dan tim kolega (2009) , beberapa di Google dan beberapa di CDC, memiliki gagasan yang penting dan cerdas untuk menggabungkan kedua sumber data ini. Secara kasar, melalui semacam alkimia statistik, para peneliti menggabungkan data pencarian yang cepat dan tidak akurat dengan data CDC yang lambat dan akurat untuk menghasilkan pengukuran prevalensi influenza yang cepat dan akurat. Cara lain untuk memikirkannya adalah mereka menggunakan data pencarian untuk mempercepat data CDC.
Lebih khusus lagi, menggunakan data dari 2003 hingga 2007, Ginsberg dan rekan memperkirakan hubungan antara prevalensi influenza dalam data CDC dan volume pencarian untuk 50 juta istilah yang berbeda. Dari proses ini, yang sepenuhnya digerakkan oleh data dan tidak memerlukan pengetahuan medis khusus, para peneliti menemukan satu set dari 45 pertanyaan yang berbeda yang tampaknya paling prediktif dari data prevalensi flu CDC. Kemudian, menggunakan hubungan yang mereka pelajari dari data 2003-2007, Ginsberg dan rekannya menguji model mereka selama musim influenza 2007-2008. Mereka menemukan bahwa prosedur mereka memang dapat membuat nowcasts yang berguna dan akurat (gambar 2.6). Hasil ini dipublikasikan di Nature dan menerima liputan pers yang memuja. Proyek ini — yang disebut Google Pantau Flu Dunia — menjadi perumpamaan berulang tentang kekuatan data besar untuk mengubah dunia.
Namun, kisah sukses ini akhirnya berubah menjadi memalukan. Seiring waktu, para peneliti menemukan dua batasan penting yang membuat Google Pantau Flu Dunia kurang mengesankan daripada awalnya muncul. Pertama, kinerja Google Pantau Flu Dunia sebenarnya tidak jauh lebih baik daripada model sederhana yang memperkirakan jumlah flu berdasarkan ekstrapolasi linier dari dua pengukuran terbaru prevalensi flu (Goel et al. 2010) . Dan, selama beberapa periode, Google Pantau Flu Dunia sebenarnya lebih buruk daripada pendekatan sederhana ini (Lazer et al. 2014) . Dengan kata lain, Google Pantau Flu Dunia dengan semua datanya, pembelajaran mesin, dan komputasi yang kuat tidak secara dramatis mengungguli heuristik yang sederhana dan lebih mudah dimengerti. Ini menunjukkan bahwa ketika mengevaluasi perkiraan atau nowcast, penting untuk membandingkan dengan baseline.
Peringatan penting kedua tentang Google Pantau Flu Dunia adalah kemampuannya memprediksi data flu CDC rentan terhadap kegagalan jangka pendek dan pembusukan jangka panjang karena penyimpangan pengalihan dan algoritme . Misalnya, selama wabah Flu Babi 2009, Google Pantau Flu Dunia secara dramatis melebih-lebihkan jumlah influenza, mungkin karena orang cenderung mengubah perilaku pencarian mereka sebagai tanggapan terhadap ketakutan yang meluas dari pandemi global (Cook et al. 2011; Olson et al. 2013) . Selain masalah-masalah jangka pendek ini, kinerjanya berangsur-angsur memburuk seiring berjalannya waktu. Mendiagnosis alasan peluruhan jangka panjang ini sulit karena algoritme penelusuran Google bersifat eksklusif, tetapi tampaknya pada tahun 2011 Google mulai menyarankan istilah penelusuran terkait ketika orang menelusuri gejala flu seperti "demam" dan "batuk" (tampaknya juga fitur ini tidak lagi aktif). Menambahkan fitur ini adalah hal yang sangat wajar untuk dilakukan jika Anda menjalankan mesin telusur, tetapi perubahan algoritmik ini memiliki efek menghasilkan lebih banyak penelusuran terkait kesehatan yang menyebabkan Google Pantau Flu Dunia untuk melebih-lebihkan prevalensi flu (Lazer et al. 2014) .
Kedua peringatan ini mempersulit upaya-upaya penyiaran di masa depan, tetapi mereka tidak menghukum mereka. Bahkan, dengan menggunakan metode yang lebih hati-hati, Lazer et al. (2014) dan Yang, Santillana, and Kou (2015) mampu menghindari dua masalah ini. Ke depan, saya berharap bahwa penelitian nowcasting yang menggabungkan sumber data besar dengan data yang dikumpulkan peneliti akan memungkinkan perusahaan dan pemerintah untuk membuat perkiraan yang lebih tepat waktu dan lebih akurat dengan secara esensial mempercepat pengukuran apa pun yang dibuat berulang kali dari waktu ke waktu dengan beberapa lag. Proyek-proyek penyiaran seperti Google Pantau Flu Dunia juga menunjukkan apa yang dapat terjadi jika sumber data besar digabungkan dengan lebih banyak data tradisional yang dibuat untuk tujuan penelitian. Berpikir kembali ke analogi seni bab 1, nowcasting memiliki potensi untuk menggabungkan gaya-gaya Duchamp dengan gaya Michelangelo-custommades untuk menyediakan pengambil keputusan dengan pengukuran yang lebih tepat waktu dan lebih akurat dari saat ini dan prediksi dari waktu dekat.