Ngiro-iro mangsa punika hard, nanging ngiro saiki luwih gampang.
Peneliti strategi utama kapindho sing bisa digunakake kanthi data observasi yaiku prakiraan . Nemtokake panemune babagan masa depan sing misuwur banget, lan mbok menawa kanggo alasan kasebut, pragmatisme ora saiki dadi bagean saka riset sosial (senajan cilik lan penting saka demografi, ekonomi, epidemiologi lan ilmu politik). Kene, Nanging, aku kepengin fokus ing prastawa spesial sing disebut "saiki" - istilah sing asalé saka kombinasi "saiki" lan "ramalan." Tinimbang ngumumake mangsa ngarep, ngenani usaha kanggo nggunakake gagasan saka ramalan kanggo ngukur negara saiki saka jagad; Iku nyoba kanggo "prédhiksi saiki" (Choi and Varian 2012) . Saiki pawartos nduweni potensi kanggo dadi utamané migunani kanggo pemerintah lan perusahaan sing mbutuhake ukuran sing tepat ing wektu lan akurat ing donya.
Siji setelan sing perlu kanggo pangukuran sing pas wektune lan akurat sing jelas banget yaiku epidemiologi. Coba nyinaoni kasus influenza ("flu"). Saben taun, epidemi influenza mangsan nimbulaké jutaan penyakit lan ratusan ewu tilar donya ing saindenging jagad. Sabanjure, saben taun, ana kemungkinan sing wangun novel influenza bisa muncul sing bakal mateni mayuta-yuta. Wabah influenza taun 1918, contoné, kira-kira wis matèni antara 50 lan 100 yuta wong (Morens and Fauci 2007) . Amarga kudu dilacak lan duweni potensi nanggapi wabah influenza, pemerintah ing saindenging jagad ndadekake sistem pengawasan influenza. Contone, US Centers for Disease Control and Prevention (CDC) ajeg lan sistematis ngumpulake informasi saka dokter sing dipilih kanthi teliti ing saindhenging negara. Senajan sistem iki mrodhuksi data sing nduweni kualitas dhuwur, ana lag sing nglaporake. Mangkono, amarga wektu kanggo njupuk data sing bakal ditrapake saka dokter supaya bisa di resiki, diproses, lan diterbitake, sistem CDC bakal ngetokake perkiraan babagan flu sing ana rong minggu kepungkur. Nanging, nalika nangani epidemi sing muncul, pejabat kesehatan masyarakat ora pengin ngerti pira influenza ana rong minggu kepungkur; padha kepengin ngerti kepriyé influenza ana sapunika.
Ing wektu sing padha CDC ngempalaken data kanggo ngatasi influenza, Google uga ngoleksi data babagan prevalensi influenza, sanajan ing wangun sing beda. Wong-wong saka sak ndonya terus ngirim pitakon menyang Google, lan sawetara pitakon kasebut kayata "obat flu" lan "gejala flu" -mungkin nuduhake yen wong sing nggawe pitakonan kasebut flu. Nanging, nggunakake pitakon panelusuran iki kanggo ngira-ira prevalensi flu iku angel: ora saben wong sing nduweni flu nyedhiyakake panelusuran sing kena flu, lan ora saben panelusuran sing gegandhengan karo flu iku saka wong sing kena flu.
Jeremy Ginsberg lan tim rekan (2009) , sawetara ing Google lan sawetara ing CDC, duwe gagasan penting lan pinter kanggo nggabungake loro sumber data kasebut. Rata-rata, liwat macem-macem alkimia statistik, para peneliti nggabungake data telusuran sing cepet lan ora akurat kanthi data CDC sing alon lan akurat supaya bisa ngasilake ukuran prevalensi influenza sing cepet lan akurat. Liyane cara kanggo mikir babagan iku padha nggunakake data panelusuran kanggo nyepetake data CDC.
Khusus khusus, nggunakake data saka 2003 nganti 2007, Ginsberg lan kanca-kanca ngira-ngira hubungan antarane prevalensi influenza ing data CDC lan volume panelusuran kanggo 50 yuta istilah sing béda. Saka proses kasebut, sing wis rampung data-driven lan ora mbutuhake ilmu medis khusus, para peneliti nemokake pirang-pirang pitakonan sing beda-beda sing katon paling prediksi saka data prevalensi flu CDC. Banjur, nggunakake hubungan sing padha sinau saka data 2003-2007, Ginsberg lan kanca-kanca nguji modhèl ing mangsa influenza 2007-2008. Padha nemokake yen tata cara kasebut pancen bisa nggawe nowcasts migunani lan akurat (angka 2.6). Hasil kasebut diterbitake ing Nature lan nampa liputan press adoring. Proyèk iki-sing diarani Google Flu Trends-dadi perumpamaan sing kerep dienggo babagan daya data gedhe kanggo ngganti donya.
Nanging, crita sukses kasebut pungkasané dadi mamang. Sajrone wektu, para peneliti nemokake loro watesan penting sing nggawe Google Flu Trends kurang nyengsemake tinimbang pisanane muncul. Pisanan, kinerja Google Flu Trends bener-bener ora luwih apik tinimbang model prasaja sing ngira jumlah flu adhedhasar ekstrapolasi linier saka rong pangukuran prevalensi flu paling anyar (Goel et al. 2010) . Lan, ing sawetara wektu, Flu Trends Google bener luwih elek tinimbang pendekatan prasaja iki (Lazer et al. 2014) . Ing tembung liya, Google Flu Trends karo kabeh data, mesin learning, lan komputasi sing kuat ora sacara dramatis ngalahake heuristik sing prasaja lan gampang dimengerteni. Iki nuduhaké yèn nalika ngevaluasi ramalan utawa nowcast, penting kanggo mbandhingaké karo garis basis.
Paveat penting kaping pindho babagan Google Flu Trends yaiku kemampuane kanggo prédhiksi data flu babi CDC rawan kegagalan jangka pendek lan kegagalan jangka panjang amarga drift lan algorithmic confounding . Contone, ing wabah Flu babi 2009 2009, Google Flu Trends ngetokake banget ngilangi jumlah influenza, biasane amarga wong cenderung ngganti prilaku sing digoleki kanggo nanggepi rasa wedi pandemi global (Cook et al. 2011; Olson et al. 2013) . Saliyane masalah-masalah jangka pendek iki, kinerja mboko sithik nganti entek. Ngargumentasikake alasan sing mbebayani jangka panjang iki angel amarga kalkulator telusuran Google duweni, nanging katon ing 2011 Google wiwit nyaritakake istilah-istilah sing gegandhengan nalika wong-wong nelusuri gejala flu kaya "demam" lan "batuk" (uga koyone fitur iki ora aktif maneh). Nambahake fitur iki minangka cara sing paling bener kanggo nglakoni yen sampeyan nglakoni mesin telusur, nanging owah-owahan algoritma iki nduweni efek ngasilake luwih akeh nelusur sing nandhang kesehatan sing nimbulaké Google Flu Trends kanggo ngalahake prédhiksi flu (Lazer et al. 2014) .
Pratelan loro iki mbudidaya gawe kuatake mangsa sing bakal teka, nanging ora bakal kelakon. Ing kasunyatan, kanthi nggunakake cara sing luwih cetha, Lazer et al. (2014) lan Yang, Santillana, and Kou (2015) bisa ngatasi masalah kasebut. Luwih maju, aku ngarepake yen studi percobaan sing nggabungake sumber data gedhe karo data sing dititipake peneliti bakal ngidini perusahaan lan pemerintah nggawe perkiraan luwih tepat lan tepat kanthi kanthi cepet ningkatake pangukuran sing digawe bola-bali liwat wektu karo sawetara lag. Proyek panjelasan kayata Google Flu Trends uga nuduhake apa sing bisa kedadean yen sumber data gedhe dikombinasikake karo data sing luwih tradisional sing digawe kanggo tujuan riset. Mikir maneh analogi seni bab 1, saiki nduweni potensi kanggo nggabungake readymade gaya Duchamp karo gaya Michelangelo supaya bisa menehi kaputusan keputusan kanthi pangukuran luwih pas lan luwih akurat saka saiki lan ramalan mangsa ngarep.