Etorkizuna aurreikustea zaila da, baina gaur aurreikustea errazagoa da.
Ikertzaileek erabilitako datuen behaketa batera Bigarren estrategia nagusia aurreikuspena da. etorkizuna aurreikustea notoriously zaila da, baina oso erabakiak hartzeko arduradun garrantzitsua izan daiteke, lan egiten dute enpresa edo gobernu ala ez.
Kleinberg et al. (2015) bi ipuin aurreikuspena garrantzia argitzen duten zenbait politika arazo eskaintzen. Imajinatu politika maker bat, egingo bere Anna, nor da lehorte baten aurrean eta shaman bat kontratatu behar den ala euri dantza bat euri aukera handitzeko erabaki beharko deitu dut. Beste politika maker, egingo Bob deituko diot, aterki bat hartu ala busti etxerako bidea saihesteko lan egin erabaki beharko du. Biak Anna eta Bob erabakia hobeto egin ahal izango dute ulertu eguraldi bada, baina gauza desberdinak ezagutu behar dute. Anna euri dantza eragiten ala euri ulertu behar da. Bob, bestalde, ez du kausalitatea ezer ulertu behar; zehatzak iragarpena bat nahikoa zuen. Gizarte ikertzaileek askotan zer arreta Kleinberg et al. (2015) deitu "euri-dantza-like" politika arazo-horiek ardatz duten kausalitate-eta alde batera utzi "aterki-like" politika arazoak direla aurreikuspena bideratuta.
, Bideratzen ordea, aurreikuspena nowcasting izeneko mota berezi bat -a epe "orain" konbinatuz eta eratorritako buruzko nuke "aurreikuspena." Etorkizuna iragartzeko baino, gaur aurreikusteko saiakera nowcasting (Choi and Varian 2012) . Beste era batera esanda, nowcasting aurreikuspena neurri-arazoak metodoak erabiltzen du. Horrela, batez ere, euren herrialde puntuala eta zehatza neurriak eskatzen duten gobernuei baliagarria izan beharko luke. Nowcasting azal daiteke gehien argi Google Gripearen joerak adibide batera.
Imajinatu pixka bat eguraldi pean sentitzen ari zaren, beraz, idazten duzun "gripe erremedioak" bilatzaile batean, esteken orri bat jasoko erantzunez, eta, ondoren, jarraitu horietako bat lagungarria web orri bat egiteko. Imajina ezazu orain jarduera hau jokatu ari dira bilaketa-motorraren ikuspuntutik. Une bakoitzean, kontsultak milioika mundu osoko iritsi, eta kontsultak-zer korronte honetan Battelle (2006) "asmo database" izeneko - etengabe eguneratzen leiho bat kolektiboaren kontzientzia global sartu. Hala ere, informazio korronte honetan inflexio gripearen prebalentzia neurketa batean zaila da. Besterik gabe kontatuta kontsulta kopurua "gripe erremedioak" ez agian ondo funtzionatuko. Guztiek ez duten gripea gripe erremedioak bilatzen dituen eta ez guztioi gripearen erremedioak searchers gripea dauka.
Google Gripearen joerak atzean trikimailu garrantzitsua eta clever neurketa arazo bat piztu aurreikuspena arazoren bat sartu zen. US Zentroak Gaixotasunen Kontrolerako eta Prebentziorako (CDC) an gripearen zaintza sistema herrialde osoko medikuek informazioa biltzen du. Hala ere, CDC sistema honekin arazo bat dago, bi aste reporting Lag bat da; denboraren datuak medikuek iristen hartzen du garbitu behar, prozesatu, eta argitaratu. Baina, noiz sortzen ari diren epidemia bat manipulatzea, osasun publikoaren bulegoak ez dute nahi, zenbat gripea ez zen duela bi aste jakin nahi zuen; jakin nahi dute zenbat gripea ez da oraintxe. Izan ere, beste gizarte datuak iturri tradizionalak askotan, ez dira datu bilketa olatuak eta erreportaje desfaseak arteko hutsuneak. big gehienak datu-iturri, bestetik, beti-on (2.3.1.2 atala).
Beraz, Jeremy Ginsberg eta lankideek (2009) , Google bilaketa-datuak from the CDC gripearen datuak iragartzea saiatu. Hau "present aurreikustea" ikertzaileek ziren zenbat gripea ez da orain CDC, etorkizunean datu horiek dauden neurtzeko da etorkizunean datu iragartzeko arabera neurtzen saiatzen delako adibide bat da. makinen ikasketa erabiliz, 50 milioi bilaketa termino desberdinen bidez bilatuko dute zeintzuk diren gehien CDC gripearen datuak aurrez ikusteko. Azken batean, bazirudien hori gehien iragarlea izan 45 kontsulta desberdinak multzo bat aurkitu zuten, eta emaitzak ez ziren oso onak: bilaketa-datuak erabili izan dute CDC datuak iragartzeko. Oinarritutako paper hau, Nature aldizkarian argitaratu zen, zati batean, Google Gripearen joerak askotan errepikatzen arrakasta datuak big boterea buruzko istorioa bihurtu zen.
Badira bi ohar garrantzitsua itxurazko arrakasta horrek, ordea, eta ohar horiek ulertzeko ebaluatzeko lagunduko dizu, eta egiten aurreikuspena eta nowcasting. Lehenik eta behin, Google Gripearen joerak errendimendua ez eredu sinple bat gripearen zenbatekoa oinarritutako berrienak bi gripearen prebalentzia neurketa batetik estrapolazioa lineal batean kalkuluen hori baino askoz hobea izan zen benetan (Goel et al. 2010) . Eta, denbora aldi batzuetan baino Google Gripearen joerak benetan hurbilketa sinple hau baino okerragoa izan zen (Lazer et al. 2014) . Beste era batera esanda, Google Gripea, datu guztiak, makina ikaskuntza, eta informatika indartsu batekin joerak ez zuen nabarmen outperform sinple bat eta errazagoa heuristiko ulertzeko. Horrek iradokitzen denean edozein iragarpena edo nowcast ebaluatzeko hori garrantzitsua da oinarri baten aurka alderatu.
Google Gripearen joerak buruz Bigarren Oharra garrantzitsu da CDC gripearen datuak iragartzea bere gaitasuna duten epe laburreko porrota eta epe luzeko desintegrazio delako noraeza eta algoritmikoa nahastarazterainoko joera izan da. Adibidez, 2009ko gripea eztandaren Google Gripearen joerak zehar nabarmen gripea zenbatekoa baino gehiago estimatzen, jendeak joera beren bilaketen portaera erantzunez aldatzeko pandemia global bat Beldur hedatuago ziurrenik delako (Cook et al. 2011; Olson et al. 2013) . Epe laburrean arazo horiez gain, errendimendua pixkanaka denboran zehar usteldu. Epe luzeko gainbehera honen arrazoiak diagnostikoa zaila dira Google bilaketa algoritmoak jabedun daudelako, baina 2011an duten Google egin duten zerikusia duten bilaketa-terminoak iradokitzen litzateke aldaketa jendeak "sukarra" eta "eztul" bezalako sintomak agertzen da (badirudi, gainera, Ezaugarri hau ez dela jada aktiboa). Ezaugarri hau gehitzea guztiz zentzuzko gauza bilatzailea enpresa bat exekutatzen ari bada egin da, eta gehiago osasunarekin lotutako bilaketak sortzen duen eragina izan da. Hau izan zen, ziurrenik, enpresa arrakastatsua izan, baina Google Gripearen joerak gehiago-estimazio gripearen prebalentzia eragindako da (Lazer et al. 2014) .
Zorionez, Google Gripearen joerak arazo horiek fixable dira. Izan ere, gehiago ibili metodoak erabiliz, Lazer et al. (2014) eta Yang, Santillana, and Kou (2015) emaitza hobeak lortzeko gai izan ziren. Aurrera joan, nowcasting ikasketak big datuak konbinatzeko duten ikertzaile bildu Datu-konbinatu Duchamp-estilo Readymades Michaelangelo-estilo Custommades-politika egingo arduradunek gaitu dauden neurriak eta etorkizuneko iragarpenak azkarragoa eta zehatzagoa ekoiztea nahi dut.