2.4.2 Utabiri na nowcasting

Utabiri wa siku zijazo ni ngumu, lakini utabiri wa sasa ni rahisi zaidi.

Pili kuu mkakati kutumiwa na watafiti pamoja na data za uchunguzi ni utabiri. Utabiri wa siku zijazo ni vigumu mno, lakini inaweza kuwa incredibly muhimu kwa watoa maamuzi, kama wao kazi katika makampuni au serikali.

Kleinberg et al. (2015) inatoa hadithi mbili kwamba kufafanua umuhimu wa utabiri kwa ajili ya matatizo fulani ya sera. Fikiria moja maker sera, Mimi nitakuita Anna wake, anayekabiliwa na ukame na lazima kuamua kama kuajiri mganga kufanya ngoma mvua ili kuongeza nafasi ya mvua. maker mwingine sera, mimi itabidi kumwita Bob, lazima kuamua kama kuchukua mwavuli wa kufanya kazi ili kuepuka kupata mvua njiani nyumbani. Wote Anna na Bob wanaweza kufanya uamuzi bora kama wao kuelewa hali ya hewa, lakini wanahitaji kujua mambo mbalimbali. Anna anahitaji kuelewa kama ngoma mvua husababisha mvua. Bob, kwa upande mwingine, haina haja ya kuelewa chochote kuhusu causality; yeye tu anahitaji utabiri sahihi. Watafiti kijamii mara nyingi kuzingatia nini Kleinberg et al. (2015) kuwaita "mvua ngoma-kama" sera matatizo-wale kwamba lengo causality-na kupuuza "mwavuli-kama" matatizo ya kisera ambayo ni kulenga utabiri.

Ningependa kuzingatia, hata hivyo, juu ya aina maalum ya utabiri aitwaye nowcasting -a mrefu inayotokana na kuchanganya "sasa" na "utabiri." Badala ya utabiri wa siku zijazo, nowcasting majaribio kutabiri sasa (Choi and Varian 2012) . Kwa maneno mengine, nowcasting hutumia mbinu za utabiri kwa ajili ya matatizo ya kipimo. Kama vile, ni lazima kuwa muhimu hasa kwa serikali ambao wanahitaji hatua kwa wakati na sahihi kuhusu nchi zao. Nowcasting inaweza kuwa mfano kwa uwazi zaidi na mfano wa Google Flu Mwelekeo.

Fikiria kuwa wewe ni hisia kidogo chini ya hali ya hewa hivyo unapoandika "homa tiba" katika injini ya utafutaji, kupokea ukurasa wa viungo katika kukabiliana, na kisha kufuata mmoja wao na tovuti na manufaa. Sasa kufikiria shughuli hii kuwa kucheza nje kutoka katika mtazamo wa injini ya utafutaji. Kila wakati, mamilioni ya maswali ni kuwasili kutoka duniani kote, na mkondo huu wa maswali-nini Battelle (2006) ametoa wito "database ya nia" - hutoa dirisha daima updated katika pamoja fahamu kimataifa. Hata hivyo, kugeuka mkondo huu wa habari katika kipimo cha kiwango cha maambukizi ya mafua ni ngumu. Tu kuhesabu hadi idadi ya maswali kwa ajili ya "tiba ya homa" wanaweza kufanya kazi vizuri. Si kila mtu ana upekuzi mafua kwa ajili ya tiba ya homa na si kila mtu ambaye searchers kwa ajili ya tiba ya homa ana homa.

Muhimu na wajanja hila nyuma ya Google Flu Mwelekeo ilikuwa kugeuka tatizo kipimo katika tatizo utabiri. Vituo vya Marekani vya Kudhibiti na Kuzuia Magonjwa (CDC) ina mafua mfumo wa ufuatiliaji ambayo inakusanya habari kutoka kwa madaktari nchini kote. Hata hivyo, tatizo moja na mfumo huu CDC ni kuna wiki mbili kuripoti bakia; muda inachukua kwa data kuwasili kutoka kwa madaktari kusafishwa, kusindika, na kuchapishwa. Lakini, wakati utunzaji janga kujitokeza, ofisi ya afya ya umma hawataki kujua ni kiasi gani mafua kulikuwa na wiki mbili zilizopita; wanataka kujua ni kiasi gani mafua kuna hivi sasa. Kwa kweli, katika vyanzo vingine wengi wa jadi wa data kijamii, kuna mapungufu kati ya mawimbi ya ukusanyaji wa takwimu na kutoa taarifa lipo. Wengi kubwa ya vyanzo data, kwa upande mwingine, ni daima-on (Sehemu ya 2.3.1.2).

Kwa hivyo, Jeremy Ginsberg na wenzake (2009) alijaribu kutabiri CDC mafua data kutoka data search Google. Huu ni mfano wa "utabiri wa sasa" kwa sababu watafiti walikuwa wakijaribu kupima kiasi gani mafua sasa kuna na utabiri data baadaye kutoka CDC, data baadaye kwamba ni kupima sasa. Kwa kutumia kujifunza mashine, wao searched kupitia suala milioni 50 tofauti search na kuona ambayo ni zaidi uingizaji wa data CDC mafua. Hatimaye, walikuta seti ya 45 maswali mbalimbali kwamba walionekana kuwa wengi uingizaji, na matokeo yalikuwa mazuri kabisa: wangeweza kutumia data search kutabiri data CDC. Msingi katika sehemu juu karatasi hii, ambayo ilikuwa iliyochapishwa katika Nature, Google Flu Mwelekeo akawa mara nyingi alirudia mafanikio hadithi kuhusu uwezo wa data kubwa.

Kuna tahadhari mawili muhimu kwa mafanikio haya dhahiri, hata hivyo, na kuelewa caveats hizi kukusaidia kutathmini na kufanya utabiri na nowcasting. Kwanza, utendaji wa Google Flu Mwelekeo kwa kweli si bora zaidi kuliko rahisi mfano kwamba makadirio ya kiasi cha mafua msingi extrapolation linear kutoka mbili vipimo hivi karibuni wa kiwango cha maambukizi ya homa (Goel et al. 2010) . Na, juu ya baadhi ya vipindi wakati Google Flu Mwelekeo ilikuwa kwa kweli ni mbaya zaidi kuliko huu mbinu rahisi (Lazer et al. 2014) . Kwa maneno mengine, Google Flu Mwelekeo na data zake zote, kujifunza mashine, na kompyuta nguvu hakuwa kasi outperform rahisi na rahisi kuelewa heuristic. Hii inaonyesha kwamba wakati kutathmini utabiri yoyote au nowcast ni muhimu kulinganisha dhidi msingi.

Muhimu caveat pili kuhusu Google Flu Mwelekeo ni kwamba uwezo wake wa kutabiri CDC mafua data alikuwa kukabiliwa na kushindwa muda mfupi na ya muda mrefu kuoza kwa sababu ya drift na algorithmic confounding. Kwa mfano, wakati wa mwaka 2009 mafua ya nguruwe ya kuzuka Google Flu Mwelekeo kwa kasi kubwa zaidi-kiasi makadirio ya mafua, pengine kwa sababu watu huwa na mabadiliko search tabia zao katika kukabiliana na hofu ya kuenea janga la kimataifa (Cook et al. 2011; Olson et al. 2013) . Mbali na matatizo haya ya muda mfupi, utendaji hatua kwa hatua bovu baada ya muda. Kupima sababu kwa hili mrefu kuoza kwa muda mrefu ni vigumu kwa sababu algorithms search Google ni wamiliki, lakini inaonekana kwamba mwaka 2011 Google alifanya mabadiliko ambayo ingekuwa zinaonyesha suala kuhusiana search wakati watu kutafuta dalili kama "homa" na "kikohozi" (pia kuonekana kwamba kipengele hiki ni tena kazi). Kuongeza kipengele hili ni jambo la busara kabisa cha kufanya kama wewe ni kuendesha biashara search engine, na alikuwa na athari za kuzalisha afya kuhusiana upekuzi zaidi. Hii labda mafanikio kwa ajili ya biashara, lakini lilisababisha Google Flu Mwelekeo na kiwango cha maambukizi makadirio ya juu mafua (Lazer et al. 2014) .

Kwa bahati nzuri, matatizo haya na Google Flu Mwelekeo ni fixable. Kwa kweli, kwa kutumia njia makini zaidi, Lazer et al. (2014) na Yang, Santillana, and Kou (2015) waliweza kupata matokeo bora. Kwenda mbele, mimi kutarajia kwamba masomo nowcasting kuwa kuchanganya data kubwa na mtafiti zilizokusanywa data-kuwa kuchanganya Duchamp-style Readymades na Michaelangelo-style Custommades-itawezesha watunga sera wa kuzalisha kasi na sahihi zaidi vipimo ya sasa na utabiri wa siku zijazo.