Предвиђање будућности тешко, али предвиђање поклон је лакше.
Други главни стратегија коју истраживачи са посматрачким подацима предвиђа. Предвиђање будућности је јако тешко, али то може бити невероватно важно за доносиоце одлука, без обзира да ли раде у предузећима или влада.
Kleinberg et al. (2015) два приче да разјасни значај предвиђања за одређене проблеме политике. Замислите један макер политике, зваћу њену Анна, који се суочава са сушу и мора одлучити да ли да ангажује шамана да уради Раин Данце повећати шансе за кишу. Још један од креатора политике, ја ћу га звати Бобе, мора да одлучи да ли да се кишобран да се ради да би се избегло добијање мокро на путу кући. Оба Ана и Боб могу направити бољу одлуку да они разумеју време, али они морају да знају различите ствари. Ана мора да схвати да ли је кишни плес изазива кишу. Боб, с друге стране, не треба да разуме ништа о узрочности; да му је потребан прецизан прогнозу. Друштвене истраживачи често се фокусирају на оно што Kleinberg et al. (2015) "Раин Данце-лике" политике проблеме-оне које се фокусирају на узрочности-а игнорисати проблеме политике "Умбрелла попут" који се фокусирају на предвиђања.
Ја бих, да се фокусира, међутим на посебне врсте предвиђања која се зове новцастинг -а термин изведен комбинацијом "сада" и "предвиђање." Уместо да предвиђање будућности, новцастинг покушаје да се предвиди поклон (Choi and Varian 2012) . Другим речима, новцастинг користи предвиђања методе за проблеме мерења. Као такав, требало би да буде посебно корисно да владе који захтевају благовремене и тачне мере о њиховим земљама. Новцастинг може најјасније илуструје примером Гоогле грипа.
Замислите да се осећате помало под утицајем времена, тако да откуцате "лекове против грипа" у претраживачу, добију страницу линкова на одговор, а затим следе један од њих користан веб страници. Сада замислите ова активност се одиграва из перспективе претраживача. Сваки тренутак, милиони упита долазе из целог света, а то ток упита-шта Battelle (2006) "база података о намерама" - даје се стално ажурира прозор у колективну глобалне свести. Медјутим, претварање овог ток информација у мерење преваленце грипа је тешко. Једноставно броји број упита за "правних лекова против грипа" можда неће добро радити. Није свако ко има претраге грипа за лијекова против грипа и није свако ко трагачи за правне лекове против грипа има грип.
Важан и паметан трик иза Гоогле грипа био да претвори проблем мерења у проблему предвиђања. Амерички Центри за контролу и превенцију болести (ЦДЦ) има систем за праћење грипа који прикупља информације од лекара широм земље. Међутим, један проблем са овим ЦДЦ систем је ту је извештавање кашњење од две недеље; време које је потребно за подацима који долазе од лекара да се очисте, обрађен, и објављен. Али, приликом руковања у настајању епидемије, јавно здравство канцеларије не желе да знају колико грип је био пре две недеље; они желе да знају колико грип има сада. У ствари, у многим другим традиционалним изворима социјалних података, постоје празнине између таласа прикупљања података и извештавања доцњи. Већина великих извора података, с друге стране, су увек на (Одељак 2.3.1.2).
Стога, Џереми Гинсберг и колеге (2009) да предвиди податке о ЦДЦ грипа из претраживача података Гоогле. Ово је пример "предвиђања садашњости", јер су истраживачи су покушали да измере колико грип сада је за предвиђање будућих података из ЦДЦ, будући података који се мјери поклон. Користећи машинског учења, они тражили преко 50 милиона различитих термина за претрагу да видимо који су највише предиктивне података о ЦДЦ грипа. На крају крајева, они су пронашли сет 45 различитих упита који су изгледали као веома интуитивни, а резултати су били веома добри: они могу да користе податке претраге предвидети податке ЦДЦ. Делимично засновано на раду који је објављен у часопису Натуре, Гоогле напредовање грипа постао често понавља прича о успеху о моћи великих података.
Постоје два важна упозорења у овом очигледном успеху, међутим, и разумевање ових упозорења ће вам помоћи да процени и до прогнозирање и новцастинг. Прво, перформансе Гоогле грипа у ствари није много бољи од једноставног модела да процене количину грипа на основу линеарне екстраполације из два најновија мерења преваленце грипа (Goel et al. 2010) . И, преко појединим периодима Гоогле напредовање грипа је горе него овом једноставном приступу (Lazer et al. 2014) . Другим речима, Гоогле напредовање грипа са свим својим подацима, машинског учења, и моћним рачунарство није драматично надмашују једноставан и лакше разумети хеуристику. Ово сугерише да када се оцењује сваку прогнозу или Новцаст је важно упоредити против основне линије.
Други важан упозорење о Гоогле грипа је да је његова способност да предвиди податке о ЦДЦ грипа био склон да се краткорочно квара и дугорочног пропадања због дрифта и алгоритмическој збуњујући. На пример, током 2009. свињски грип избијања Гоогле грипа драматично преценио количину грипа, вероватно зато што људи имају тенденцију да мењају своје понашање за претрагу у одговору на широко распрострањеног страха од глобалног пандемије (Cook et al. 2011; Olson et al. 2013) . Поред ових краткорочних проблема, перформансе постепено пропадало током времена. Дијагностиковање разлоге за ову дугорочно распадања је тешко јер су Гоогле сеарцх алгоритми су власништво, али чини се да у 2011. години је Гоогле направио промене које сугеришу у вези термине за претрагу када људи траже симптомима као што су "грозницу" и "кашаљ" (такође изгледа да ова функција више није активан). Додавање ову функцију је потпуно разуман потез ако радите посао претраживача, и имала је ефекат стварања више здравствених релатед сеарцхес. Ово је вероватно успех за посао, али то је проузроковало Гоогле грипа у преценио распрострањености грипа (Lazer et al. 2014) .
Срећом, ови проблеми са Гоогле грипа су поправити. У ствари, користећи опрезнији метода, Lazer et al. (2014) Yang, Santillana, and Kou (2015) у стању да боље резултате. Убудуће, ја очекујем да новцастинг студије које комбинују велике податке са истраживач прикупљени су подаци-да комбинују Дишан стилу Реадимадес са Микеландјело стилу Цустоммадес-ће омогућити креаторима политике да се произведе брже и тачније мерења садашњости и предвиђања будућности.