Предсказването на бъдещето е трудно, но предсказване настоящето е по-лесно.
Втората основна стратегия, която изследователите могат да използват с наблюдението на данните, е прогнозирането . Представянето на предположения за бъдещето е известно трудно и може би поради тази причина прогнозирането в момента не е голяма част от социалните изследвания (въпреки че е малка и важна част от демографията, икономиката, епидемиологията и политическите науки). Тук обаче бих искал да се съсредоточа върху специален тип прогнозиране, наречено nowcasting - термин, извлечен от съчетаването на "сега" и "прогнозиране". Вместо да предсказва бъдещето, сегаcastcasting се опитва да използва идеи от прогнози за измерване на текущото състояние на света; тя се опитва да "предскаже настоящето" (Choi and Varian 2012) . Nowcasting има потенциала да бъде особено полезен за правителствата и компаниите, които изискват навременни и точни мерки на света.
Една от обстоятелствата, при която необходимостта от навременни и точни измервания е много ясна, е епидемиологията. Обмислете случая на грип ("грип"). Всяка година сезонните грипни епидемии причиняват милиони заболявания и стотици хиляди смъртни случаи по света. Освен това всяка година има вероятност да се появи нова форма на грип, която ще убие милиони. Очаква се например (Morens and Fauci 2007) грип от 1918 г. да е убил между 50 и 100 милиона души (Morens and Fauci 2007) . Поради необходимостта да се проследи и евентуално да се реагира на огнища на грип, правителствата по света създадоха системи за наблюдение на грип. Например Центровете за контрол и превенция на заболяванията (CDC) на САЩ редовно и систематично събират информация от внимателно подбрани лекари в цялата страна. Макар тази система да произвежда висококачествени данни, тя има закъснение при отчитането. Това означава, че поради времето, необходимо за изчистването, обработката и публикуването на данните, пристигащи от лекарите, CDC системата разяснява колко грип има преди две седмици. Но когато се справят с възникваща епидемия, служителите в общественото здравеопазване не искат да знаят колко грип е имало преди две седмици; те искат да знаят колко грип има в момента.
В същото време, че CDC събира данни за проследяване на грипа, Google събира и данни за разпространението на грипа, макар и в доста различна форма. Хората от цял свят непрекъснато изпращат запитвания до Google, а някои от тези запитвания - като "средства за борба с грипа" и "симптоми на грип" - може да показват, че лицето, което прави запитването, има грип. Но използването на тези заявки за търсене, за да се оцени разпространението на грипа, е трудно: не всеки, който има грип, прави търсене, свързано с грипа, а не всяко търсене на грип е от някой, който има грип.
Джеръми Гинсбърг и екип от колеги (2009) , някои от тях в Google и някои в CDC, имаха важна и умна идея да съчетаят тези два източника на данни. Приблизително чрез някаква статистическа алхимия изследователите комбинират бързите и неточни данни за търсене с бавните и точни данни от CDC, за да произведат бързи и точни измервания на разпространението на грип. Друг начин да се мисли за това е, че са използвали данните от търсенето, за да ускорят данните от CDC.
По-конкретно, използвайки данни от 2003 до 2007 г., Ginsberg и колеги оценяват връзката между разпространението на грип в данните на CDC и обема на търсене за 50 милиона отделни термини. От този процес, който беше изцяло задвижван от данни и не изискваше специализирани медицински познания, изследователите откриха набор от 45 различни заявки, които изглежда бяха най-прогнозиращи за данните за разпространението на грипа в CDC. След това, използвайки връзките, които научиха от данните от 2003-2007 г., Гинсберг и колегите тестваха техния модел през сезон 2007-2008. Те установиха, че техните процедури наистина могат да направят полезни и точни сегаcasts (фигура 2.6). Тези резултати са публикувани в " Природа" и са получили признание за пресата. Този проект, който се нарича Google Грипни Тенденции, се превръща в често повтаряща се притча за силата на големи данни за промяна на света.
Тази очевидна успешна история обаче в крайна сметка се превърна в срам. С течение на времето изследователите откриха две важни ограничения, които правят Google Грипни тенденции по-малко впечатляващи, отколкото първоначално се появяват. Първо, ефективността на грипните тенденции в Google всъщност не е много по-добра от тази на прост модел, който оценява количеството на грипа въз основа на линейна екстраполация от последните две измервания на разпространението на грипа (Goel et al. 2010) . И през определени периоди от време Google Грипна Тенденции всъщност е по-лош от този прост подход (Lazer et al. 2014) . С други думи, грипните тенденции на Google с всичките му данни, машинно обучение и мощни изчисления не изпреварват значително простия и по-лесен за разбиране евристичен подход. Това предполага, че при оценката на която и да е прогноза или сегашната дискусия е важно да се сравнява с базовата линия.
Второто важно предупреждение относно Грипните тенденции в Google е, че способността му да прогнозира данни за грип на CDC е склонна към краткосрочен неуспех и дългосрочно разпадане, поради отклонение и алгоритмично объркване . Например по време на епидемията от грип от свински грип през 2009 г. Грипните тенденции в Google драматично надцениха размера на грипа, вероятно защото хората са склонни да променят поведението си в търсенето в отговор на широко разпространения страх от глобалната пандемия (Cook et al. 2011; Olson et al. 2013) , В допълнение към тези краткосрочни проблеми представянето постепенно се разпада с течение на времето. Диагностицирането на причините за това дългосрочно разпадане е трудно, защото алгоритмите за търсене на Google са собственост, но изглежда, че през 2011 г. Google започна да предлага подходящи термини за търсене, когато хората търсят симптоми на грип като "треска" и "кашлица" тази функция вече не е активна). Добавянето на тази функция е съвсем разумно нещо, ако провеждате търсачка, но тази алгоритмична промяна доведе до генериране на повече търсения, свързани със здравето, което накара Google Грипна тенденция да надцени разпространението на грипа (Lazer et al. 2014) .
Тези две предупреждения усложняват бъдещите усилия, но те не ги омръзват. Всъщност, използвайки по-внимателни методи, Lazer et al. (2014) и Yang, Santillana, and Kou (2015) успяха да избегнат тези два проблема. Очаквам, че проучванията, които съчетават големи източници на данни с данни, събрани от изследователи, ще дадат възможност на компаниите и правителствата да създават по-навременни и по-точни оценки, като по същество ускоряват всяко измерване, което се прави многократно с течение на времето. Проектите на Nowcasting като Google Грипни тенденции също показват какво може да се случи, ако големите източници на данни се комбинират с по-традиционните данни, създадени за целите на изследванията. Като се върнем към аналогията на изкуството на глава 1, сегаcasting има потенциала да комбинира готовите стилове на Duchamp в стил Michelangelo, за да предостави на вземащите решения по-навременни и по-точни измервания на настоящето и предсказания за близкото бъдеще.