Предсказывать будущее трудно, но предсказания текущего легче.
Прогнозирование второй основной стратегии исследователи могут использовать с данными наблюдений. Предположение о будущем, как известно, сложно, и, возможно, по этой причине прогнозирование в настоящее время не является значительной частью социальных исследований (хотя это небольшая и важная часть демографии, экономики, эпидемиологии и политологии). Здесь, однако, я хотел бы сосредоточиться на специальном виде прогнозирования под названием nowcasting - термин, полученный из объединения «сейчас» и «прогнозирования». Вместо того, чтобы предсказывать будущее, в настоящее время попытки использования идей из прогнозирования для измерения текущего состояния мира; он пытается «предсказать настоящее» (Choi and Varian 2012) . Nowcasting может быть особенно полезен для правительств и компаний, которые требуют своевременных и точных мер в мире.
Одна из установок, в которой очень актуальна необходимость своевременного и точного измерения, - эпидемиология. Рассмотрим случай гриппа («грипп»). Каждый год сезонные эпидемии гриппа вызывают миллионы болезней и сотни тысяч смертей во всем мире. Кроме того, каждый год существует вероятность появления новой формы гриппа, которая могла бы убить миллионы. Например, вспышка гриппа 1918 года, например, убила от 50 до 100 миллионов человек (Morens and Fauci 2007) . Из-за необходимости отслеживать и потенциально реагировать на вспышки гриппа, правительства во всем мире создали системы эпиднадзора за гриппом. Например, Центры США по контролю и профилактике заболеваний (CDC) регулярно и систематически собирают информацию от тщательно отобранных врачей по всей стране. Хотя эта система производит высококачественные данные, у нее есть отставание в отчетности. То есть, из-за времени, которое требуется для того, чтобы данные, поступающие от врачей, были очищены, обработаны и опубликованы, система CDC выпускает оценки того, сколько гриппа было две недели назад. Но при обращении с новой эпидемией должностные лица общественного здравоохранения не хотят знать, сколько гриппа было две недели назад; они хотят знать, сколько гриппа существует прямо сейчас.
В то же время, когда CDC собирает данные для отслеживания гриппа, Google также собирает данные о распространенности гриппа, хотя и в совершенно иной форме. Люди со всего мира постоянно отправляют запросы в Google, и некоторые из этих запросов, таких как «средства от гриппа» и «симптомы гриппа», указывают на то, что у человека, делающего запрос, есть грипп. Но использование этих поисковых запросов для оценки распространенности гриппа сложно: не все, у кого есть грипп, делают поиск по гриппу, и не каждый связанный с гриппом поиск происходит от человека, у которого есть грипп.
Джереми Гинсберг и команда коллег (2009) , некоторые из которых в Google и некоторые из CDC, имели важную и умную идею объединить эти два источника данных. Грубо говоря, благодаря какой-то статистической алхимии исследователи объединили быстрые и неточные данные поиска с медленными и точными данными CDC, чтобы производить быстрые и точные измерения распространенности гриппа. Еще один способ подумать о том, что они использовали данные поиска для ускорения данных CDC.
Более конкретно, используя данные с 2003 по 2007 год, Гинсберг и его коллеги оценили взаимосвязь между распространенностью гриппа в данных CDC и объемом поиска на 50 миллионов различных терминов. Из этого процесса, который был полностью основан на данных и не нуждался в специализированных медицинских знаниях, исследователи обнаружили набор из 45 различных запросов, которые, как представляется, были наиболее прогностическими для данных о распространенности гриппа CDC. Затем, используя отношения, которые они узнали из данных за 2003-2007 годы, Гинсберг и его коллеги протестировали свою модель во время сезона гриппа 2007-2008 годов. Они обнаружили, что их процедуры действительно могут сделать полезные и точные прогнозы (рисунок 2.6). Эти результаты были опубликованы в Природе и получили обожание в прессе. Этот проект, который назывался Google Flu Trends, стал часто повторяемой притчей о силе больших данных, чтобы изменить мир.
Однако эта очевидная история успеха превратилась в смущение. Со временем исследователи обнаружили два важных ограничения, которые делают Google Flu Trends менее впечатляющим, чем первоначально. Во-первых, эффективность Google Flu Trends на самом деле не намного лучше, чем производительность простой модели, которая оценивает количество гриппа на основе линейной экстраполяции из двух последних измерений распространенности гриппа (Goel et al. 2010) . И, в течение некоторых периодов времени, Google Flu Trends был на самом деле хуже, чем этот простой подход (Lazer et al. 2014) . Другими словами, Google Flu Trends со всеми своими данными, машинным обучением и мощными вычислениями не превзошел простую и понятную эвристику. Это говорит о том, что при оценке любого прогноза или текущего времени важно сравнить с базовым.
Вторая важная оговорка о Google Flu Trends заключается в том, что ее способность прогнозировать данные о гриппе CDC была склонна к кратковременному отказу и долгосрочному распаду из-за смещения и алгоритмического смешения . Например, во время эпидемии свиного гриппа 2009 года Google Flu Trends резко переоценил количество гриппа, вероятно, потому, что люди склонны менять свое поведение в ответ на широко распространенный страх перед глобальной пандемией (Cook et al. 2011; Olson et al. 2013) , В дополнение к этим краткосрочным проблемам производительность постепенно сглаживается с течением времени. Диагностика причин этого долговременного распада затруднена, потому что алгоритмы поиска Google являются собственностью, но, похоже, в 2011 году Google начал предлагать похожие условия поиска, когда люди ищут симптомы гриппа, такие как «лихорадка» и «кашель» (также кажется, что эта функция больше не активна). Добавление этой функции вполне разумно, если вы используете поисковую систему, но это алгоритмическое изменение привело к созданию более связанных со здоровьем поисков, которые заставили Google Flu Trends переоценить распространенность гриппа (Lazer et al. 2014) .
Эти два оговорки усложняют будущие прогнозы в настоящее время, но они не обрекают их. Фактически, используя более тщательные методы, Lazer et al. (2014) и Yang, Santillana, and Kou (2015) смогли избежать этих двух проблем. В будущем я ожидаю, что исследования в области прогнозирования текущей погоды, которые объединяют большие источники данных с данными, собранными исследователями, позволят компаниям и правительствам создавать более своевременные и более точные оценки, существенно ускоряя любые измерения, которые неоднократно повторяются с течением времени с некоторым отставанием. Текущие проекты, такие как Google Flu Trends, также показывают, что может случиться, если большие источники данных объединены с более традиционными данными, которые были созданы для целей исследований. Возвращаясь к аналогии с искусством главы 1, nowcasting может объединить готовые готовые модели в стиле Duchamp с custommades в стиле Микеланджело, чтобы предоставить лицам, принимающим решения, более своевременные и более точные измерения настоящего и предсказания ближайшего будущего.