2.4.2 Прогнозирование и прогнозирование текущей погоды

Предсказывать будущее трудно, но предсказания текущего легче.

Вторая основная стратегия , используемая исследователями с наблюдательными данными прогнозирования. Предсказание будущего, как известно, трудно, но это может быть очень важно для лиц, принимающих решения, работают ли они в компании или правительства.

Kleinberg et al. (2015) и Kleinberg et al. (2015) предлагает две истории , которые проясняют важность прогнозирования для определенных политических проблем. Представьте себе, один производитель политики, я буду называть ее Анна, которая сталкивается с засухой и должны решить, следует ли нанять шамана, чтобы сделать танец дождя, чтобы увеличить вероятность дождя. Другой производитель политики, я буду называть его Бобом, должен решить, стоит ли брать с собой зонтик, чтобы работать, чтобы избежать промокания на пути домой. И Анна, и Боб могут принять лучшее решение, если они понимают погоду, но они должны знать разные вещи. Анна должна понять, вызывает ли танец дождя дождь. Боб, с другой стороны, не нужно понимать что-либо о причинности; он просто необходим точный прогноз. Социальные исследователи часто сосредотачиваются на том, что Kleinberg et al. (2015) и Kleinberg et al. (2015) называют «танец дождя, как" политические проблемы-те , которые сосредоточены на причинности-и игнорировать "зонтоподобно" проблемы политики , которые сосредоточены на прогнозировании.

Я хотел бы сосредоточиться, однако, на особый вид прогнозирования называется текущей погоды -a термин , полученный в результате объединения "сейчас" и "прогнозирование" . Вместо того , чтобы предсказывать будущее, прогнозирование текущей погоды пытается предсказать настоящее (Choi and Varian 2012) . Другими словами, использует методы прогнозирования текущей погоды прогнозирования для задач измерения. Таким образом, это должно быть особенно полезно для правительств, которые требуют своевременных и точных мер, о своих странах. Прогнозирование текущей погоды можно проиллюстрировать наиболее ясно на примере Google Flu Trends.

Представьте, что вы чувствуете себя немного под погодой, так что вы типа "лекарства от гриппа" в поисковой системе, получить страницу ссылок в ответ, а затем следуют один из них полезный веб-страницу. Теперь представьте себе, эта деятельность разыгрывается с точки зрения поисковой системы. Каждый момент, миллионы запросов прибывают со всего мира, и этот поток запросов , что- Battelle (2006) назвал «база данных намерений" - предоставляет постоянно обновляемую окно в коллективное глобальное сознание. Тем не менее, превращая этот поток информации в измерение распространенности гриппа трудно. Просто подсчитывая количество запросов для "средств защиты от гриппа" не может хорошо работать. Не каждый, кто имеет поиски гриппа для средств защиты от гриппа и не каждый, кто искатели для правовой защиты гриппа грипп.

Важный и хитрый трюк позади Google Flu Trends должна была превратить проблему измерения в проблему прогнозирования. Центры США по контролю и профилактике заболеваний (CDC) имеет систему мониторинга гриппа, который собирает информацию от врачей по всей стране. Тем не менее, одна проблема с этой системой СиДиСи существует задержка отчетности двухнедельный; время, которое требуется для данных, поступающих от врачей, которые будут очищены, обработаны и опубликованы. Но, при обращении с возникающей эпидемии, офисы общественного здравоохранения не хотят знать, сколько гриппа там было две недели назад; они хотят знать, сколько гриппа есть прямо сейчас. На самом деле, во многих других традиционных источников социальных данных, существует разрыв между волнами сбора данных и задержки отчетности. Большинство крупных источников данных, с другой стороны, всегда-на (раздел 2.3.1.2).

Поэтому, Джереми Гинсберг и его коллеги (2009) попытались спрогнозировать данные гриппа CDC по данным поиска Google. Это является примером "предсказания текущего", так как исследователи пытались определить, сколько гриппа в настоящее время путем прогнозирования будущих данных из CDC, в будущем данных, измерения настоящего. Использование машинного обучения, они искали через 50 миллионов различных поисковых терминов, чтобы увидеть, которые являются наиболее прогностическая данных гриппа CDC. В конечном счете, они обнаружили набор из 45 различных запросов, которые, казалось, наиболее предсказанием, и результаты были весьма хороши: они могли бы использовать данные поиска для прогнозирования данных CDC. Частично на основе этой статье, которая была опубликована в Nature, Google Flu Trends стала часто повторяемая история успеха о силе больших объемов данных.

Есть два важных предостережений на этот очевидный успех, однако, и понимание этих предостережений поможет вам оценить и сделать прогноз и текущей погоды. Во- первых, производительность Google Flu Trends был на самом деле не намного лучше , чем простая модель , которая оценивает величину гриппа , основанный на линейной экстраполяции из двух последних измерений распространенности гриппа (Goel et al. 2010) и (Goel et al. 2010) . И, в течение некоторых периодов времени Google Flu Trends был на самом деле хуже , чем этот простой подход (Lazer et al. 2014) и (Lazer et al. 2014) . Другими словами, Google Flu Trends со всеми его данными, машинного обучения и мощной вычислительной техники не значительно опережать простой и легче понять эвристику. Это говорит о том, что при оценке любого прогноза или по прогнозированию текущей погоды, важно , чтобы сравнить с базовыми показателями.

Второй важный нюанс о Google Flu Trends является то , что его способность предсказывать данные гриппа CDC был склонен к краткосрочной недостаточности и долгосрочного распада из - за дрейфа и алгоритмической смешению. Например, во время 2009 вспышки свиной грипп Google Flu Trends значительно завышено количество гриппа, вероятно , потому , что люди , как правило, меняют свое поисковое поведение в ответ на повсеместный страх глобальной пандемии (Cook et al. 2011; Olson et al. 2013) и (Cook et al. 2011; Olson et al. 2013) и (Cook et al. 2011; Olson et al. 2013) . В дополнение к этим краткосрочные проблемы, производительность постепенно распадались в течение долгого времени. Диагностирование причины этого долгосрочного распада трудно, так как алгоритмы поиска Google являются собственностью компании, но это, кажется, что в 2011 году Google внес изменения, которые предполагали бы связанные условия поиска, когда люди ищут симптомы, как "лихорадка" и "кашель" (это также, кажется, что эта функция больше не работает). Добавление этой функции является вполне разумно, что нужно сделать, если вы работаете в поисковой бизнес, и это имело эффект генерации больше поисков, связанных со здоровьем. Вероятно , это был успех для бизнеса, но это вызвало Google Flu Trends переоценивать распространенности гриппа (Lazer et al. 2014) и (Lazer et al. 2014) .

К счастью, эти проблемы с Google Flu Trends поправимо. На самом деле, используя более тщательные методы, Lazer et al. (2014) и Lazer et al. (2014) и Yang, Santillana, and Kou (2015) были в состоянии получить лучшие результаты. Забегая вперед, я ожидаю, что исследования текущей погоды, которые сочетают в себе большие данные с исследователем были собраны данные, которые комбинируют-Readymades Дюшан стиле с Michaelangelo стиле Custommades-позволят политикам производить быстрые и более точные измерения настоящего и предсказания будущего.