2.4.2 Прогнозування і прогнозування поточної погоди

Передбачати майбутнє важко, але передбачення поточного легше.

Друга основна стратегія , яка використовується дослідниками з даними спостережень прогнозування. Передбачення майбутнього, як відомо, важко, але це може бути дуже важливо для осіб, які приймають рішення, чи працюють вони в компанії або уряду.

Kleinberg et al. (2015) і Kleinberg et al. (2015) пропонує дві історії , які прояснюють важливість прогнозування для певних політичних проблем. Уявіть собі, один виробник політики, я буду називати її Анна, яка стикається з посухою і повинні вирішити, чи слід найняти шамана, щоб зробити танець дощу, щоб збільшити ймовірність дощу. Інший виробник політики, я буду називати його Бобом, повинен вирішити, чи варто брати з собою парасольку, щоб працювати, щоб уникнути промокання на шляху додому. І Анна, і Боб можуть прийняти краще рішення, якщо вони розуміють погоду, але вони повинні знати різні речі. Анна повинна зрозуміти, чи викликає танець дощу дощ. Боб, з іншого боку, не потрібно розуміти що-небудь про причинності; він просто необхідний точний прогноз. Соціальні дослідники часто зосереджуються на тому, що Kleinberg et al. (2015) і Kleinberg et al. (2015) називають «танець дощу, як" політичні проблеми-ті , які зосереджені на причинності-й ігнорувати "зонтоподобно" проблеми політики , які зосереджені на прогнозуванні.

Я хотів би зосередитися, проте, на особливий вид прогнозування називається поточної погоди -a термін , отриманий в результаті об'єднання "зараз" і "прогнозування" . Замість того , щоб передбачати майбутнє, прогнозування поточної погоди намагається передбачити даний (Choi and Varian 2012) . Іншими словами, використовує методи прогнозування поточної погоди прогнозування для задач вимірювання. Таким чином, це має бути особливо корисно для урядів, які вимагають своєчасних і точних заходів, про свої країни. Прогнозування поточної погоди можна проілюструвати найбільш ясно на прикладі Google Flu Trends.

Уявіть, що ви відчуваєте себе трохи під погодою, так що ви типу "ліки від грипу" в пошуковій системі, отримати сторінку посилань у відповідь, а потім слідують один з них корисний веб-сторінку. Тепер уявіть собі, ця діяльність розігрується з точки зору пошукової системи. Кожен момент, мільйони запитів прибувають з усього світу, і цей потік запитів , щось Battelle (2006) назвав «база даних намірів" - надає постійно оновлювану вікно в колективне глобальна свідомість. Проте, перетворюючи цей потік інформації в вимір поширеності грипу важко. Просто підраховуючи кількість запитів для "засобів захисту від грипу" не може добре працювати. Не кожен, хто має пошуки грипу для засобів захисту від грипу і не кожен, хто шукачі для правового захисту грипу грип.

Важливий і хитрий трюк позаду Google Flu Trends повинна була перетворити проблему вимірювання в проблему прогнозування. Центри США по контролю і профілактиці захворювань (CDC) має систему моніторингу грипу, який збирає інформацію від лікарів по всій країні. Проте, одна проблема з цією системою Сідіс існує затримка звітності двотижневий; час, який потрібен для даних, що надходять від лікарів, які будуть очищені, оброблені і опубліковані. Але, при зверненні з виникає епідемії, офіси громадського охорони здоров'я не хочуть знати, скільки грипу там було два тижні тому; вони хочуть знати, скільки грипу є прямо зараз. Насправді, у багатьох інших традиційних джерел соціальних даних, існує розрив між хвилями збору даних і затримки звітності. Більшість великих джерел даних, з іншого боку, завжди-на (розділ 2.3.1.2).

Тому, Джеремі Гінсберг і його колеги (2009) спробували спрогнозувати дані грипу CDC за даними пошуку Google. Це є прикладом "передбачення поточного", так як дослідники намагалися визначити, скільки грипу в даний час шляхом прогнозування майбутніх даних з CDC, в майбутньому даних, вимірювання сьогодення. Використання машинного навчання, вони шукали через 50 мільйонів різних пошукових термінів, щоб побачити, які є найбільш прогностична даних грипу CDC. В кінцевому рахунку, вони виявили набір з 45 різних запитів, які, здавалося, найбільш пророкуванням, і результати були досить гарні: вони могли б використовувати дані пошуку для прогнозування даних CDC. Частково на основі цієї статті, яка була опублікована в Nature, Google Flu Trends стала часто повторювана історія успіху про силу великих обсягів даних.

Є два важливих застережень на цей очевидний успіх, однак, і розуміння цих застережень допоможе вам оцінити і зробити прогноз і поточної погоди. По- перше, продуктивність Google Flu Trends був на насправді не набагато краще , ніж проста модель , яка оцінює величину грипу , заснований на лінійній екстраполяції з двох останніх вимірювань поширеності грипу (Goel et al. 2010) і (Goel et al. 2010) . І, в протягом деяких періодів часу Google Flu Trends був на насправді гірше , ніж цей простий підхід (Lazer et al. 2014) і (Lazer et al. 2014) . Іншими словами, Google Flu Trends з усіма його даними, машинного навчання та потужної обчислювальної техніки не суттєво випереджати простий і легше зрозуміти евристику. Це говорить про те, що при оцінці будь-якого прогнозу або по прогнозуванню поточної погоди, важливо , щоб порівняти з базовими показниками.

Другий важливий нюанс про Google Flu Trends є те , що його здатність передбачати дані грипу CDC був схильний до короткострокової недостатності і довгострокового розпаду з - за дрейфу і алгоритмічної змішання. Наприклад, протягом 2009 спалаху свинячий грип Google Flu Trends значно завищена кількість грипу, ймовірно , тому , що люди , як правило, змінюють своє пошукове поведінка у відповідь на повсюдний страх глобальної пандемії (Cook et al. 2011; Olson et al. 2013) і (Cook et al. 2011; Olson et al. 2013) і (Cook et al. 2011; Olson et al. 2013) . На додаток до цих короткострокові проблеми, продуктивність поступово розпадалися протягом довгого часу. Діагностування причини цього довгострокового розпаду важко, так як алгоритми пошуку Google є власністю компанії, але це, здається, що в 2011 році Google вніс зміни, які передбачали б пов'язані умови пошуку, коли люди шукають симптоми, як "лихоманка" і "кашель" (це також, здається, що ця функція більше не працює). Додавання цієї функції є цілком розумно, що потрібно зробити, якщо ви працюєте в пошуковій бізнес, і це мало ефект генерації більше пошуків, пов'язаних зі здоров'ям. Ймовірно , це був успіх для бізнесу, але це викликало Google Flu Trends переоцінювати поширеність грипу (Lazer et al. 2014) і (Lazer et al. 2014) .

На щастя, ці проблеми з Google Flu Trends можна виправити. Насправді, використовуючи більш ретельну технологію, Lazer et al. (2014) і Lazer et al. (2014) і Yang, Santillana, and Kou (2015) були в змозі отримати кращі результати. Забігаючи вперед, я очікую, що дослідження поточної погоди, які поєднують в собі великі дані з дослідником були зібрані дані, які комбінують-Readymades Дюшан стилі з Michaelangelo стилі Custommades-дозволять політикам проводити швидкі і більш точні вимірювання сьогодення і передбачення майбутнього.