2.4.2 Прогнозиране и прогнозиране

Предсказването на бъдещето е трудно, но предсказване настоящето е по-лесно.

Втората основна стратегия, използвана от изследователи с наблюдателни данни се прогнозира. Предсказването на бъдещето е изключително трудно, но тя може да бъде изключително важно за вземащите решения, независимо дали те работят в компании или правителства.

Kleinberg et al. (2015) предлага две истории, които изясняват значението на прогнозиране за някои проблеми на политиката. Представете си една машина за политика, ще се обадя си Анна, която е изправена пред суша и трябва да реши дали да наемат един шаман да направи дъжд танц да увеличи риска от дъжд. Друг политик, аз ще му се обадя на Боб, трябва да реши дали да вземете чадър, за да работят, за да се избегне намокряне на път за вкъщи. И двете Анна и Боб може да се направи по-добре решение, ако те разбират време, но те трябва да знаят различни неща. Анна трябва да разбере дали танц дъжд причинява дъжд. Боб, от друга страна, не е необходимо да се разбере нищо за причинно-следствената връзка; той просто се нуждае от точна прогноза. Социални изследователи често се фокусират върху това, което Kleinberg et al. (2015) наричат ​​"дъжд танц-подобни" проблеми-онези политики, които се фокусират върху причинно-следствената връзка, и игнорира проблемите на политиката на "чадър-подобни", които са фокусирани върху прогнозиране.

Бих искал да се съсредоточи, обаче, върху специален вид прогнозиране нарича прогнозиране -а Терминът произлиза от комбиниране на "Сега" и "прогнозиране." Вместо да предсказване на бъдещето, прогнозиране с опити да се прогнозират настоящето (Choi and Varian 2012) . С други думи, прогнозиране използва методи за прогнозиране за проблеми на измерването. Като такъв, той трябва да бъде особено полезна за правителства, които изискват навременни и точни мерки за техните страни. Прогнозиране може да се илюстрира най-ясно с примера на Google Flu Trends.

Представете си, че вие ​​се чувствате малко по времето, така че сте написали "грип средства за защита" в търсачката, получавате страница на връзки в отговор, а след това следвайте една от тях да е полезна уеб страница. А сега си представете тази дейност се разиграва от гледна точка на търсачката. Във всеки момент, милиони заявки са пристигащи от цял свят, и този поток от заявки-какво Battelle (2006) е наречен "базата данни на намерения" - осигурява постоянно актуализирана прозорец към колективното глобално съзнание. Въпреки това, превръщайки този поток от информация в измерване на разпространението на грипа е трудно. Просто брои броя на заявките за "грип средства за защита" може да не работи добре. Не всеки, който има търси грип за грип средства за защита и не всеки, който търсачи за грип средства има грип.

Най-важният и хитър трик зад Google Flu Trends беше да се превърне проблем за измерване в проблем за прогнозиране. Американските центрове за контрол и превенция на заболяванията (CDC) има система за грип мониторинг, който събира информация от лекари от цялата страна. Въпреки това, един проблем с тази система CDC е, че има две седмици отчитане лаг а; времето, необходимо за данните, които пристигат от лекарите, за да бъдат почистени, обработени и публикувани. Но, когато боравите с нововъзникващите епидемия, общественото здраве офиси не искат да се знае колко грип е бил там преди две седмици; те искат да знаят колко грип има в момента. В действителност, в много други традиционни източници на социалните данни, съществуват различия между вълните на събирането на данни и забавяне във времето за отчитане. Повечето големи източници на данни, от друга страна, са винаги-на (раздел 2.3.1.2).

Ето защо, Джеръми Гинсбърг и колеги (2009) се опитаха да се предскаже данните на грип CDC от данните за търсене на Google. Това е пример за "предсказване на настоящето", защото учените са се опитвали да се измери колко грип вече е налице чрез прогнозиране на бъдещите данни от CDC, бъдещата данни, че е измерване на настоящето. Използването машинно обучение, те търсили през 50 милиона различни термини за търсене, за да видите кои са най-предсказуем на данните от грип CDC. В крайна сметка, те са установили набор от 45 различни заявки, които изглежда да е най-предсказуем, и резултатите бяха доста добри: те биха могли да използват данните за търсене, за да се предскаже данните на CDC. Въз основа на част от тази книга, която е публикувана в Nature, Google Flu Trends става често повтаря успеха история за силата на големи данни.

Има две важни уговорки към този очевиден успех, обаче, и разбирането на тези възражения, ще ви помогне да се оцени и направи прогнозиране и прогнозиране. Първо, работата на Google Flu Trends всъщност не е много по-добре от един прост модел, който изчислява размера на грип основава на линейна екстраполация от двете най-новите изследвания на разпространението на грип (Goel et al. 2010) . И, през някои периоди от време Google Flu Trends всъщност беше по-лош от този прост подход (Lazer et al. 2014) . С други думи, Google Flu Trends с всичките си данни, машинно обучение, както и мощна изчислителна не драстично превъзхождат проста и лесна за разбиране евристичен. Това предполага, че когато се оценява всяка прогноза или nowcast е важно да се сравни срещу изходно ниво.

Вторият важен уговорката за Google Flu Trends е, че способността му да се предскаже данните от грип CDC е склонна към краткосрочна недостатъчност и дългосрочно разпад заради дрейф и алгоритмични погрешни изводи. Например, по време на 2009 свински грип епидемия Google Грипна активност драстично се надценява размера на грип, може би защото хората са склонни да променят своето поведение при търсене в отговор на широкото страх от глобална пандемия (Cook et al. 2011; Olson et al. 2013) . В допълнение към тези краткосрочни проблеми, изпълнението постепенно разложен с течение на времето. Диагностициране на причините за тази дългосрочна гниене са трудни, защото алгоритмите за търсене на Google, са патентовани, но се оказва, че през 2011 г. Google направи промени, които предполагат, свързани термини за търсене, когато хората търсят симптоми като "треска" и "кашлица" (тя също така изглежда че тази функция не е активна). Добавянето на тази функция е напълно разумно нещо да се направи, ако сте с бизнес търсачка, и това е довело до генериране на повече търсения, свързани със здравето. Това вероятно е успех за бизнеса, но е предизвикал Google Flu Trends да разпространението на грипа надценяват (Lazer et al. 2014) .

За щастие, тези проблеми с Google Flu Trends са поправими. В действителност, използването на по-внимателно методи, Lazer et al. (2014) и Yang, Santillana, and Kou (2015) са били в състояние да получите по-добри резултати. Занапред, аз очаквам, че прогнозиране с проучвания, които съчетават големи данни с изследовател събрани данни, които съчетават Readymades Дюшан стил с Микеланджело стил Custommades-ще дадат възможност на политиците да се произвеждат по-бързи и по-точни измервания на настоящето и прогнози за бъдещето.