미래를 예측하는 것은 어렵지만, 본를 예측하는 것은 더 쉽다.
관측 자료와 연구자들에 의해 사용되는 제 2 주 전략은 예측된다. 미래를 예측하는 것은 어렵기로 악명이지만, 그들이 회사 나 정부에서 작동 여부는 의사 결정자를위한 믿을 수 없을만큼 중요 할 수있다.
Kleinberg et al. (2015) 특정 정책 문제에 대한 예측의 중요성을 명확히 2 층을 제공합니다. 하나의 정책 입안자 상상, 나는 가뭄에 직면하고 비의 기회를 증가시키기 위해 비가 춤을 수행하는 무당을 고용 여부를 결정해야 그녀의 안나를 호출합니다. 또 다른 정책 입안자, 나는 집에가는 길에 젖지 않도록 작업 우산을할지 여부를 결정해야합니다, 밥 그에게 전화합니다. 그들은 날씨를 이해하는 경우 애나와 Bob 모두 더 나은 결정을 내릴 수 있지만 다른 것을 알 필요가있다. 애나는 비 댄스는 비 발생 여부를 파악해야합니다. 밥 한편, 인과 대해 아무것도 이해할 필요는 없다; 그는 단지 정확한 예측이 필요합니다. 사회 연구원들은 무엇에 초점 Kleinberg et al. (2015) "비의 춤 같은"정책 문제-들에 초점을 인과 관계 및 예측에 초점을 맞추고있다 "우산 같은"정책 문제를 무시하는 전화.
나는 "지금"조합으로부터 파생 -a 용어 예측라는 nowcasting의 특별한 종류에, 그러나 초점을하고 싶습니다 "예측을."오히려 미래를 예측하는 것보다, 본 예측하려는 시도 nowcasting (Choi and Varian 2012) . 즉, nowcasting 측정의 문제에 대한 예측 방법을 사용한다. 이와 같이,이 자국에 대한 적절하고 정확한 측정이 필요 정부에 특히 유용 할 것이다. Nowcasting 구글 독감 트렌드의 예제를 가장 명확하게 설명 될 수있다.
당신이 검색 엔진에 "독감 치료"를 입력 있도록 날씨에 따라 약간 느낌 상상, 응답 링크의 페이지를 수신하고 유용한 웹 페이지 중 하나를 수행합니다. 이제이 활동은 검색 엔진의 관점에서 펼쳐 상상한다. 모든 순간은, 쿼리의 수백만은 전세계에서 도착하고, 쿼리 - 어떤 스트림 Battelle (2006) 은 "의도의 데이터베이스"라고했다가 - 집단 글로벌 의식으로 지속적으로 업데이트 창을 제공합니다. 그러나 독감의 유행의 측정에 정보의 스트림을 선회하는 것은 어렵다. 단순히 "독감 치료"에 대한 쿼리의 수를 계산 잘 작동하지 않을 수 있습니다. 독감 치료에 대한 검색 자 독감이 독감 독감 치료를 검색하고 모든 사람이 모든 사람.
Google 독감 트렌드 뒤에 중요하고 영리한 트릭은 예측 문제에 측정 문제를 설정 하였다. 미국 질병 통제 예방 센터 (CDC)는 전국 의사로부터 정보를 수집 인플루엔자 모니터링 시스템을 갖추고 있습니다. 그러나,이 CDC 시스템의 한 가지 문제점은 2 주보고 래그가이고; 이 의사에서 도착하는 데이터 걸리는 시간은 세정 처리 및 발행한다. 신흥 전염병을 처리 할 때, 공중 보건 사무소는 2 주 전에 거기에 얼마나 많은 인플루엔자 알고 싶지 않아; 지금이 얼마나 인플루엔자 그들은 알고 싶어요. 사실, 소셜 데이터의 많은 다른 기존의 소스에서, 데이터 수집 및보고 파도 시차 사이의 갭이있다. 가장 큰 데이터 소스는 반면에, 항시 온 (섹션 2.3.1.2)이다.
따라서, 제레미 진스 버그와 동료들 (2009) Google 검색 데이터로부터 CDC 독감 데이터를 예측하기 위해 노력했다. 이 연구원은 현재를 측정하는 CDC, 미래의 데이터에서 미래의 데이터를 예측하여 지금이 얼마나 독감 측정하기 위해 노력했기 때문에 "현재를 예측"의 예입니다. 기계 학습을 사용하여, 그들은 CDC 독감 대부분의 데이터 예측되는 볼 50,000,000 다른 검색어를 통해 검색. 궁극적으로, 사람들은 대부분 예측 것 같았다 45 상이한 질의 세트를 발견하고, 그 결과는 매우 양호 하였다 : 그들은 CDC 데이터를 예측하는 검색 데이터를 사용할 수있다. 자연에 발표 된이 논문에 부분적으로 기초, Google 독감 트렌드는 빅 데이터의 힘에 대한 자주 반복 성공 사례가되었다.
이 두 가지 중요한주의 사항이 있지만,이 명백한 성공에 있으며, 이러한주의 사항을 이해하면 평가하는 데 도움과 예측 및 nowcasting 할 것입니다. 첫째, Google 독감 트렌드의 성능은 실제로 독감 유행의 가장 최근의 두 측정에서 선형 외삽에 따라 독감의 양을 추정하는 간단한 모델보다 훨씬 더이었다 (Goel et al. 2010) . 그리고, 시간의 기간 동안 Google 독감 트렌드는이 간단한 방법보다 실제로 더 나빴다 (Lazer et al. 2014) . 즉, 모든 데이터, 기계 학습, 강력한 컴퓨팅 Google 독감 트렌드 극적 휴리스틱을 이해하는 간단하고 쉽게 능가하지 않았다. 이것은 어떤 예측을 평가 또는 nowcast 때 기준에 대해 비교하는 것이 중요합니다 제안합니다.
Google 독감 트렌드에 대한 두 번째 중요한주의해야 할 점은 CDC의 독감 데이터를 예측하는 능력은 단기적인 실패 때문에 드리프트와 알고리즘 혼란의 장기 부패하는 경향이 있었다 것입니다. 예를 들어, 2009 년 신종 인플루엔자 발생 Google 독감 트렌드 동안 극적으로 사람들이 세계적인 전염병의 확산 공포에 대한 응답에서의 검색 동작을 변경하는 경향이 아마 때문에, 인플루엔자의 양을 통해 추정 (Cook et al. 2011; Olson et al. 2013) . 이러한 단기 문제에 더하여, 성능은 점차 시간이 지남에 따라 소멸. 이 장기 붕괴에 대한 이유를 진단 구글 검색 알고리즘이 독점이기 때문에 어려운,하지만 (그것도 보이는 사람들이 "열"과 "기침"와 같은 증상을 검색 할 때 2011 년 구글이 관련 검색어를 제안 변화를 한 것으로 나타납니다 이 기능을) 더 이상 활성 상태입니다. 이 기능을 추가하면, 검색 엔진 사업을 실행하는 경우 수행 완전히 합리적인 일이며,보다 건강 관련 검색을 생성하는 효과가 있었다. 이것은 아마도 사업을위한 성공하지만, 오버 추정 독감 유행에 Google 독감 트렌드 발생 (Lazer et al. 2014) .
다행히도, Google 독감 트렌드와 이러한 문제는 고칠 수 있습니다. 사실,보다 신중한 방법을 사용 Lazer et al. (2014) 과 Yang, Santillana, and Kou (2015) 더 나은 결과를 얻을 수 있었다. 앞으로 나는 연구원으로 빅 데이터를 결합 nowcasting 연구 데이터 미켈란젤로 스타일과 뒤샹 스타일 Readymades을 결합 Custommades-것보다 신속하고 정확한 현재의 측정 및 미래의 예측을 생산하기 위해 정책 결정자를 활성화를 수집 것으로 기대합니다.