미래를 예측하는 것은 어렵지만, 본를 예측하는 것은 더 쉽다.
연구자가 관찰 데이터와 함께 사용할 수있는 두 번째 주요 전략은 예측 입니다. 미래에 대한 추측을하는 것은 어려운 일이며, 그 이유 때문에 예측은 현재 사회적 연구의 큰 부분이 아닙니다 (인구 통계학, 경제학, 역학 및 정치학의 작고 중요한 부분 임에도 불구하고). 그러나 지금은 "지금"과 "예측"을 결합하여 얻은 용어 인 지금 방송 (nowcasting) 이라는 특별한 종류의 예측에 초점을 맞추고 싶습니다. 미래를 예측하는 대신 현재의 상태를 예측하기 위해 예측에서 아이디어를 사용하려는 시도를 시도합니다 세상의; 그것은 현재를 예언하려고 시도한다 (Choi and Varian 2012) . Nowcasting은 적시에 정확한 세계 측정을 필요로하는 정부와 기업에 특히 유용 할 수 있습니다.
시기 적절하고 정확한 측정의 필요성이 매우 명확한 한 가지 상황은 역학입니다. 인플루엔자 ( "독감")의 사례를 생각해보십시오. 매년 계절 인플루엔자 유행은 전세계 수백만 명의 질병과 수십만 명의 사망자를 발생시킵니다. 매년 수백만 명이 사망 할 수있는 새로운 형태의 인플루엔자가 발생할 가능성이 있습니다. 예를 들어, 1918 년 인플루엔자가 발병 한 것으로 추정되는 인구는 50 억 명에서 1 억 명으로 추산됩니다 (Morens and Fauci 2007) . 인플루엔자 발생을 추적하고 잠재적으로 대응할 필요가 있기 때문에 전 세계 정부는 인플루엔자 감시 시스템을 구축했습니다. 예를 들어, 미국 질병 통제 예방 센터 (CDC)는 정기적으로 전국적으로 엄선 된 의사의 정보를 체계적으로 수집합니다. 이 시스템은 고품질의 데이터를 생성하지만보고 지연이 있습니다. 즉, 의사로부터 도착한 데이터가 치료, 처리 및 게시되는 데 걸리는 시간 때문에 CDC 시스템은 2 주 전 독감 유행에 대한 추정치를 발표합니다. 그러나 신흥 전염병을 다룰 때 공중 보건 관리는 2 주 전 인플루엔자가 얼마나되는지를 알고 싶지 않습니다. 그들은 현재 얼마나 많은 인플루엔자가 있는지 알고 싶어합니다.
CDC가 인플루엔자를 추적하기위한 데이터를 수집하는 것과 동시에 Google은 인플루엔자 유행에 대한 데이터도 수집하고 있습니다. 전 세계의 사람들이 지속적으로 Google에 검색어를 보내고 있으며 "독감 구제책"및 "독감 증상"과 같은 검색어 중 일부는 검색어 작성자가 독감에 걸릴 수도 있습니다. 그러나 이러한 검색 쿼리를 사용하여 독감 유행을 추정하는 것은 까다로운 작업입니다. 독감에 걸린 모든 사람이 독감 관련 검색을하는 것은 아니며 모든 독감 관련 검색이 독감에 걸린 사람이 검색하는 것은 아닙니다.
Jeremy Ginsberg와 Google 팀 및 CDC의 일부 팀 (2009) 은이 두 데이터 소스를 결합하는 중요하고도 영리한 아이디어를 가지고있었습니다. 대략적으로 일종의 통계 연금술을 통해 빠르고 정확한 검색 데이터와 느리고 정확한 CDC 데이터를 결합하여 인플루엔자 유병률을 빠르고 정확하게 측정합니다. 또 다른 방법은 CDC 데이터 속도를 높이기 위해 검색 데이터를 사용하는 것입니다.
구체적으로 2003 년부터 2007 년까지의 데이터를 사용하여 Ginsberg와 동료들은 CDC 데이터에서 인플루엔자의 유행과 5,000 만 개의 별개의 용어에 대한 검색 량 간의 관계를 추정했습니다. 연구진은 CDC의 독감 유행 자료를 가장 잘 예측하는 것으로 여겨지는 45 가지 질문을 발견했다. 그런 다음 Ginsberg와 동료 연구원은 2003-2007 년 자료에서 얻은 관계를 이용하여 2007-2008 년 독감 계절에 모델을 테스트했습니다. 그들은 그들의 절차가 유용하고 정확한 지금의 방송을 만들 수 있음을 발견했다 (그림 2.6). 이 결과는 Nature 에 게시되었으며 언론 보도 자료를 받았다. Google 독감 트렌드라고하는이 프로젝트는 세계를 변화시키는 빅 데이터의 힘에 대해 자주 반복되는 비유가되었습니다.
그러나이 명백한 성공담은 마침내 당황 스러움으로 변했습니다. 연구원들은 시간이 지남에 따라 Google 독감 트렌드가 처음 등장한 것보다 덜 인상적이게하는 두 가지 중요한 제한 사항을 발견했습니다. 첫째, Google 독감 트렌드의 실적은 독감 유행에 대한 가장 최근의 측정치 2 개 (Goel et al. 2010) 의 선형 외삽 법에 기반한 독감 양을 추정하는 간단한 모델의 실적보다 실제적으로 좋지 않습니다. 그리고 일부 기간 동안 Google 독감 트렌드는 실제로이 간단한 접근 방식보다 더 나빴습니다 (Lazer et al. 2014) . 즉, 모든 데이터, 기계 학습 및 강력한 컴퓨팅을 갖춘 Google 독감 트렌드는 간단하고 이해하기 쉬운 경험적 방법보다 월등히 뛰어났습니다. 이는 예측이나 현재 방송을 평가할 때 기준선과 비교하는 것이 중요하다는 것을 나타냅니다.
Google 독감 트렌드에 대한 두 번째 중요한주의 사항은 CDC 독감 데이터를 예측하는 기능이 드리프트 및 알고리즘 혼란으로 인해 단기간의 실패 및 장기적인 붕괴가 발생하기 쉽다는 것입니다. 예를 들어, 2009 년 신종 인플루엔자 (Phine Flu)가 발생했을 때 Google 독감 트렌드는 인플루엔자의 양을 극적으로 과대 평가했습니다. 아마도 전염병에 대한 두려움에 대한 검색 행동을 바꾸는 경향이 있기 때문입니다 (Cook et al. 2011; Olson et al. 2013) . 이러한 단기적인 문제 외에도 성능은 점차 감소합니다. Google 검색 알고리즘은 독점적이기 때문에 장기적인 쇠퇴의 이유를 진단하는 것은 어렵지만 2011 년 Google은 사람들이 "열병"및 "기침"과 같은 독감 증상을 검색 할 때 관련 검색어를 제안하기 시작했습니다 (또한 이 기능은 더 이상 활성화되지 않습니다. 이 기능을 추가하는 것은 검색 엔진을 실행하는 경우 할 수있는 합당한 방법이지만이 알고리즘 변경은 Google 독감 트렌드에서 독감 유행을 과대 평가하는 건강 관련 검색어를 생성하는 효과가있었습니다 (Lazer et al. 2014) .
이 두 가지주의 사항은 미래의 현재의 노력을 복잡하게하지만 파멸하지 않습니다. 사실,보다 신중한 방법을 사용함으로써, Lazer et al. (2014) Yang, Santillana, and Kou (2015) 는이 두 가지 문제를 피할 수 있었다. 앞으로 큰 데이터 소스와 연구자가 수집 한 데이터를 결합한 최신 캐스팅 연구를 통해 기업과 정부는 시간이 지남에 따라 반복적으로 수행되는 측정 속도를 약간 늦추면서보다 정확하고 정확한 예측을 할 수있게 될 것으로 기대합니다. Google 독감 트렌드와 같은 프로젝트를 방영하면 대용량 데이터 소스가 연구 목적으로 만들어진보다 전통적인 데이터와 결합 될 경우 발생할 수있는 상황을 보여줍니다. 제 1 장의 비유를 다시 생각해 보면, 현재 캐스팅은 의사 결정자들에게 가까운 장래의 현재와 미래에 대한보다시기 적절하고 정확한 측정을 제공하기 위해 Duchamp 스타일의 미리보기와 미켈란젤로 스타일의 맞춤법을 결합 할 수있는 잠재력이 있습니다.