항상에 빅 데이터 예상치 못한 이벤트를 실시간 측정에 대한 연구를 할 수 있습니다.
대부분의 빅 데이터 시스템은 항상 켜져; 그들은 지속적으로 데이터를 수집하고 있습니다. 이 상시 특징은 종 데이터와 연구자를 제공합니다 (즉, 시간이 지남에 따라 데이터). 항상-에있는 것은 연구에 대한 두 가지 중요한 의미를 가지고있다.
첫째, 항상 데이터 수집을 통해 연구자는 예기치 못한 사건을 다른 방법으로 연구 할 수 있습니다. 예를 들어, 2013 년 여름 터키에서의 Gezi Occupy Occupy 시위에 관심이있는 연구원은 일반적으로 시위 중 시위대의 행동에 집중할 것입니다. Ceren Budak과 Duncan Watts (2015) 는 이벤트 전, 도중, 후에 트위터를 사용한 시위자를 연구하기 위해 트위터의 항시 적 특성을 사용하여 더 많은 것을 할 수있었습니다. 그리고 그들은 행사 전, 도중, 그리고 후에 비 참여자들의 비교 집단을 만들 수 있었다 (그림 2.2). 이들 의 사후 패널 에는 2 년 동안 3 만명이 넘는 트위터가 포함되어있었습니다. 이 다른 정보로 항의에서 일반적으로 사용 된 데이터를 보완함으로써 부다크와 왓츠는 훨씬 더 많은 것을 배울 수있었습니다. 그들은 어떤 종류의 사람들이 게 지 시위에 참여할 가능성이 더 높은지 추정하고 태도의 변화를 예측할 수있었습니다. 참여자와 비 참여자 모두 단기간 (Gezi 이전과 Gezi 비교)과 장기적 (Gezi 이전 비교 - Gezi 이후)
회의론자는 이러한 추정치 중 일부는 항시 온 데이터 수집 소스 (예 : 장기간의 태도 변화 추정치)없이 만들 수 있었으며 올바른 결과라고 지적 할 수 있습니다. 그러나 30,000 명에 대한 데이터 수집은 상당히 비싼. 그러나 무제한의 예산으로도 연구자들이 시간을 거슬러 여행 하고 과거 참가자들의 행동을 직접 관찰 할 수있는 다른 방법은 생각할 수 없습니다. 가장 가까운 대안은 행동에 대한 소급보고를 수집하는 것이지만, 이러한보고는 한정된 정밀도와 의심스러운 정확성을 갖습니다. 표 2.1은 예상치 못한 사건을 연구하기 위해 항시 온 데이터 소스를 사용하는 다른 사례의 연구를 제공합니다.
예기치 않은 이벤트 | 항상 켜져있는 데이터 소스 | 소환 |
---|---|---|
터키에서 게 지족 운동을 점령하다. | 지저귀다 | Budak and Watts (2015) |
홍콩의 우산 항의 시위 | 웨이 보 | Zhang (2016) |
뉴욕시의 경찰 총격 사건 | 멈추고 매끄러운 보고서 | Legewie (2016) |
ISIS에 가입하는 사람 | 지저귀다 | Magdy, Darwish, and Weber (2016) |
2001 년 9 월 11 일 공격 | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
2001 년 9 월 11 일 공격 | 호출기 메시지 | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
예기치 못한 사건을 연구하는 것 외에도, 대용량 데이터 시스템은 연구자가 정부 나 업계의 정책 입안자가 상황 인식에 따라 대응하고자하는 상황에서 중요 할 수있는 실시간 추정을 가능하게합니다. 예를 들어, 소셜 미디어 데이터는 자연 재해 (Castillo 2016) 대한 비상 사태 대응을 안내하는 데 사용될 수 있으며 다양한 다양한 큰 데이터 소스를 사용하여 경제 활동의 실시간 추정치를 산출 할 수 있습니다 (Choi and Varian 2012) .
결론적으로, 항상 데이터 시스템을 사용하면 연구자는 예기치 못한 사건을 연구하고 정책 결정자에게 실시간 정보를 제공 할 수 있습니다. 그러나 필자는 Always-on 데이터 시스템이 오랜 시간 동안 변경 사항을 추적하는 데 매우 적합하다고 생각하지 않습니다. 그 이유는 많은 큰 데이터 시스템이 끊임없이 변화하고 있기 때문입니다.이 장의 뒷부분에서 드리프트 (drift) 라고 부르는 프로세스가 있습니다 (2.3.7 절).