2.3.2.6 더러운

빅 데이터 소스는 정크 및 스팸으로로드 할 수 있습니다.

일부 연구자들은 자동으로 수집되기 때문에 큰 데이터 소스, 온라인 소스에서 특히이 깨끗한 것으로 판단된다. 사실, 빅 데이터 소스와 함께 일한 사람들은 자주 더러운 것을 알고있다. 즉, 그들은 자주 연구자들에게 관심의 실제 행동을 반영하지 않는 데이터를 포함한다. 많은 사회 과학자들은 이미 두 가지 이유가 더 어렵 대규모 사회 조사 데이터를 청소하지만, 빅 데이터 소스를 청소하는 과정을 잘 알고 : 1) 그들은 연구자에 대한 연구, 2) 연구진에 의해 생성되지 않은 일반적으로 얼마나 덜 이해 그들이 만들어졌습니다.

더러운 디지털 트레이스 데이터의 위험은 뒤로 및 동료에 의해 ​​설명된다 (2010) 2001 년 연구자들은 일반적 개월 또는 몇 년에 걸쳐 수집 회고 데이터를 사용하여 비극적 인 사건에 대한 반응을 연구 년 9 월 11 일의 공격에 대한 감정적 반응의 연구. 그러나, 위로와 동료들은 85,000 미국에서 항상 디지털 트레이스 - 더 타임 스탬프의 소스​​, 자동으로 기록 메시지를 발견 호출기-이 훨씬 더 정밀한 시간 척도에 대한 감정적 반응을 연구하는 연구자 수 있었다. 뒤로 및 동료 (1) 슬픔에 관련된 단어의 비율에 의해 호출기 메시지의 감정적 인 내용을 코딩에 의해 9 월 11 일의 시시각각 감정적 인 타임 라인을 만들어 (예를 들어, 슬픔에 울고) 예 (, (2) 불안을, 걱정, 두려움), (3) 분노 (예를 들어, 증오, 중요). 그들은 슬픔과 불안이 강한 패턴없이 하루 종일 등락을 발견하지만, 하루 종일 분노에 눈에 띄는 증가가 있음. 이 예기치 않은 이벤트에 즉각적인 응답의 이러한 고해상도 막대가 불가능한 것 표준 방법을 사용한이 연구는 항상 데이터 소스의 파워의 훌륭한 션 보인다.

그냥 1 년 후, 그러나, 신시아 퓨리 (2011) 더 신중하게 데이터를 바라 보았다. 그녀는 아마 화가 많은 메시지가 단일 호출기 생성하고, 그들은 모두 동일한 것을 발견 하였다. 여기 아마 화가 메시지를 말한 :

"[위치]에서 캐비닛 [이름]에서 재부팅 NT 기계 [이름] : CRITICAL : [날짜 및 시간]"

그들은 일반적으로 분노를 표시하지만,이 경우에는하지 않는 수있는 단어 "CRITICAL"를 포함하기 때문에이 메시지는 화가 표시했다. 이 단일 자동 호출기에 의해 생성 된 메시지를 제거하면 완전히 날 (그림 2.2)의 과정을 통해 분노의 명백한 증가를 제거한다. 즉, 주요 결과 Back, Küfner, and Egloff (2010) 하나의 호출기의 유물이었다. 이 예에서 보듯, 상대적으로 복잡하고 지저분한 데이터의 비교적 간단한 분석은 심각하게 잘못 될 가능성이있다.

2.2 그림 : 분노의 예상 동향을 85,000 미국 호출기에 따라 2001 년 9 월 11 일에 걸쳐 (위로, KUFNER 및 Egloff 2010; 퓨리 2011, 위로, KUFNER 및 Egloff 2011). 원래, 위로, (2010) KUFNER 및 Egloff는 하루 종일 분노를 증가의 패턴을보고했다. CRITICAL : [날짜 및 시간] [위치]에서 캐비닛에 [이름] 재부팅 NT 기계 [이름] : 그러나 이러한 명백한 화가 메시지의 대부분은 반복적으로 다음과 같은 메시지를 발송 한 호출기에 의해 생성되었다. 이 메시지가 제거로, 분노의 명백한 증가 (; 위로, KUFNER 및 Egloff 2011 퓨리 2011) 사라집니다. 이 그림은 퓨리 (2011)에서도 (1B)의 재생이다.

2.2 그림 : 분노의 예상 동향을 85,000 미국 호출기에 따라 2001 년 9 월 11 일에 걸쳐 (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . 원래, Back, Küfner, and Egloff (2010) 하루 종일 분노를 증가의 패턴을보고했다. "재부팅 NT 기계 [이름] 캐비닛 [이름]에서 [위치]에서 : CRITICAL : [날짜 및 시간]"그러나 이러한 명백한 화가 메시지의 대부분은 반복적으로 다음과 같은 메시지를 발송 한 호출기에 의해 생성되었다. 이 메시지가 제거로, 분노의 명백한 증가는 사라 (Pury 2011; Back, Küfner, and Egloff 2011) . 이 그림에서 그림 1B의 재현 Pury (2011) .

하나의 소음에서 같은 실수-등의 작성 더티 데이터 호출기가-수있는 합리적주의 연구자에 의해 검출 될 수 있지만, 또한 의도적 인 스팸을 유치 일부 온라인 시스템이 있습니다. 이 스패머 적극적으로 가짜 데이터를 생성하고, 종종 자신의 스팸이 은폐 유지하기 위해 매우 열심히 이익 작업에 의해 동기. 예를 들어, 트위터에 정치 활동은 정치적 원인 의도적가 실제보다 더 많은 인기를 찾기 위해 만들어진함으로써 적어도 일부 합리적으로 정교한 스팸을 포함하는 것 (Ratkiewicz et al. 2011) . 의도적 인 스팸을 포함 할 수있다 데이터 작업을 연구자들은 발견과 관련 스팸을 제거했는지 청중을 설득하는 과제에 직면하고있다.

마지막으로 간주되는 더러운 데이터는 연구 질문에 미묘한 방법에 따라 달라질 수 있습니다. 예를 들어, 위키 백과에 많은 수정 사항이 자동 로봇에 의해 생성된다 (Geiger 2014) . 당신은 위키 백과의 생태에 관심이 있다면, 다음이 봇은 중요하다. 당신은 인간이 위키 백과에 기여하는 방법에 관심이 있다면 그러나,이 봇에 의해 이러한 수정 사항은 제외한다.

더러운 데이터가 데이터는 간단한 산포도를 만들기로, 간단한 탐색 분석을 수행하기 위해 만든 방법을 이해한다하여 가장 좋은 방법은 바보가되지 않도록합니다.