빅 데이터 소스는 정크 및 스팸으로로드 할 수 있습니다.
일부 연구원은 큰 데이터 소스, 특히 온라인 소스는 자동으로 수집되기 때문에 초기 상태라고 믿습니다. 사실 큰 데이터 소스로 작업 한 사람들은 빈번히 더러운 것으로 알고 있습니다. 즉, 그들은 종종 연구자들에게 관심이있는 실제 행동을 반영하지 않는 데이터를 포함합니다. 대부분의 사회 과학자들은 이미 대규모 사회 조사 데이터를 청소하는 과정에 익숙하지만 큰 데이터 소스를 청소하는 것이 더 어려워 보입니다. 이러한 어려움의 궁극적 인 원인은 이러한 대용량 데이터 소스 중 상당수가 연구용으로 사용되지 않으므로 데이터 정리를 용이하게하는 방식으로 수집, 저장 및 문서화되지 않는다는 것입니다.
더러운 디지털 추적 데이터의 위험성은 2001 년 9 월 11 일 공격에 대한 감정적 반응에 대한 Back and colleagues (2010) 연구에 설명되어 있습니다. 연구원은 일반적으로 수개월 또는 수년에 걸쳐 수집 된 회고 데이터를 사용하여 비극적 인 사건에 대한 대응을 연구합니다. 하지만 백 (Back)과 동료 연구원은 타임 스템프 (timestamped) 방식의 자동 추적 기록을 통해 85,000 명의 미국 호출기에서 자동으로 기록 된 메시지를 발견했으며이를 통해보다 정교한 타임 스케일에서 정서적 반응을 연구 할 수있었습니다. 그들은 호출기 메시지의 감정적 인 내용을 (1) 슬픔 (예 : "울기"및 "슬픔")과 관련된 단어의 비율로 코딩하여 9 월 11 일의 감정적 인 타임 라인을 작성했습니다. (2) 예를 들어, "걱정"과 "두려운"), 그리고 (3) 분노 (예, "증오"와 "비판적"). 그들은 슬픔과 불안이 강한 패턴없이 하루 종일 변동하지만 하루 동안 분노가 두드러지게 증가했다는 것을 발견했습니다. 이 연구는 항상 존재하는 데이터 소스의 힘을 잘 보여줍니다 : 전통적인 데이터 소스가 사용 되었다면 예기치 않은 사건에 대한 즉각적인 응답의 고해상도 타임 라인을 얻을 수 없었을 것입니다.
그러나 1 년 후, 신시아 퓨리 (2011) 는 데이터를보다 신중하게 조사했습니다. 그녀는 많은 수의 화난 메시지가 하나의 호출기에 의해 생성되었고 모두 동일하다는 것을 발견했습니다. 그 사람들이 화를내는 메시지가 말한 것은 다음과 같습니다.
"[위치]에서 캐비닛 [이름]에서 재부팅 NT 기계 [이름] : CRITICAL : [날짜 및 시간]"
이 메시지들은 분노를 나타내는 단어 "CRITICAL"을 포함하고 있기 때문에 화가났다. 그러나이 경우에는 그렇지 않다. 이 단일 자동 호출기에서 생성 된 메시지를 제거하면 하루 중 분노가 명백하게 증가하지 않습니다 (그림 2.4). 즉 Back, Küfner, and Egloff (2010) 의 주요 결과는 하나의 호출기의 인공물이었습니다. 이 예에서 알 수 있듯이 상대적으로 복잡하고 지저분한 데이터를 비교적 단순하게 분석하면 심각하게 잘못 될 가능성이 있습니다.
소음이 많은 호출기에서와 같이 실수로 생성 된 더러운 데이터는 합리적으로 신중한 연구원이 탐지 할 수 있지만 의도적 인 스팸 발송자를 유치하는 일부 온라인 시스템도 있습니다. 이 스패머들은 적극적으로 가짜 데이터를 생성하며, 종종 스팸을 숨기지 않고 수익을 창출하기 위해 열심히 노력합니다. 예를 들어 트위터의 정치 활동에는 정교하게 정교한 스팸이 포함되어있는 것으로 보이는데 일부 정치적 원인이 의도적으로 실제보다 더 대중적으로 보일 수 있습니다 (Ratkiewicz et al. 2011) . 유감스럽게도이 의도적 인 스팸을 제거하는 것은 상당히 어려울 수 있습니다.
물론 더러운 데이터로 간주되는 부분은 연구 질문에 부분적으로 의존 할 수 있습니다. 예를 들어, 위키피디아에 대한 많은 편집 작업은 자동 로봇 (Geiger 2014) 의해 만들어집니다. Wikipedia의 생태계에 관심이 있다면,이 봇이 만든 편집 내용이 중요합니다. 그러나 인간이 Wikipedia에 어떻게 기여하는지에 관심이 있다면 봇이 만든 편집 내용을 제외해야합니다.
더러운 데이터를 충분히 치료할 수있는 단일 통계 기법이나 접근법은 없습니다. 결국, 나는 더러운 데이터에 속지 않도록하는 가장 좋은 방법은 데이터가 어떻게 생성되었는지에 대해 최대한 이해하는 것입니다.