이 혼란 될 수 있지만, 풍부한 물어 강력한 될 수 있습니다.
디지털 추적 데이터의 불완전 처리에 대한 다른 접근 방법은 설문 조사 데이터, 내가 풍부한 묻는 전화 할게 과정에 직접 풍부하게하는 것입니다. 풍부한 물어의 한 예는의 연구이다 Burke and Kraut (2014) 나 페이스 북에 상호 작용하는 우정의 강도를 증가 여부에 대해, 장에서 이전 (3.2 절)을 설명. 이 경우, 버크와 독일군은 페이스 북 로그 데이터와 함께 조사 데이터를 결합했다.
버크와 크라우트가에서 작업하는 설정은, 그러나, 그들은 연구자들은 풍부한 묻는 얼굴을하고 두 개의 큰 문제를 해결하지 않았다는 것을 의미했다. 첫째, 실제로 데이터 세트-프로세스라는 기록 결합, 아래에이 문제의 다른 데이터 세트-수 있습니다 어렵고 오류가 발생하기 쉬운 수 (우리가 볼 수 예에서 해당 레코드를 하나의 데이터 세트의 레코드의 일치를 함께 연결 ). 농축 묻는 두번째 주요한 문제는 디지털 트레이스의 품질이 종종 연구자 평가하기 어려울 것이라는 것이다. 예를 들어, 때때로 수집되는 프로세스가 독점하고 말하면 제 2 장에 설명 된 많은 문제에 민감 할 수있는, 농축 묻는 자주 알 블랙 박스 데이터 소스에 조사 오류가 발생하기 쉬운 연결을 포함한다 품질. 이 두 가지 문제가 소개 우려에도 불구하고, 그것은 스티븐 Ansolabehere과 에이 탄 허시에 의해 입증되었다 등이 전략으로 중요한 연구를 수행 할 수있다 (2012) 미국의 투표 패턴에 대한 연구에. 몇 가지 구체적으로 본 연구를 통해 갈 가치가 Ansolabehere 및 허시가 풍부한 물어의 다른 응용 프로그램에 도움이 될 것입니다 개발 전략의 많은 때문이다.
투표율은 정치 과학에서 광범위한 연구의 대상이되고, 그리고 한 과거, 투표 왜 일반적으로 설문 조사 데이터의 분석을 기반으로 한 사람의 연구자의 이해. 미국에서 투표 그러나, 각 시민이 투표 여부를 그 정부 기록에 비정상적인 동작입니다 (물론, 정부에 대한 사람들 각 시민 투표를 기록하지 않습니다). 몇 년 동안, 이러한 정부의 투표 기록은 전국 여러 지방 정부 기관에 흩어져있는, 종이 양식에 사용할 수있었습니다. 이것은, 어렵지만 불가능하지는 정치 과학자들이 유권자의 완전한 그림을하는 사람들이 실제 투표 행위에 투표에 대한 설문 조사에 말을 비교하기 위해 만든 (Ansolabehere and Hersh 2012) .
그러나, 지금이 투표 기록을 디지털화되었고, 민간 기업의 수는 체계적으로 수집하고 모든 미국인의 투표 행동을 기록 포괄적 인 마스터 투표 파일을 생성하기 위해 이러한 투표 기록을 합병했다. Ansolabehere와 허시는 유권자의 더 나은 사진을 개발하는 데 도움이 주인 투표 파일을 사용하기 위해 LCC-이 회사-Catalist 중 하나와 제휴. 그것을 수집 및 회사에 의해 선별 된 디지털 기록에 의존하기 때문에, 또한, 상기 회사 보조제 및 아날로그 기록을 사용하지 않고 수행되었던 이전의 연구자 노력에 비해 많은 장점을 제공했다.
제 2 장에서 디지털 추적 소스의 많은 마찬가지로, Catalist 마스터 파일은 Ansolabehere 및 허시가 필요한, 인구 통계 학적 태도, 행동 많은 정보를 포함하지 않았다. 이러한 정보 외에, Ansolabehere 및 허시는 검증 투표 동작합니다 (Catalist 데이터베이스 즉, 정보)을보고 투표 거동 비교에 관심이 있었다. 그래서 연구자들은 공동 의회 선거 연구 (CCES), 큰 사회 조사의 일환으로 원하는 데이터를 수집. 다음으로, 연구진은 Catalist에이 데이터를주고, Catalist는 연구자가 CCES에서 ((Catalist에서) 투표 동작을 검증 포함 된 병합 된 데이터 파일 (CCES)에서 자기보고 투표 행동과 인구 통계 응답자의 태도를 다시했다 ). 즉, Ansolabehere 및 허시는 측량 데이터 투표 데이터를 농축하고, 생성 된 병합 파일들을 모두 파일을 개별적으로 사용할 것을 할 수있다.
설문 조사 데이터로 Catalist 마스터 데이터 파일을 풍부하게함으로써, Ansolabehere 및 허시는 세 가지 중요한 결론에왔다. 첫째, 과도한보고 투표의 만연 : 비 유권자의 거의 절반이 투표를보고했다. 또는 그것을보고 또 다른 방법은 누군가가 투표를보고하는 경우, 실제로 투표 만 80 %의 확률이있다. 둘째, 오버 리포팅 랜덤 아니다 오버보고는, 높은 소득 중 잘 교육 더 일반적인, 공공 업무에 종사하는 빨치산. 즉, 투표 할 가능성이 가장 높은 사람들은 또한 대부분의 투표에 대해 거짓말을 할 가능성이 높다. 셋째, 가장 비판적으로 인해 과도하게보고, 유권자와 비 유권자 사이의 실제 차이가 설문 조사에서 불과 표시보다 작은의 체계적인 자연의. 예를 들어, 학사 학위를 가진 사람들은 약 22 % 포인트가 투표를보고 할 가능성이 있지만, 실제 투표에 10 % 포인트 가능성이 높습니다. 또한, 투표의 기존 자원 기반 이론은 실제로 누가 투표, 새로운 이론을 이해하고 투표를 예측하기 위해 호출하는 경험적 연구 결과보다 투표를보고 누가 예측 훨씬 더 낫다.
하지만, 얼마나 우리는이 결과를 신뢰해야 하는가? 이러한 결과가 오류의 알 수없는 양의 블랙 박스 데이터에 오류가 발생하기 쉬운 연결에 의존 기억하십시오. 보다 구체적으로, 그 결과는 두 개의 주요 단계에 힌지는 1) 정확한 마스터 데이터 파일, 2), 마스터 데이터 파일에 대한 조사 데이터를 연결 Catalist 능력을 제조 여러 다른 데이터 소스를 결합 Catalist 능력. 각 단계는 매우 어렵고, 어느 단계에서 오류는 잘못된 결론을 연구자가 발생할 수 있습니다. 종종 연구자의 어떤 개별 학술 연구 또는 그룹이 일치하지 수있는 규모로, 이러한 문제를 해결 자원을 투자 할 수 있도록하지만, 데이터 처리와 일치하는 모두는 회사로 Catalist의 지속적인 존재에 매우 중요합니다. 이 장의 끝 부분에있는 추가 읽기, 난 더 자세히 방법 Ansolabehere와 허시는 자신의 결과에 대한 신뢰를 구축에서 이러한 문제를 설명합니다. 이러한 세부 사항은 본 연구에 특정 있지만, 이러한 유사한 문제가 블랙 박스 디지털 트레이스 데이터 소스에 연결하고자하는 다른 연구자 발생합니다.
연구진은이 연구에서 그릴 수있는 일반 교훈은 무엇인가? 첫째, 설문 조사 데이터와 디지털 흔적을 풍부에서 엄청난 가치가있다. 둘째, 이러한 응집하더라도, 상업 데이터 소스 "는 접지 진실"로 간주되지 않으며, 어떤 경우에는 이들이 유용 할 수있다. 사실, (그들은 항상 하회 할에서)하지 절대 진리에 대한 이러한 데이터 소스를 비교하는 것이 가장 좋습니다. 오히려 변함도 오차가 가능한 다른 데이터 소스로 비교하는 것이 좋다.