풍성한 질문에서 설문 조사 데이터는 몇 가지 중요한 측정치를 포함하지만 다른 통계치를 포함하지 않는 큰 데이터 소스 주변의 컨텍스트를 구축합니다.
설문 조사 데이터와 큰 데이터 소스를 결합하는 한 가지 방법은 풍부한 질문을 하는 과정입니다. 풍부하게 묻는 질문에서 큰 데이터 소스에는 몇 가지 중요한 측정 값이 포함되어 있지만 다른 측정 값은 없으므로 조사원은 설문 조사에서 이러한 누락 된 측정 값을 수집 한 다음 두 데이터 소스를 함께 연결합니다. 풍성한 질문의 한 예는 Burke and Kraut (2014) 가 페이스 북에서 상호 작용하여 우정의 힘을 증가시키는 지 여부에 관한 연구이다. 이 경우 Burke와 Kraut은 설문 조사 데이터를 Facebook 로그 데이터와 결합했습니다.
그러나 버크 (Burke)와 크라우 트 (Kraut)는 연구자들이 일반적으로 직면하고있는 두 가지 큰 문제를 다룰 필요가 없다는 것을 의미했습니다. 첫째, 실제로 하나의 데이터 세트의 올바른 레코드가 올바른 레코드와 일치하는지 확인하는 데 사용할 수있는 고유 한 식별자가 두 데이터 소스에 없으면 개별 레코드 수준의 데이터 세트 ( 레코드 연결 이라고하는 프로세스)를 함께 연결하는 것이 어려울 수 있습니다 다른 데이터 세트에서. 풍부한 질문의 두 번째 주요 문제점은 데이터를 생성하는 프로세스가 독점적 일 수 있고 2 장에서 설명 된 많은 문제의 영향을 받기 쉽기 때문에 큰 데이터 소스의 품질이 종종 연구자가 평가하기 어렵다는 것입니다. 다시 말해, 풍부한 질문은 종종 품질이 알려지지 않은 블랙 박스 데이터 소스에 대한 설문 조사의 오류가 발생하기 쉬운 연결을 포함합니다. 그러나 이러한 문제에도 불구하고 미국의 투표 패턴 연구에서 Stephen Ansolabehere와 Eitan Hersh (2012) 가 시연했던 것처럼 풍부한 질문을 통해 중요한 연구를 수행 할 수 있습니다.
유권자 투표율은 정치 과학에 대한 광범위한 연구 주제였으며, 과거에는 투표자와 그 이유에 대한 연구원의 이해가 일반적으로 설문 조사 데이터 분석을 기반으로 이루어졌습니다. 그러나 미국에서의 투표는 각 시민이 투표했는지 여부를 정부가 기록한다는 점에서 비정상적인 행동입니다. 물론 정부는 각 시민이 누구에게 투표하는지 기록하지 않습니다. 수년 동안,이 정부의 투표 기록은 종이 형태로 입수 할 수 있었고, 전국 각지의 지방 정부 사무실에 흩어져있었습니다. 이것은 정치 과학자들이 유권자에 대한 완전한 그림을 갖고 투표에 대한 설문 조사에서 실제 투표 행위와 비교하는 것은 매우 어렵지만 불가능하지는 않습니다 (Ansolabehere and Hersh 2012) .
그러나이 투표 기록은 현재 디지털화되었으며, 많은 민간 기업들이 모든 미국인들의 투표 행위를 포함하는 포괄적 인 마스터 투표 파일을 만들기 위해 체계적으로 수집하고 병합했습니다. Ansolabehere와 Hersh는 유권자의 더 나은 그림을 개발하는 데 도움이되도록 주된 투표 파일을 사용하기 위해 카탈리스트 (Catalist) LCC와 제휴했습니다. 또한, 데이터 수집 및 조화에 많은 자원을 투자 한 회사가 수집하고 관리하는 디지털 레코드에 의존 한 연구 결과에 따라 회사의 도움 없이도 아날로그 레코드를 사용하여 이전의 노력보다 많은 이점을 얻을 수있었습니다.
2 장의 많은 큰 데이터 소스와 마찬가지로 Catalyst 마스터 파일에는 Ansolabehere 및 Hersh가 필요로하는 인구 통계 학적, 태도 및 행동 정보가 많이 포함되어 있지 않았습니다. 사실 그들은 특히 설문 조사에서보고 된 투표 행위를 검증 된 투표 행위 (즉, Catalist 데이터베이스의 정보)와 비교하는 데 관심이있었습니다. 따라서 Ansolabehere와 Hersh는이 장의 앞 부분에서 언급 한 대규모 사회 조사 인 CCES에서 원하는 데이터를 수집했습니다. 그런 다음 데이터를 카탈리스트에게 넘겨 주었고 카탈리스트는 카탈리스트의 검증 된 투표 행동, CCES의 자기보고 투표 행동 및 응답자의 인구 통계 및 태도 (CCES)를 포함하는 병합 된 데이터 파일을 제공했습니다 (그림 3.13). 즉, Ansolabehere와 Hersh는 투표 기록 데이터를 설문 데이터와 결합하여 데이터 소스별로 개별적으로 불가능한 연구를 수행했습니다.
결합 된 데이터 파일을 통해 Ansolabehere와 Hersh는 세 가지 중요한 결론에 도달했습니다. 첫째, 투표의 과다보고가 만연합니다. 투표자가 아닌 투표자의 거의 절반이 투표를 신고했으며 누군가가 투표를 신고하면 실제로 투표 한 확률이 80 %에 불과합니다. 둘째, 과다보고는 무작위가 아닙니다. 과다보고는 공무에 종사하는 고소득, 교육 수준이 높은 당파 사이에서 더 일반적입니다. 즉, 투표 가능성이 가장 큰 사람들은 투표에 대한 거짓말을 가장 많이합니다. 셋째, 가장 중요한 것은 지나치게보고하는 체계적인 특성 때문에 투표자와 비 투표자 간의 실제 차이는 설문 조사에서 나타난 것보다 작습니다. 예를 들어, 학사 학위를 가진 사람들은 투표를보고 할 확률이 22 퍼센트 정도 높지만 실제로 투표 할 확률은 10 퍼센트 포인트에 불과합니다. 놀랍지도 않게도, 기존의 자원 기반 투표 이론이 실제로 누가 투표 하는지를 예측하는 것보다 투표자 (과거에 연구자가 사용한 데이터)를 누가 더 잘 예측하는지 알 수 있습니다. 따라서, Ansolabehere and Hersh (2012) 의 경험적 발견은 새로운 이론이 투표를 이해하고 예측할 것을 요구한다.
그러나 우리는이 결과를 얼마만큼 신뢰해야합니까? 이러한 결과는 알 수없는 양의 오류가있는 블랙 박스 데이터에 오류가 발생하기 쉬운 연결에 달려 있음을 기억하십시오. 보다 구체적으로 말하면, 결과는 두 가지 중요한 단계에 달려 있습니다. (1) 정확한 마스터 데이터 파일을 생성하기 위해 여러 이질적인 데이터 소스를 결합하는 Catalyst의 기능, (2) 조사 데이터를 마스터 데이터 파일에 연결하는 Catalyst의 기능. 이 단계들 각각은 어려우며 어느 단계에서 오류가 있어도 연구자들은 잘못된 결론을 이끌 수 있습니다. 그러나 데이터 처리 및 링크는 모두 Catalyst가 기업으로 계속 존재하는 데있어 매우 중요합니다. 따라서 연구자가 일치 할 수없는 규모로 이러한 문제를 해결하는 데 리소스를 투자 할 수 있습니다. Ansolabehere와 Hersh는이 두 단계의 결과를 확인하기 위해 여러 단계를 거쳤습니다. 그 중 일부는 독점적이지만이 검사는 설문 조사 데이터를 블랙 박스 대형 데이터에 연결하려는 다른 연구자에게 유용 할 수 있습니다 출처.
연구원이이 연구에서 얻을 수있는 일반적인 교훈은 무엇입니까? 첫째, 큰 데이터 소스를 조사 데이터로 풍부하게하고 큰 데이터 소스로 조사 데이터를 풍부하게하는 것에서 두 가지면에서 엄청난 가치가 있습니다. 이 두 가지 데이터 소스를 결합하여 연구원은 개별적으로도 불가능했던 것을 할 수있었습니다. 두 번째 일반적인 교훈은 카탈리스트의 데이터와 같은 집계 된 상업 데이터 소스가 "근거 진실"로 간주되어서는 안되지만, 경우에 따라 유용 할 수 있다는 것입니다. 회의론자들은 때때로 이러한 집계 된 상용 데이터 소스를 절대적인 진실과 비교하고 이러한 데이터 소스가 부족하다는 점을 지적합니다. 그러나이 경우 회의론자들은 잘못된 비교를하고 있습니다. 연구자가 사용하는 모든 데이터는 절대 진실에 미치지 못합니다. 대신 집계 된 상업용 데이터 소스를 다른 사용 가능한 데이터 소스 (예 : 자체보고 된 투표 동작)와 비교하는 것이 좋습니다. 오류는 항상 발생합니다. 마지막으로 Ansolabehere와 Hersh의 세 번째 일반적인 교훈은 어떤 상황에서는 많은 민간 기업이 복잡한 사회적 데이터 집합을 수집하고 조화롭게 만드는 거대한 투자로부터 이익을 얻을 수 있다는 것입니다.