이 섹션은 서술로 읽을 수보다는 기준으로서 사용되도록 설계된다.
이 장의 주제의 대부분은 또한 다음과 같은 여론 조사의 미국 협회 (AAPOR)에서 최근 대통령 주소에 감동 한 Dillman (2002) , Newport (2011) , Santos (2014) , 및 Link (2015) .
조사 연구의 발전에 대한 자세한 역사적 배경을 참조 Smith (1976) 와 Converse (1987) . 조사 연구의 세 시대의 아이디어에 대한 자세한 내용을 참조하십시오 Groves (2011) 와 Dillman, Smyth, and Christian (2008) (약간 다르게 세 시대를 나누기).
조사 연구의 두 번째 시대에 대한 첫 번째의 전환 내부 피크입니다 Groves and Kahn (1979) 사이의 자세한 일대일 비교를 수행, 대면 및 전화 설문 조사. Brick and Tucker (2007) 임의의 숫자 전화 걸기 샘플링 방법의 역사적 발전에 다시 보인다.
어떻게 조사 연구에 더 많은 사회의 변화에 따라 과거에 변경을 참조 Tourangeau (2004) , Mitofsky (1989) , 및 Couper (2011) .
때로는 응답자 스스로가 자신의 내부 상태를 인식하지 않기 때문에 질문을 내부 상태에 대해 배우는 것은 문제가 될 수 있습니다. 예를 들어, Nisbett and Wilson (1977) 저자가 결론 논문에서 "환자는 때때로 (가) 모르고있다 :"정신 과정에 대한 구두보고를 우리가 알 수있는 것보다 더 많은 말하는 :. "연상 제목 멋진 종이가 중요한 응답 영향 자극의 유무, (b) 상기 반응의 유무 및 (c) 자극 응답에 영향을했음을 알지 알지. "
연구진은보고 행동이나 태도에 관찰 된 행동을 선호한다 인수에 대한 내용은 Baumeister, Vohs, and Funder (2007) (심리학)와 Jerolmack and Khan (2014) 과 응답 (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (사회학). 질문도 관찰의 차이는 연구자들이 언급하고 현시 선호 이론에 대해 이야기 경제에 발생한다. 예를 들어, 연구원들은 (명시된 기본 설정) 아이스크림을 먹고 또는 헬스 클럽에가는 선호 여부 응답자 질문을 할 수 또는 연구는 사람들이 아이스크림을 먹는 빈도를 관찰하고 체육관 (현시 선호 이론)에 갈 수 있습니다. 경제에 명시된 기본 데이터의 특정 유형의 깊은 회의가 (Hausman 2012) .
이 논쟁에서 메인 테마는보고 된 행동이 항상 정확하지 않은 것입니다. 하지만, 자동으로 기록 동작은 정확하지 않을 수 있습니다 관심의 샘플을 수집 할 수 없습니다, 연구자에 액세스 할 수 없습니다. 따라서, 일부 상황에서, 내가보고 된 문제가 유용 할 수 있다고 생각합니다. 또한, 이러한 논쟁에서 두 번째 메인 테마 감정, 지식, 기대, 의견에 대한 보고서가 항상 정확하지 않은 것입니다. 그러나 이러한 내부 상태에 대한 정보가 필요한 경우, 연구자-중 하나는 어떤 행동을 설명하거나 물건을 설명-다음로서 적합 할 수 있습니다 요청.
총 조사 오류에 책 길이 처리에 대한 내용 Groves et al. (2009) 또는 Weisberg (2005) . 총 조사 오류의 발전의 역사에 대한 내용은 Groves and Lyberg (2010) .
연구 의제 : 표현의 측면에서, 비 응답과 무응답 편향의 문제에 큰 소개 사회 과학 설문 조사에서 비 응답의 국립 연구위원회 보고서이다 (2013) . 또 다른 유용한 개요에 의해 제공됩니다 (Groves 2006) . 또한, 공식 통계 학회지, 여론 분기, 정치 및 사회 과학의 미국 아카데미의 연보의 전체 특별한 문제가 아닌 응답의 주제 발표되었다. 마지막으로, 응답 속도의 산출 실제로 여러 가지가있다; 이러한 접근 방식은 여론 연구원의 미국 협회 (AAPOR)의 보고서에 자세히 설명되어 있습니다 (Public Opinion Researchers} 2015) .
1936 년 문학 다이제스트 설문 조사 상세하게 연구되어왔다 (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . 또한 우연한 데이터 수집에 대해 경고하는 비유로 사용되어왔다 (Gayo-Avello 2011) . 1936 년, 조지 갤럽 샘플링의보다 복잡한 형태를 사용하고, 훨씬 더 작은 샘플보다 정확한 추정을 생성 할 수 있었다. 문학 다이제스트를 통해 갤럽의 성공은 이정표 조사 연구의 발전이었다 (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
측정의 관점에서 설계, 설문에 대한 좋은 첫 번째 자원은 Bradburn, Sudman, and Wansink (2004) . 태도의 질문에 특별히 초점을 맞춘 고급 치료에 대한 내용은 Schuman and Presser (1996) . 사전 테스트 문제에 더 많은에서 사용할 수 있습니다 Presser and Blair (1994) , Presser et al. (2004) , 그리고 제 8 장 Groves et al. (2009) .
조사 비용과 조사 오류 사이의 트레이드 오프의 고전, 책 길이의 치료는 Groves (2004) .
표준 확률 샘플링 및 추정의 고전적인 책 길이의 치료는 Lohr (2009) (자세한 소개) 및 Särndal, Swensson, and Wretman (2003) (고급). 사후 층화 및 관련 방법의 고전적인 책 길이의 치료는 Särndal and Lundström (2005) . 일부 디지털 시대 설정에서, 연구자들은 과거에 종종 사실이 아니었다 않은 응답자에 대해 꽤 알고있다. 연구진은 비 응답자에 대한 정보가있을 때 무응답 조정의 다른 형태가 가능하다 (Kalton and Flores-Cervantes 2003; Smith 2011) .
의 X 박스 연구 Wang et al. (2015) 연구진은 세포가 많은, 많은 세포가있는 경우에도 의미 추정 할 수 있습니다 (때로는 "미스터 P"라고 MRP) 다중 회귀 분석 및 사후 층화라는 기술을 사용합니다. 이 기술의 평가의 질에 대한 몇 가지 논쟁이 있지만, 그것은 탐구 유망 지역처럼 보인다. 이 기술은 처음에 사용 된 Park, Gelman, and Bafumi (2004) , 이후의 사용 및 토론이 있었다 (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . 각각의 무게와 셀 기반 가중치 사이의 연결에 대한 자세한 내용을 참조하십시오 Gelman (2007) .
가중 웹 설문 조사에 다른 방법을 참조 Schonlau et al. (2009) , Valliant and Dever (2011) , 그리고 Bethlehem (2010) .
샘플 매칭에 의해 제안 된 Rivers (2007) . Bethlehem (2015) 샘플 매칭의 성능이 실제로 다른 샘플링 방법 (예를 들어, 층화 추출법) 및 기타 조정 방법 (예를 들면, 사후 층화)과 유사 할 것이라고 주장한다. 온라인 패널에 대한 자세한 내용은 참조 Callegaro et al. (2014) .
때로는 연구자들은 확률 샘플과 비 확률 표본은 비슷한 품질의 추정치를 얻을 수 있음을 발견 하였다 (Ansolabehere and Schaffner 2014) 하지만, 다른 비교는 비 확률 표본 악화 할 것으로 나타났습니다 (Malhotra and Krosnick 2007; Yeager et al. 2011) . 이러한 차이에 대한 한 가지 가능한 이유는 비 확률 표본은 시간이 지남에 개선이다. 비 확률 표본 추출 방법보다 비관적 인 견해를 들어 비 확률 표본 추출에 상기 AAPOR 태스크 포스 참조 (Baker et al. 2013) , 그리고 또한 요약 보고서를 다음과 해설을 읽어 보시기 바랍니다.
비 확률 표본에 바이어스를 줄이기 위해 가중치의 효과에 대한 메타 분석을 위해, 표 2.4를 참조 Tourangeau, Conrad, and Couper (2013) 조정이 유용하지만 오류를 범할 수정 것 같다 "결론 저자를 선도하는. . . "
Conrad and Schober (2008) 미래의 설문 조사 인터뷰를 꿈꾸다 제목 편집 볼륨을 제공하며,이 섹션의 주제를 많이 다루고있다. Couper (2011) 과 유사한 주제를 해결하고 Schober et al. (2015) 새로운 설정에 맞는 데이터 수집 방법은 고품질의 데이터를 발생하는 방법의 좋은 예를 제공한다.
사회 과학 조사를위한 페이스 북 앱을 사용하는 또 다른 흥미로운 예를 들어, 참조 Bail (2015) .
설문 조사를 참가자들에게 즐겁고 소중한 경험을 만들기에 대한 자세한 조언을 들어, 맞춤형 설계 방법에 대한 작업을 참조하십시오 (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) 생태 순간 평가와 관련된 방법의 책 길이의 치료를 제공합니다.
Judson (2007) 같은 설문 조사 및 관리 데이터를 결합하는 프로세스 설명 "정보 통합을,"이 방법의 몇 가지 장점을 설명하고 몇 가지 예를 제공합니다.
연구자들은 디지털 추적 및 관리 데이터를 사용할 수있는 또 다른 방법은 특정 특성을 가진 사람들을위한 샘플링 프레임이다. 그러나 이러한 기록은 또한 개인 정보 보호에 관련된 질문 만들 수 있습니다 샘플링 프레임을 사용하는 액세스 (Beskow, Sandler, and Weinberger 2006) .
그것은 내가 그것을 설명한 방법에서 나타날 수 있습니다으로 증폭 묻는와 관련하여,이 방법은 새로운 것이 아니다. 이 방법은 통계 모델 기반의 사후 층화에 3 대 분야에 깊은 연결이있다 (Little 1993) , 전가 (Rubin 2004) , 작은 면적 추정 (Rao and Molina 2015) . 또한, 의료 연구에 대리 변수의 사용에 관한 것이다 (Pepe 1992) .
디지털 추적 데이터에 액세스에 관한 윤리적 문제뿐만 아니라, 증폭 묻고는 사람들이 조사에서 공개를 선택하지 않을 수 있습니다 민감한 특성을 추론하는 데 사용할 수 있습니다 (Kosinski, Stillwell, and Graepel 2013) .
의 비용과 시간을 추정 Blumenstock, Cadamuro, and On (2015) 등의 청소 및 통화 데이터를 처리 할 수있는 비용으로 하나의 추가 조사 및 포함하지 않는 고정 비용을 가변 비용 비용에 대한 자세한 내용을 참조하십시오. 일반적으로, 증폭 물어 아마 높은 고정 비용과 디지털 실험 (제 4 장 참조)과 유사한 낮은 가변 비용이있을 것이다. 더에 사용되는 데이터에 대한 자세한 Blumenstock, Cadamuro, and On (2015) 종이에 Blumenstock and Eagle (2010) 과 Blumenstock and Eagle (2012) . 여러 imputuation에서 접근 (Rubin 2004) 증폭 묻는에서 추정 캡처 불확실성 도움이 될 수 있습니다. 연구원이 집계 카운트보다는 개인 수준의 특성에 대해 신경 만 물어 증폭하고있는 경우, 다음의 방법 King and Lu (2008) 와 Hopkins and King (2010) 유용 할 수 있습니다. 에서 기계 학습 방법에 대한 자세한 내용은 Blumenstock, Cadamuro, and On (2015) 을 참조 James et al. (2013) (자세한 소개) 또는 Hastie, Tibshirani, and Friedman (2009) (고급). 또 다른 인기있는 기계 학습 교재입니다 Murphy (2012) .
농축 묻는 대해서는, Ansolabehere 및 허시에서 결과 (2012) 두 가지 주요 단계에 힌지 : 1)로 조사 데이터를 정확 마스터 데이터 파일을 생성하도록 여러 다른 데이터 소스를 결합하여, 2) Catalist의 능력 링크 Catalist 능력 마스터 데이터 파일. 따라서, Ansolabehere 및 허시는 신중하게 각 단계를 확인합니다.
마스터 데이터 파일을 만들려면 Catalist가 결합 등 다양한 소스로부터 정보 조화 : 다른 지정되지 않은 상업 업체에서 여러 투표 기록의 각 상태에서 스냅 샷, 주소 레지스트리의 우체국의 국가 변경 데이터 및 데이터. 이 모든 청소 및 병합이 발생하는 방법에 대한 피투성이의 세부 사항은이 책의 범위를 벗어난다하지만 아무리 조심이 과정은, 원래 데이터 소스의 오류를 전파하고 오류를 소개합니다. Catalist가 데이터 처리를 논의 원시 데이터의 일부를 제공하고자 였지만 연구자들은 전체 Catalist 데이터 파이프 라인을 검토하기 위해, 단순히 불가능했다. 오히려, 연구자들은 Catalist 데이터 파일이 오류의 알 수없는, 아마도 알 수없는, 양을 가지고 상황에 있었다. 비평가하지 응답자 잘못 읽는함으로써, CCES에 조사 보고서 및 Catalist 마스터 데이터 파일의 동작 사이의 큰 차이가 마스터 데이터 파일에 오류가 발생되었음을 추측 할 수 있기 때문에 심각한 문제이다.
Ansolabehere와 허시는 데이터 품질 문제를 해결하는 두 가지 방법을했다. 첫째, Catalist 마스터 파일에 투표에 자기보고 투표를 비교뿐만 아니라, 연구자는 비교 자체보고 파티, 인종, 유권자 등록 상태 (예를 들어, 등록 여부 등록) 및 투표 방법 (예를 들면, 사람의, 부재자 Catalist 데이터베이스에서 발견되는 값으로 투표 용지 등). 이 네 가지 인구 통계 학적 변수, 연구자들은 투표에 대한보다 Catalist 마스터 파일의 조사 보고서와 데이터 사이의 계약의 훨씬 더 높은 수준을 발견했다. 따라서, Catalist 마스터 데이터 파일은 열악한 전반 품질이 아니라는 것을 시사 투표 이외 형질 고품질의 정보가 나타난다. 둘째, Catalist 데이터를 사용하여 부분적하는 발견을 Ansolabehere 및 허시 카운티 투표 기록 품질의 세 가지 방법을 개발하고, 그들은 투표 오버 리포팅의 추정 속도가 이러한 데이터 품질 측정 중 본질적으로 관련되지 않은 것을 발견 오버보고의 높은 금리가 비정상적으로 낮은 데이터 품질 군에 의해 구동되지 않는 것이 좋습니다.
이 마스터 투표 파일의 생성을 감안 잠재적 오류의 제 2 소스는 조사에 레코드를 연결한다. 이 결합을 잘못 할 경우 예를 들어,보고 된 유효 투표 거동의 차이 오버 추정치로 이어질 수 (Neter, Maynes, and Ramanathan 1965) . 모든 사람이 모두 데이터 소스에 있었다 안정, 고유 식별자를 가지고 있다면, 다음 링크는 사소한 것이다. 미국과 대부분의 다른 국가에서는, 그러나, 보편적 인 식별자가 없습니다. 또한, 이러한 있었다하더라도 식별자 사람들은 아마도 연구 조사에 제공하기를 주저 할 것이다! 이름, 성별, 출생 연도 및 홈 주소 : 따라서 Catalist이 경우, 각 응답자에 대한 정보의 네 부분을 불완전 식별자를 사용하여 결합을 수행했다. 예를 들어, Catalist는 CCES에서 호미 J 심슨가 마스터 데이터 파일의 홈런 제이 심슨 같은 사람이라면 결정했다. 실제로, 매칭 연구자에 대한 설상가상하기 어렵고 지저분한 과정, 그리고 Catalist 독점으로의 정합 기법을 고려했다.
매칭 알고리즘을 검증하기 위해, 그들은 두 문제에 의존. MITRE 사 : 첫째, Catalist는 독립적 인 타사에 의해 실행 된 일치하는 대회에 참가했다. MITRE 모든 참가자 개의 노이즈 데이터 파일을 제공 일치하고, 다른 팀 MITRE 가장 매칭을 리턴 경쟁. MITRE 자체가 올바른 매칭을 알고 있기 때문에 그들은 팀에 성공했습니다. 경쟁 40 기업 중 Catalist은 2 위를했다. 독점 기술의 독립적 인 타사 평가의이 종류는 매우 희귀하고 매우 가치가있다; 그것은 Catalist의 일치 절차는 최첨단에 근본적 것을 우리에게 확신을 주어야한다. 그러나 최첨단 충분하다? 이 일치하는 경쟁뿐만 아니라, Ansolabehere 및 허시는 Catalist에 대한 자신의 일치 도전을 만들었습니다. 이전 프로젝트에서 Ansolabehere 및 허시는 플로리다에서 유권자 기록을 수집했다. 그들은 자신의 분야 Catalist에 편집 됨 다음 그 값에이 분야의 Catalist의 보고서를 비교하여 몇 가지 이러한 기록의 일부를 제공했다. 다행히, Catalist의 보고서는 Catalist 자신의 마스터 데이터 파일에 일부 유권자의 기록과 일치 할 수 있음을 나타내는 보류 값에 근접했다. 이 두 가지 문제, Ansolabehere 및 허시하여 타사에 의해 하나 하나, 우리는 자신의 정확한 구현에게 자신을 검토 할 수 있지만, 우리에게 Catalist 매칭 알고리즘에 더 많은 자신감을 준다.
투표의 유효성을 검사하기 위해 많은 이전의 시도가 있었다. 그 문학에 대한 개요를 참조 Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , 및 Hanmer, Banks, and White (2014) .
또한이 경우 연구자 Catalist 데이터의 품질에 고무 되었더라도, 상업 벤더 다른 평가가 덜 열광적되었음을 주목하는 것이 중요하다. 연구진은 불량을 발견 한 경우 (자신이 세 업체에서 함께 데이터를 병합 : Acxiom의, Experian의 및 InfoUSA) 마케팅 시스템 그룹에서 소비자 파일에 대한 설문 조사 데이터 (Pasek et al. 2014) . 즉, 연구자는 올바른 것으로 조사 응답과 일치하지 않은 데이터 파일, 데이터 파일이 질문 다수하고 누락 된 데이터 패턴에 대한 데이터를 누락하는 것은 누락 된 데이터가 체계적 다른 단어 (보고 측량 값의 상관 관계 낮았다 ), 랜덤 없습니다.
설문 조사 및 관리 데이터 사이의 레코드 연결에 대한 자세한 내용을 참조 Sakshaug and Kreuter (2012) 과 Schnell (2013) . 일반적으로 레코드 연결에 대한 자세한 내용을 참조하십시오 Dunn (1946) 과 Fellegi and Sunter (1969) (역사)와 Larsen and Winkler (2014) (현대)를. 비슷한 접근 방식은 또한 데이터 중복 제거, 인스턴스 식별, 이름 일치, 중복 검색 등의 이름에서 컴퓨터 과학에서 개발, 기록 검출 중복 된 (Elmagarmid, Ipeirotis, and Verykios 2007) . 개인 식별 정보의 송신을 필요로하지 않는 결합을 기록하는 방법을 보존 프라이버시도있다 (Schnell 2013) . 페이스 북의 연구원들은 probabilisticsly 투표 동작으로 자신의 기록을 연결하는 절차를 개발 (Jones et al. 2013) ; 이 링크는 내가 4 장에 대해 말씀 드리죠 실험을 평가하기 위해 수행되었다 (Bond et al. 2012) .
정부 관리 기록에 대규모 사회 조사를 링크의 또 다른 예는 건강과 퇴직 조사 및 사회 보장국 (Social Security Administration)에서 온다. 그 연구에 대한 자세한 내용은 동의 절차에 대한 정보를 포함하여, 참조 Olson (1996) 와 Olson (1999) .
Catalist의 일부 국가 정부의 통계 사무실에서 일반적으로 직원이-인 마스터 데이터 파일 - 프로세스로 관리 기록의 많은 소스를 결합하는 프로세스입니다. 통계 스웨덴에서 두 연구자는 주제에 대한 자세한 책을 쓴 (Wallgren and Wallgren 2007) . (Olmstead 카운티, 미네소타, 메이요 클리닉의 집) 미국의 한 카운티에서이 방법의 예를 들어, 참조 Sauver et al. (2011) . 행정 기록에 나타날 수있는 오류에 대한 자세한 내용은 참조 Groen (2012) .