이 장의 많은 주제들은 Dillman (2002) , Newport (2011) , Santos (2014) 및 Link (2015) )와 같은 미국 대중 여론 조사 협회 (AAPOR)의 최근 대통령 연설에서도 나타났습니다. Link (2015) .
조사 연구와 심층 면접의 차이점에 대해서는 Small (2009) 참조하십시오. 깊이있는 인터뷰와 관련된 것은 민족지라고 불리는 일련의 접근 방식입니다. 민족 지학 연구에서 연구자들은 일반적으로 자연 환경에서 참가자들과 더 많은 시간을 보냅니다. 민족 지학과 심층 인터뷰의 차이점에 대한 자세한 내용은 Jerolmack and Khan (2014) 참조하십시오. 디지털 민족지학에 대한 더 많은 정보는 Pink et al. (2015) .
조사 연구의 역사에 대한 나의 설명은 일어난 많은 흥미 진진한 발전을 포함하기에는 너무 짧습니다. 역사적인 배경에 대해서는 Smith (1976) , Converse (1987) 및 Igo (2008) . 조사 연구의 세 시대에 대한 아이디어는 Groves (2011) 와 Dillman, Smyth, and Christian (2008) (세 가지 시대를 약간 다르게 나누어 짐)를 참조하십시오.
Groves and Kahn (1979) 은 대면과 전화 조사 사이의 일대일 비교를 통해 설문 조사 연구에서 첫 번째 시대부터 두 번째 시대로의 전환을 살펴 봅니다. ( ??? ) 는 무작위 - 전화 걸기 샘플링 방법의 역사적 발전을 되돌아 본다.
사회의 변화에 대한 응답으로 설문 조사가 과거에 어떻게 변화되었는지에 대해서는 Tourangeau (2004) , ( ??? ) , Couper (2011) .
요구와 관찰의 강점과 약점은 심리학자들 ( Baumeister, Vohs, and Funder (2007) )과 사회 학자들 ( Jerolmack and Khan (2014) , Maynard (2014) , Cerulo (2014) , Vaisey (2014) , Jerolmack and Khan (2014) ], 질문과 관찰의 차이점은 연구자가 명시하고 밝힌 선호에 대해 이야기하는 경제학에서 발생한다. 예를 들어, 연구원은 아이스크림을 먹거나 체육관에가는 것이 더 Jerolmack and Khan (2014) 묻는다. (명시된 선호도), 또는 사람들이 아이스크림을 먹고 체육관에가는 빈도 (관찰 된 선호도)를 관찰 할 수 있습니다 Hausman (2012) 에서 설명한 바와 같이 특정 유형의 경제 선호도 데이터에 대해 깊은 회의가 있습니다.
이러한 논쟁의 주요 주제는보고 된 행동이 항상 정확한 것은 아니라는 점입니다. 그러나 2 장에서 설명한 것처럼 큰 데이터 소스는 정확하지 않을 수 있으며 관심있는 샘플에서 수집되지 않을 수 있으며 연구자가 액세스 할 수 없을 수도 있습니다. 따라서 어떤 상황에서는보고 된 행동이 유용 할 수 있다고 생각합니다. 또한 이러한 논쟁에서 두 번째 주요 주제는 감정, 지식, 기대 및 의견에 대한 보고서가 항상 정확한 것은 아니라는 것입니다. 그러나 이러한 내부 상태에 대한 정보가 연구자가 필요로하는 경우 (일부 행동을 설명하는 데 도움을 주거나 설명 할 내용으로 설명하는 경우) 질문하는 것이 적절할 수 있습니다. 물론 응답자 자신이 내부 상태를 인식하지 못하기 때문에 질문을함으로써 내부 상태에 대해 학습하는 것이 문제가 될 수 있습니다 (Nisbett and Wilson 1977) .
Groves (2004) 1 장은 전체 설문 조사 틀을 기술하기 위해 설문 조사 연구자들이 사용하는 용어가 때때로 일치하지 않는 우수한 업무를 수행합니다. 총 조사 오류 틀에 대한 서적 길이의 처리에 대해서는 Groves et al. (2009) , 역사적 개요는 Groves and Lyberg (2010) 참조하십시오.
오류를 편향과 분산으로 분해하는 아이디어는 기계 학습에서도 나타난다. 예를 들어 Hastie, Tibshirani, and Friedman (2009) 7.3 절을 참조하십시오. 이것은 종종 연구자들이 "바이어스 - 분산 (bias-variance)"절충에 대해 이야기하도록 유도합니다.
대표성 측면에서 비 응답 및 비 응답 바이어스에 대한 훌륭한 소개는 사회 과학 조사에서 응답하지 않는 국가 연구위원회 보고서 : 연구 의제 (2013) 입니다. Groves (2006) 는 또 다른 유용한 개요를 제공합니다. 또한 공식 통계 저널 , 사설 여론 분기 별 및 미국 정치 정치 학회 연보의 모든 특별 쟁점이 무응답 주제로 출간되었습니다. 마지막으로 응답률을 계산하는 방법에는 여러 가지가 있습니다. 이러한 접근 방식은 여론 연구자의 미국 협회 (AAPOR)의 보고서에 자세히 설명되어 있습니다 ( ??? ) .
1936 Literary Digest 투표에 대한 자세한 내용은 Bryson (1976) , Squire (1988) , Cahalan (1989) 및 Lusinchi (2012) . Gayo-Avello (2011) 데이터 수집에 대한 비유적인 경고 Gayo-Avello (2011) 설문 조사에 대한 또 다른 토론은 Gayo-Avello (2011) 참조하십시오. 1936 년 George Gallup은보다 정교한 표본 추출 방법을 사용하여 훨씬 더 작은 표본을 사용하여보다 정확한 추정치를 산출 할 수있었습니다. Gallup이 Literary Digest를 성공시킨 것은 @ converse_survey_1987의 3 장에 설명 된 조사 연구 개발의 획기적인 사건이었습니다. Ohmer (2006) 의 제 4 장 Ohmer (2006) ; @ igo_averaged_2008의 3 장.
측정 측면에서 설문지를 디자인하기위한 훌륭한 자료는 Bradburn, Sudman, and Wansink (2004) 입니다. 보다 진보 된 치료법에 대해서는 자세하게 질문하는 Schuman and Presser (1996) Saris and Gallhofer (2014) 좀더 일반적인 Saris and Gallhofer (2014) 를 참조하십시오. ( ??? ) 에서 묘사 된 것처럼, 측정에 대한 약간 다른 접근법이 psychometrics에서 취해집니다. 예비 시험에 관한 더 자세한 내용은 Presser and Blair (1994) , Presser et al. (2004) , Groves et al. (2009) 8 장 Groves et al. (2009) . 조사 실험에 대한 자세한 내용은 Mutz (2011) 참조하십시오.
비용면에서 서베이 비용과 조사 오류 간의 장단점에 대한 고전적인 서적 처리는 Groves (2004) 입니다.
표준 확률 표본 추출 및 추정에 대한 두 가지 고전 서적 처리법은 Lohr (2009) (입문)과 Särndal, Swensson, and Wretman (2003) (고급)입니다. 후기 층화 및 관련 방법에 대한 고전적인 서적 처리는 Särndal and Lundström (2005) 입니다. 일부 디지털 연령대 설정에서 연구자는 과거에 종종 사실이 아닌 비 응답자에 대해 꽤 잘 알고 있습니다. Kalton and Flores-Cervantes (2003) 와 Smith (2011) 기술 한 것처럼, 응답자가 비 응답자에 대한 정보를 가지고있을 때 다른 형태의 무 반응 조정이 가능합니다.
W. Wang et al. (2015) 의 Xbox 연구 W. Wang et al. (2015) 는 연구원들이 많은 그룹이 있더라도 그룹 평균을 추측 할 수있게 해주는 다단계 회귀 및 사후 층화 기법 ( "Mr. P.")을 사용합니다. 이 기술로 얻은 견적의 품질에 대한 몇 가지 논쟁이 있긴하지만, 탐구 할 유망한 영역 인 것처럼 보입니다. 이 기술은 Park, Gelman, and Bafumi (2004) 에서 처음 사용되었으며 Park, Gelman, and Bafumi (2004) 이후 사용 및 토론이있었습니다 (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . 개별 가중치와 그룹 가중치 간의 연결에 대한 자세한 내용은 Gelman (2007) 참조하십시오.
웹 조사에 가중치를 부여하는 다른 방법에 대해서는 Schonlau et al. (2009) , Bethlehem (2010) , Valliant and Dever (2011) . 온라인 패널은 확률 샘플링 또는 비 확률 샘플링을 사용할 수 있습니다. 온라인 패널에 대한 자세한 내용은 Callegaro et al. (2014) .
때때로, 연구자들은 확률 표본과 비 확률 표본이 유사한 품질의 추정치를 산출한다는 것을 발견했지만 (Ansolabehere and Schaffner 2014) , 다른 비교에서는 비 확률 표본이 더 나 빠진다는 것을 발견했다 (Malhotra and Krosnick 2007; Yeager et al. 2011) . 이러한 차이의 한 가지 가능한 이유는 비 확률 샘플이 시간이 지남에 따라 향상되었다는 것입니다. 비 확률 샘플링 방법에 대한보다 비관적 인 견해에 대해서는 AAPOR Task Force for Non Probability Sampling (Baker et al. 2013) 참조하십시오 (Baker et al. 2013) 또한 요약 보고서 다음의 주석을 읽는 것이 좋습니다.
Conrad and Schober (2008) 는 미래의 설문 조사 인터뷰에 대한 내용을 편집 한 책으로, 질문의 미래에 대한 다양한 견해를 제시합니다. Couper (2011) 유사한 주제를 다룬다 Schober et al. (2015) 는 새로운 설정에 맞게 조정 된 데이터 수집 방법으로 고품질 데이터가 생성되는 좋은 예를 제공합니다. Schober and Conrad (2015) 는 사회 변화에 맞춰 조사 연구 프로세스를 지속적으로 조정하는 것에 관한보다 일반적인 논거를 제안했다.
Tourangeau and Yan (2007) 은 민감한 질문에서의 사회적 바람직성 편향에 대한 이슈를 검토하고, Lind et al. (2013) 은 사람들이 컴퓨터 관리 인터뷰에서보다 민감한 정보를 공개 할 수있는 몇 가지 이유를 제시합니다. 조사에서 참여율을 높이기위한 인간 면접관의 역할에 대한 더 자세한 내용은 Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013) , Schaeffer et al. (2013) . 혼합 모드 설문 조사에 대한 자세한 내용은 Dillman, Smyth, and Christian (2014) 참조하십시오.
Stone et al. (2007) 은 생태 순간 평가와 관련 방법에 대한 서적을 다루고있다.
설문 조사를 참가자들에게 즐겁고 소중한 경험으로 만들기위한 자세한 내용은 맞춤형 디자인 방법 (Dillman, Smyth, and Christian 2014) 에 대한 작업을 참조하십시오. 사회 과학 설문 조사에 Facebook 앱을 사용하는 또 다른 재미있는 예는 Bail (2015) 참조하십시오.
Judson (2007) 은 설문 조사와 행정 데이터를 "정보 통합"으로 결합하는 과정을 설명하고이 접근법의 몇 가지 장점과 몇 가지 예를 제시합니다.
풍요로운 부탁에 관해서, 투표를 입증하기위한 많은 시도가있었습니다. 그 문헌의 개요는 Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , Berent, Krosnick, and Lupia (2016) . Ansolabehere and Hersh (2012) 에서 발표 된 결과에 대해 회의적인 시각을 얻으려면 Berent, Krosnick, and Lupia (2016) 를 참조하십시오.
Ansolabehere와 Hersh는 Catalist의 데이터 품질에 고무되었지만 다른 상용 공급 업체 평가는 덜 열광적이었습니다. Pasek et al. (2014) 는 설문 조사 데이터를 마케팅 시스템 그룹 (Acxiom, Experian 및 InfoUSA의 세 공급 업체의 데이터를 함께 병합 한)의 소비자 파일과 비교할 때 품질이 좋지 Pasek et al. (2014) 발견했습니다. 즉, 데이터 파일은 연구자가 정확하다고 예상 한 설문 응답과 일치하지 않았으며, 소비자 파일에는 많은 질문에 대한 데이터가 누락되어 누락 된 데이터 패턴이보고 된 설문 값과 상관되었습니다 (즉, 누락 데이터는 체계적이지 무작위가 아니었다).
설문 조사와 행정 데이터의 연계에 대한 자세한 내용은 Sakshaug and Kreuter (2012) 및 Schnell (2013) . 기록적인 연계에 대해서는 Dunn (1946) 과 Fellegi and Sunter (1969) (역사)와 Larsen and Winkler (2014) (현대)를 참조하십시오. 데이터 중복 제거, 인스턴스 식별, 이름 일치, 중복 탐지 및 중복 레코드 탐지 (Elmagarmid, Ipeirotis, and Verykios 2007) 같은 이름으로 컴퓨터 과학에서도 유사한 접근법이 개발되었습니다. 또한 개인 식별 정보의 전송을 요구하지 않는 연계를 기록하기위한 개인 정보 보호 보존 방법이 있습니다 (Schnell 2013) . 페이스 북의 연구원들은 기록을 투표 행동에 확률 적으로 연결하는 절차를 개발했다 (Jones et al. 2013) ; 이 연계는 제 4 장에서 이야기 할 실험을 평가하기 위해 수행되었습니다 (Bond et al. 2012) . 기록 연계 동의에 대한 자세한 내용은 Sakshaug et al. (2012) .
대규모 사회 조사를 정부 행정 기록과 연결하는 또 다른 예는 보건 및 은퇴 조사 및 사회 보장 행정부에서 나옵니다. 동의 절차에 대한 정보를 포함하여 그 연구에 대한 자세한 내용은 Olson (1996, 1999) 참조하십시오.
여러 행정 자료를 마스터 데이터 파일로 결합하는 프로세스 (카탈리스트가 사용하는 프로세스)는 일부 국가 정부의 통계 사무소에서 일반적입니다. 스웨덴 통계청 (Statistics Sweden)의 두 연구자 (Wallgren and Wallgren 2007) 주제에 대한 자세한 책을 썼다 (Wallgren and Wallgren 2007) . 미국의 한 군 (Olmstead County, Minnesota, Mayo Clinic의 본거지)에서이 접근법의 예를 보려면 Sauver et al. (2011) . 관리 기록에 나타날 수있는 오류에 대한 자세한 내용은 Groen (2012) 참조하십시오.
연구자가 조사 연구에서 큰 데이터 소스를 사용할 수있는 또 다른 방법은 특정 특성을 가진 사람들을위한 샘플링 프레임입니다. 불행 (Beskow, Sandler, and Weinberger 2006) 접근법은 사생활과 관련된 질문을 제기 할 수있다 (Beskow, Sandler, and Weinberger 2006) .
증폭 된 요구에 관해서는,이 접근 방식은 내가 설명한 방식에서 나타날 수있는 것처럼 새로운 것은 아닙니다. 그것은 모델 기반의 post-stratification (Little 1993) , imputation (Rubin 2004) 및 Small area estimation (Rao and Molina 2015) 크게 세 가지 통계 영역과 깊은 관련이 있습니다. 또한 의학 연구에서 대리 변수의 사용과 관련이있다 (Pepe 1992) .
Blumenstock, Cadamuro, and On (2015) 의 비용 및 시간 추정치는 추가 조사의 비용 인 가변 비용을 더 많이 참조하며 통화 데이터 정리 및 처리 비용과 같은 고정 비용은 포함하지 않습니다. 일반적으로 증폭 된 질문은 디지털 실험과 유사하게 높은 고정 비용과 낮은 가변 비용을 가질 것입니다 (4 장 참조). 개발 도상국에서의 휴대 전화 기반 조사에 대한 더 자세한 내용은 Dabalen et al. (2016) .
증폭 된 질문을하는 방법에 대한 아이디어는 다중 대체에 대해 더 많이 배우는 것이 좋습니다 (Rubin 2004) . 또한 연구자가 개인 수준의 특성보다는 총 집계에 대해 관심을 증폭 시키려고한다면 King and Lu (2008) 와 Hopkins and King (2010) 의 접근법이 유용 할 수 있습니다. 마지막으로, Blumenstock, Cadamuro, and On (2015) 의 기계 학습 방법에 대한 자세한 내용은 James et al. (2013) (입문) 또는 Hastie, Tibshirani, and Friedman (2009) (고급).
증폭 된 질문에 관한 한 가지 윤리적 문제는 Kosinski, Stillwell, and Graepel (2013) 설명 된대로 사람들이 설문 조사에서 공개하지 않을 수도있는 민감한 특성을 추론하는 데 사용될 수 있다는 것입니다.