디지털 트레이스에 설문 조사를 연결하면 항상 모든 사람에게 질문을 같이 할 수 있습니다.
샘플 조사 및 인구 조사 : 요구는 일반적으로 두 가지 범주로 제공됩니다. 당신이 소수의 사람들에 액세스 샘플 조사는, 유연하고 적시에, 그리고 상대적으로 저렴한 될 수 있습니다. 이들은 샘플을 기반으로하기 때문에, 샘플 조사는 종종 그 해상도가 제한된다 표본 조사와 함께, 특정 지역에 대해 또는 특정 인구 통계 학적 그룹에 대한 추정을하는 것이 어렵다. 인구 조사는, 다른 한편으로, 인구에있는 모든 사람을 인터뷰를 시도합니다. 그들은 큰 해상도를 가지고 있지만, 일반적으로 고가의 초점 좁다 (그들이 단지 질문 소수를 포함), 및 (그들은 같은 10 년마다 등의 정해진 시간에 일어날) 적시 (Kish 1979) . 연구진은 샘플 조사 및 인구 조사의 최고의 특성을 결합 할 수 있다면 지금 상상; 연구진은 매일 모든 사람에게 모든 질문을 수 있다면 상상한다.
물론,이 지속적는, 유비쿼터스, 상시 조사 사회 과학 판타지의 일종이다. 그러나, 우리는 많은 사람들이 디지털 흔적을 가진 소수의 사람들로부터 설문 조사 질문을 결합하여이 대략 시작할 수 있도록 나타납니다. 나는 조합이 유형의 질문 증폭 호출합니다. 잘하면 우리가 (작은 지역에 대한) 더 로컬 추정, (특정 인구 통계 학적 그룹)보다 세분화하고, 적시에 제공하는 데 도움 수 있습니다.
증폭 물어의 한 예는 가난한 나라에서 가이드 개발하는 데 유용한 데이터를 수집하고 싶었다 여호수아 Blumenstock의 작업에서 비롯됩니다. 보다 구체적으로는, Blumenstock는 설문 조사의 유연성과 주파수를 가진 인구 조사의 완전성을 결합 부와 복지를 측정 할 수있는 시스템을 만들고 싶었 (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . 사실, 난 이미 1 장에서 간단히 Blumenstock의 일을 설명했다.
시작하려면 Blumenstock 르완다에서 가장 큰 휴대 전화 업체와 제휴. 이 회사는 시작 시간, 기간, 발신자와 수신자의 대략적인 지리적 위치로 2005 년과 2009 년 로그는 각 통화 및 문자 메시지에 대한 정보를 포함에서 동작을 덮고 약 150 만 고객으로부터 그에게 익명으로 거래 기록을 제공했다. 우리는 통계적인 문제에 대한 대화를 시작하기 전에,이 첫 번째 단계는 어려운 중 하나가 될 수 있음을 지적 가치가있다. 제 2 장에서 설명한 바와 같이, 대부분의 디지털 추적 데이터는 연구자에 액세스 할 수 없습니다. 그리고, 많은 회사는 개인이기 때문에 데이터를 공유 할 정당 주저; 즉, 고객이 아마 그들의 기록이 공유에 될 것이라고 연구자 대량으로 기대하지 않았다이다. 이 경우, 연구자들은 데이터를 익명화하는주의 조치를 취했다 그들의 작품은 타사 (즉, 자신의 IRB)에 의해 감독되었다. 그러나 이러한 노력에도 불구하고,이 데이터는 여전히 아마 식별 그리고 그들은 가능성이 민감한 정보가 포함 (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . 나는 6 장에서 이러한 윤리적 문제로 돌아갑니다.
Blumenstock 부와 복지를 측정에 관심이 있음을 기억하자. 그러나, 이러한 특성은 통화 기록에서 직접 없습니다. 즉, 이러한 통화 기록이 연구 장에서 자세히 설명 된 디지털 트레이스 일반적인 기능 불완전하지만, 상기 통화 기록은 아마도 부와 복지에 대한 정보를 가질 것으로 보인다. 그래서 Blumenstock의 문제가있을 수 묻는 편도 : 누군가가 디지털 추적 데이터에 기초하여 조사에 응답을 예측할 수있다? 그렇다면, 몇 사람을 물어 우리는 다른 사람의 답변을 추측 할 수있다.
경험적으로이를 평가하기 위해, 키 갈리 과학 기술 연구소에서 Blumenstock 및 연구 보조원은 약 천 휴대 전화 고객의 샘플을했다. 연구진은 당신이 자신 마십시오 등 "으로, 자신의 부와 복지를 측정하기 위해 그들에게 일련의 질문을 질문 한 후, 참가자들에게 프로젝트의 목표를 설명 통화 기록에 설문 조사 응답을 연결하는 동의를 요청하고, 라디오? "와"당신이 자전거를 가지고 있습니까? "(일부 목록은 3.11 그림 참조). 설문 조사의 모든 참가자들은 재정적으로 보상했다.
지도 학습 하였다 특징 공학 : 다음 Blumenstock 데이터 과학 일반적인 두 단계 절차를 사용 하였다. 먼저, 기능 설계 단계에서 인터뷰 모두를 위해, Blumenstock 각 사용자에 대한 특징들의 세트로 통화 기록을 변환; 데이터 과학자는 "기능"이러한 특성을 호출 할 수 있습니다와 사회 과학자들은 그들에게 전화 것 "변수를."예를 들어, 각 사람을 위해, Blumenstock 활동과 일의 총 수를 계산, 사람과 접촉 한 별개의 사람의 수, 양 돈 등 방송에 지출합니다. 비판적, 좋은 기능 공학 연구 설정의 지식이 필요합니다. 그것은 (우리가 국제 전화 사람들이 부유 것으로 예상) 국내 및 국제 전화를 구별하는 것이 중요하다 예를 들어, 다음이 기능의 설계 단계에서 수행해야합니다. 르완다의 작은 이해 연구원은이 기능을 포함하지 않을 수 있습니다, 다음 모델의 예측 성능이 저하됩니다.
다음으로,지도 학습 공정에서는 Blumenstock 자신의 기능에 기초하여 각각의 사용자에 대한 조사 응답을 예측하는 통계 모델을 구축. 이 경우, Blumenstock 10 배 교차 유효성 검사와 로지스틱 회귀 분석을 사용하지만, 그는 다른 통계 나 기계 학습 방법의 다양한 사용 할 수 있었다.
그래서 얼마나 잘 작동 했습니까? Blumenstock "는? 라디오를 가지고 계십니까"와 같은 질문을 설문 조사에 대한 답변을 예측할 수 있었다 "당신이 자전거를 가지고 계십니까?"통화 기록에서 파생 된 기능을 사용하고 계십니까? 일종의. 예측의 정확도는 몇 가지 특성 (그림 3.11) 높은 있었다. 그러나 간단한 대체에 대해 복잡한 예측 방법과 비교하는 것이 중요하다. 이 경우, 간단한 대안은 모든 사람들이 가장 일반적인 대답을 줄 것이라고 예측하는 것입니다. 예를 들어, 97.3 %는 Blumenstock 모두가 그가 더 복잡한 절차 (97.6 %의 정확도)의 성능에 놀라 울 정도로 유사하다 97.3 %의 정확도를했을 것이다 라디오를 소유하는보고 것이라고 예측했다 그래서 만약 라디오를 소유 보도했다. 즉, 모든 환상 데이터 모델링은 97.6 %로 97.3 %에서, 예측의 정확도를 증가. 그러나, 다른 질문은 "당신이 자전거를 가지고 있습니까?", 예측은 67.6 %로 54.4 %에서 개선되었다. 보다 일반적으로, 그림 3.12 쇼는 몇 가지 특성에 대해 Blumenstock은 간단한 기본 예측을 넘어 크게 개선되지 않았다,하지만 다른 특성에 대한 몇 가지 개선이 있었다.
이 시점에서 이러한 결과가 1 년 후, Blumenstock와 두 동료 - 가브리엘 Cadamuro 로버트에 게시 된 과학 논문 실질적으로 더 나은 결과와 약간 실망하지만, 생각 될 수있다 (Blumenstock, Cadamuro, and On 2015) . 그들은 더 정교한 방법을 사용 1) (즉, 새로운 접근 방식은 엔지니어링 및보다 정교한 기계 학습 모델을 특징으로하는) 2)이 아니라 예 (개별 설문 조사 질문에 대한 응답을 추론하지는 않고, 두 가지 주요 기술 향상을위한 이유가 있었다 "당신은 라디오를 가지고 계십니까?"), 그들은 복합 자산 인덱스를 추론하려고 시도했습니다.
Blumenstock 연구진은 두 가지 방법으로 그들의 접근의 성능을 보여 주었다. 첫째, 그들은 그들의 샘플에있는 사람들을 위해, 그들은 통화 기록 (그림 3.14)에서 자신의 재산을 예측하는 아주 좋은 일을 할 수 있다는 것을 발견했다. 두 번째, 그리고 더욱 중요한 것은, Blumenstock와 동료들은 절차는 르완다 재산의 지리적 분포의 높은 품질의 추정치를 생산할 수있는 것으로 나타났다. 더 구체적으로, 그것들은 통화 기록의 모든 1,500,000명의 부를 예측 1,000 명 그 샘플들은 훈련 된 기계 학습 모델을 사용했다. 또한, 통화 데이터에 포함 된 지리 데이터 (통화 데이터는 각각의 호출에 대해 가장 가까운 셀 타워의 위치를 포함하는 것을 기억), 연구원은 각 개인의 거주지의 근사 위치를 추정 할 수 있었다. 이 두 가지 추정을 두는 연구는 매우 미세한 공간 단위에서 가입자 재산의 지리적 분포의 추정치를 생산했다. 예를 들어, 르완다의 2148 세포 (국가에서 가장 작은 행정 단위)의 각각의 평균 재산을 추정 할 수있다. 이러한 예측 부의 값은 확인하기 어려운 매우 세분화했다. 그래서 연구자들은 르완다의 30 지역의 평균 재산의 추정을 생산하는 결과를 집계. 이 지구 차원의 추정이 강하게 골드 표준 전통적인 설문 조사에서 추정에 관한 한, 르완다 인구 통계 및 건강 조사 (그림 3.14). 두 소스의 추정치와 유사했지만, Blumenstock와 동료의 추정 (비용이 가변 비용의 관점에서 측정) 약 50 배 저렴하고 10 배 빠른 속도였다. 비용이 크게 감소보다는마다 몇 년-으로 실행되는 것을-설문 조사 큰 디지털 트레이스 데이터와 함께 작은 설문 조사의 하이브리드 매달 실행할 수있는 인구 통계 학적 및 건강에 대한 표준을 의미합니다.
결론적으로, Blumenstock의 골드 표준 조사 견적과 비교 견적을 생산하는 디지털 추적 데이터에 접근 결합 된 조사 자료를 요청하여 증폭. 이 특별한 예는 증폭 묻는 전통적인 조사 방법 사이의 트레이드 오프의 일부를 명확하게. 첫째, 증폭 묻는 예상보다 적시에 실질적으로 저렴하고,보다 세분화했다. 그러나, 한편,이 때, 증폭 묻는 이런 종류 강력한 이론적 근거 없다. 때하지 않습니다 그것이 작동 때 즉,이 예는 표시되지 않습니다됩니다. 또한, 증폭 묻는 방식은 아직 추정 주위에 불확실성을 정량화하는 좋은 방법이 없습니다. 그러나, 증폭 묻는 통계 모델 기반의 사후 층화에 3 대 분야에 깊은 연결이있다 (Little 1993) , 전가 (Rubin 2004) , 작은 면적 추정을 (Rao and Molina 2015) - 그리고 그래서 진전이있을 것으로 기대 빠른합니다.
증폭 묻고는 특정 상황에 맞게 사용할 수있는 기본 레시피를 다음과 같습니다. 이 재료와 두 단계가 있습니다. 두 성분은 1) (즉 넓은 있지만 얇은 디지털 트레이스 데이터 세트이며, 이는 많은 사람들이 아닌 정보는 각 개인에 대해)가 필요하고 (즉 좁은하지만 두께 2) 조사를 가지고, 그것을 보유 단지 몇 사람, 그러나 당신이 그 사람에 대해 필요한 정보)가 있습니다. 그런 다음 두 단계가 있습니다. 첫째, 두 데이터 소스에있는 사람들에 대해, 조사 응답을 예측하는 디지털 추적 데이터를 사용하여 기계 학습 모델을 구축. 다음으로, 디지털 추적 데이터에있는 모든 사람의 설문 조사 답변을 전가하는 그 기계 학습 모델을 사용합니다. 따라서, 당신은 많은 사람들에게 물어 그 답을 예측할 수 있습니다 사람들로부터 디지털 트레이스 데이터를보고 싶은 몇 가지 문제가 발생했을 경우.
문제의 Blumenstock의 제 1 및 제 2 시도를 비교하면 연구를 조사하기 위해 세 번째 시대의 접근에 두 번째 시대의 전환에 대한 중요한 교훈을 보여 시작은 끝이 아니다. 즉, 여러 번, 첫 번째 방법은 최고의되지 않습니다,하지만 연구자들은 작업을 계속하는 경우, 상황이 더 좋아질 수 있습니다. 디지털 시대의 사회 연구에 새로운 접근 방식을 평가할 때보다 일반적으로,이 두 가지 평가를하는 것이 중요하다 : 1) 지금이 작업을 수행하는 방법을 잘 2)이 데이터 풍경으로 미래에 작동 할 수 있습니다 생각하십니까 얼마나 잘 변화와 연구자로서 문제에 더 많은 관심을 헌신. 연구자는 평가의 1 종을 (얼마나 좋은 것은 연구의 특정 조각)하도록 훈련되어 있지만, 제는 종종 중요하다.