예측 모델을 사용하여 소수의 사람들의 설문 조사 데이터를 많은 사람들의 큰 데이터 소스와 결합하도록 요청했습니다.
설문 조사와 큰 데이터 소스를 결합하는 다른 방법은 증폭 된 요청 이라고 부르는 프로세스입니다. 증폭 된 질문에서는 연구원이 예측 모델을 사용하여 소량의 조사 데이터를 큰 데이터 소스와 결합하여 데이터 소스별로 개별적으로 불가능한 규모 또는 세분성으로 추정치를 산출합니다. 증폭 된 질문에 대한 중요한 예는 조슈아 블루 맨 스톡 (Joshua Blumenstock)의 연구에서 나옵니다. 조슈아 블루 맨 스토크 (Joshua Blumenstock)는 가난한 나라의 개발을 도울 수있는 데이터를 수집하고자했습니다. 과거에는 이러한 종류의 데이터를 수집하는 연구자는 일반적으로 표본 조사 또는 인구 조사의 두 가지 방법 중 하나를 택해야했습니다. 연구자가 소수의 사람들과 인터뷰하는 샘플 조사는 유연하고시의 적절하며 비교적 저렴 할 수 있습니다. 그러나 이러한 설문 조사는 표본을 기반으로하기 때문에 종종 결의안이 제한적입니다. 표본 조사를 통해 특정 지역이나 특정 인구 통계 그룹에 대한 견적을 작성하는 것이 종종 어렵습니다. 반면 센서스는 모든 사람과의 인터뷰를 시도하므로 소규모 지역 또는 인구 통계 그룹에 대한 견적을 산출하는 데 사용할 수 있습니다. 그러나 인구 조사는 일반적으로 비용이 많이 들고 초점이 좁고 (질문 수가 적음)시기 적절하지 않습니다 (10 년마다와 같이 정해진 일정에 따라 실시됩니다) (Kish 1979) . 견본 조사 나 센서스에 얽매이지 않고 연구원들이 두 가지의 최상의 특성을 결합 할 수 있는지 상상해보십시오. 연구자가 매일 모든 사람에게 모든 질문을 할 수 있다고 상상해보십시오. 분명히 유비쿼터스 한 상시 조사는 일종의 사회 과학 환상입니다. 그러나 우리는 많은 사람들이 디지털 흔적을 가진 소수의 사람들로부터 설문 조사 질문을 결합하여 근사치를 시작할 수있는 것처럼 보인다.
Blumenstock의 조사는 르완다 최대 휴대 전화 제공 업체와 제휴하면서 시작되었으며 2005 년부터 2009 년까지 약 150 만 명의 고객으로부터 익명 처리 된 거래 기록을 제공했습니다.이 기록에는 시작 시간, 기간 등 각 통화 및 문자 메시지에 대한 정보가 포함되어 있습니다 , 발신자와 수신자의 대략적인 지리적 위치. 통계적 이슈에 관해 이야기하기 전에,이 첫 번째 단계가 많은 연구자들에게 가장 힘든 연구 중 하나 일 수 있음을 지적하는 것이 중요합니다. 2 장에서 설명한 것처럼 대부분의 빅 데이터 소스는 연구자가 액세스 할 수 없습니다 . 특히, 전화 메타 데이터는 익명화가 기본적으로 불가능하기 때문에 참가자가 민감하다고 생각하는 정보가 거의 확실하게 포함되어있어 특히 접근하기 어렵습니다 (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . 이 특별한 경우에 연구자들은 데이터를 보호하기 위해 신중히 노력했으며 제 3 자 (IRB)가 작업을 감독했습니다. 제 6 장에서 이러한 윤리적 문제에 대해 더 자세히 설명하겠습니다.
Blumenstock은 부와 복지를 측정하는 데 관심이있었습니다. 그러나 이러한 특성은 호출 레코드에 직접적으로 적용되지 않습니다. 즉,이 연구에 대한 이러한 통화 기록은 2 장에서 자세히 논의 된 큰 데이터 소스의 공통된 특징 인 불완전 합니다. 그러나 통화 기록에는 간접적으로 부와 정보에 대한 정보를 제공 할 수있는 정보가있을 것 같습니다. 안녕. 이러한 가능성을 고려할 때 Blumenstock은 누군가가 전화 기록을 기반으로 설문 조사에 응답하는 방법을 예측하기 위해 기계 학습 모델을 교육 할 수 있는지 여부를 묻습니다. 이것이 가능하다면, Blumenstock은이 모델을 사용하여 모든 150 만 고객의 설문 응답을 예측할 수있었습니다.
그러한 모델을 구축하고 훈련시키기 위해 Blumenstock과 Kigali Institute of Science and Technology의 연구 보조원은 약 1,000 명의 고객을 무작위로 표본이라고 불렀습니다. 연구원은 프로젝트의 목표를 참가자들에게 설명하고 설문 응답을 통화 기록과 연결하는 것에 동의 한 다음 "부양과 복지를 측정하기 위해 일련의 질문을했습니다. 라디오 "와"자전거를 소유하고 있습니까? "(부분 목록은 그림 3.14 참조). 설문 조사에 참여한 모든 참가자는 재정적으로 보상을받습니다.
다음으로, Blumenstock은 기계 학습에서 일반적인 2 단계 절차를 사용했습니다 : 피쳐 엔지니어링과 감독 학습. 첫째, 기능 엔지니어링 단계에서 인터뷰 대상자 모두에게 Blumenstock은 통화 기록을 각 사람에 대한 일련의 특성으로 변환했습니다. 데이터 과학자들은 이러한 특성을 "특성"이라고 부르고 사회 과학자는이를 "변수"라고 부릅니다. 예를 들어, 각 사람에 대해 Blumenstock은 총 활동 일수, 사람이 접촉 한 사람의 수, 방송 시간에 소비되는 금액 등이 포함됩니다. 중요한 기능 엔지니어링은 연구 환경에 대한 지식을 필요로합니다. 예를 들어 국내 전화와 국제 전화를 구별하는 것이 중요하다면 (국제적으로 부르는 사람들이 더 부유해질 것으로 기대할 수 있음) 기능 엔지니어링 단계에서이를 수행해야합니다. 르완다에 대해 거의 이해하지 못하는 연구원은이 기능을 포함하지 않을 수도 있으며, 그 다음에 모델의 예측 성능이 저하 될 것입니다.
다음으로, 감독 학습 단계에서 Blumenstock은 각자의 특징에 따라 각 사람의 설문 응답을 예측하는 모델을 만들었습니다. 이 경우 Blumenstock은 로지스틱 회귀를 사용했지만 다른 통계 또는 기계 학습 방법을 사용할 수도있었습니다.
그래서 얼마나 효과가 있었습니까? Blumenstock은 통화 기록에서 가져온 기능을 사용하여 "라디오를 갖고 계십니까?"와 "자전거를 소유합니까?"와 같은 설문 조사에 대한 답변을 예측할 수 있었습니까? 그의 예측 모델의 성능을 평가하기 위해 Blumenstock은 데이터 과학에서 일반적으로 사용되는 기술인 교차 검증을 사용했지만 사회 과학에서는 거의 사용되지 않았습니다. 교차 검증의 목표는 모델의 예측 성능을 교육하고 다양한 데이터 하위 집합에서 테스트하여 모델의 예측 성능을 공정하게 평가하는 것입니다. 특히, Blumenstock은 자신의 데이터를 100 명씩 10 개의 덩어리로 나눕니다. 그런 다음 그는 9 개의 덩어리를 사용하여 모델을 학습했으며 훈련 된 모델의 예측 성능은 나머지 덩어리에서 평가되었습니다. 그는이 절차를 10 번 반복했으며 각 데이터 청크는 유효성 검사 데이터로 한 번 돌아가 결과를 평균화했습니다.
예측의 정확성은 일부 특성에서 높았다 (그림 3.14). 예를 들어 누군가가 라디오를 소유했다면 Blumenstock은 97.6 %의 정확성으로 예측할 수있었습니다. 이것은 인상적 일지 모르지만 복잡한 예측 방법과 간단한 대안을 비교하는 것이 항상 중요합니다. 이 경우, 간단한 대안은 모든 사람이 가장 공통적 인 대답을 줄 것이라고 예측하는 것입니다. 예를 들어, 97.3 %의 응답자가 라디오를 소유하고 있다고보고 했으므로 Blumenstock이 모든 사람이 라디오를 소유하고 있다고보고했다면 97.3 %의 정확도를 보였을 것입니다. 이는 그의 복잡한 절차 (97.6 %의 정확도) . 즉, 모든 멋진 데이터와 모델링은 예측 정확도를 97.3 %에서 97.6 %로 높였습니다. 그러나 "자전거를 갖고 계십니까?"와 같은 다른 질문에 대해서는 예측이 54.4 %에서 67.6 %로 향상되었습니다. 보다 일반적으로 그림 3.15는 일부 특성의 경우 Blumenstock이 간단한 기준선 예측을 넘어서서 많이 개선되지 않았지만 다른 특성의 경우에는 개선이 있음을 보여줍니다. 그러나 이러한 결과를 보면서이 접근법이 특히 유망하다고 생각하지 않을 수도 있습니다.
그러나 불과 1 년 후, Blumenstock과 Gabriel Cadamuro 및 Robert On의 2 명의 동료는 Science 에서 과학적 으로 우수한 결과를 얻었습니다 (Blumenstock, Cadamuro, and On 2015) . 이 개선의 주요 기술적 이유는 두 가지가 있습니다. (1) 더 정교한 방법 (즉, 피쳐 엔지니어링에 대한 새로운 접근 방식과 피쳐로부터의 응답을 예측하기위한보다 정교한 모델)과 (2) 개인에 대한 응답을 유도하려고 시도하는 것 설문 조사 질문 (예 : "라디오를 가지고 있습니까?"), 그들은 복합 자산 지수를 추론하려고 시도했습니다. 이러한 기술적 개선은 통화 기록을 사용하여 샘플의 사람들에 대한 부를 예측할 수있는 합리적인 업무를 수행 할 수 있음을 의미했습니다.
그러나 표본에서 풍부한 사람들을 예측하는 것이 연구의 궁극적 인 목표는 아니 었습니다. 궁극적 인 목표는 표본 조사 및 센서스의 가장 뛰어난 기능을 결합하여 개발 도상국의 빈곤에 대한 정확한 고해상도 추정치를 산출하는 것이 었음을 기억하십시오. 이 목표를 달성 할 수있는 능력을 평가하기 위해 Blumenstock과 동료는 자신의 모델과 데이터를 사용하여 통화 기록에있는 150 만 명의 사람들의 재물을 예측했습니다. 그리고 그들은 각 개인의 대략적인 거주지를 추정하기 위해 호출 기록에 포함 된 지형 공간 정보를 사용했습니다 (각 호출에 가장 가까운 셀 타워의 위치가 데이터에 포함되어 있음을 상기하십시오) (그림 3.17). 이 두 가지 견적을 종합하여 Blumenstock과 동료들은 매우 미세한 공간 세분화로 가입자 자산의 지리적 분포를 추정했습니다. 예를 들어 르완다의 2,148 개 셀 (전국에서 가장 작은 행정 단위)의 평균 부를 추정 할 수 있습니다.
이러한 견적은이 지역의 빈곤 수준과 얼마나 잘 일치합니까? 그 질문에 답하기 전에 회의적인 이유가 많이 있다는 사실을 강조하고 싶습니다. 예를 들어, 개인 수준에서 예측을하는 능력은 상당히 시끄 럽습니다 (그림 3.17). 그리고 아마도 더 중요한 것은 휴대 전화를 사용하는 사람들이 휴대 전화가없는 사람들과 체계적으로 다를 수 있다는 것입니다. 따라서 Blumenstock과 동료들은 앞에서 설명한 1936 Literary Digest 조사에 편향된 범위 오류 유형으로 고통받을 수 있습니다.
견적의 질에 대한 감각을 얻으려면 Blumenstock과 동료는 다른 견해와 비교할 필요가있었습니다. 다행스럽게도, 연구가 진행되는 거의 같은시기에 르완다에서 좀 더 전통적인 사회 조사가 진행된 연구자 그룹이있었습니다. 널리 존경받는 인구 통계 및 건강 조사 프로그램의 일부인이 설문 조사는 예산이 많이 들고 고품질의 전통적인 방법을 사용했습니다. 따라서 인구 통계 및 건강 조사의 추정치는 합리적으로 금 표준 추정치로 간주 될 수 있습니다. 두 견적이 비교되었을 때, 그들은 매우 유사했다 (그림 3.17). 즉, 소량의 설문 조사 데이터를 통화 레코드와 결합하여 Blumenstock과 동료는 금 표준 접근 방식과 유사한 견적을 산출 할 수있었습니다.
회의론자는 이러한 결과를 실망으로 보게 될 수도 있습니다. 결국 큰 데이터 및 기계 학습을 사용하여 Blumenstock과 동료들은 기존의 방법으로 더 안정적으로 산출 할 수있는 추정치를 산출 할 수있었습니다. 그러나 나는 그것이 두 가지 이유로이 연구에 대해 생각하는 올바른 방법이라고 생각하지 않습니다. 첫째, Blumenstock과 동료의 추정치는 비용이 변동비로 측정 될 때 약 10 배 더 빠르고 50 배 저렴했습니다. 이 장의 앞부분에서 논한 바와 같이, 연구원들은 위험 부담으로 비용을 무시합니다. 이 경우, 예를 들어, 비용의 급격한 감소는 인구 통계 및 보건 조사의 표준과 같이 몇 년에 한 번 실시되는 것이 아니라 매월 실행될 수있는 이러한 조사 방법이 연구자 및 정책에 많은 이점을 제공한다는 것을 의미합니다 제조사. 회의론자의 견해를 따르지 않는 두 번째 이유는이 연구가 다양한 연구 상황에 맞게 조정할 수있는 기본 조리법을 제공한다는 것입니다. 이 조리법에는 두 가지 성분과 두 단계 만 있습니다. 구성 요소는 (1) 넓고 얇은 큰 데이터 소스 (즉, 각 사람에 대해 필요한 정보가 아니라 많은 사람들이 있음)와 (2) 좁지 만 두꺼운 설문 조사 (즉, 소수의 사람들이지만 그 사람들에 관해 필요한 정보를 가지고 있습니다.) 이 성분들은 두 단계로 결합됩니다. 첫째, 두 데이터 소스의 사람들에게 큰 데이터 소스를 사용하여 설문 조사 응답을 예측하는 기계 학습 모델을 작성하십시오. 그런 다음이 모델을 사용하여 큰 데이터 소스에있는 모든 사람의 설문 조사 응답을 대체하십시오. 따라서 많은 사람들에게 질문하고 싶은 질문이있는 경우 큰 데이터 소스를 신경 쓰지 않아도 답변을 예측하는 데 사용할 수있는 사람들로부터 큰 데이터 소스를 찾습니다. 즉, Blumenstock과 동료는 본질적으로 통화 기록에 신경을 쓰지 않았습니다. 그들은 전화 기록에 대해서만 신경을 썼다. 왜냐하면 그들은 그들이 관심을 갖는 조사 응답을 예측하는 데 사용될 수 있었기 때문이다. 빅 데이터 소스에 대한이 특성 만의 간접적 인 관심은 앞에서 설명한 임베디드 요구와는 다른 질문을 증폭시킵니다.
결론적으로 Blumenstock의 증폭 된 접근 방식은 설문 데이터와 큰 데이터 소스를 결합하여 금 표준 설문 조사와 유사한 견적을 산출합니다. 이 특정 사례는 증폭 된 질문과 전통적인 조사 방법 간의 절충점을 분명히합니다. 증폭 된 요구 견적은시기 적절하고, 실질적으로 저렴하고, 세분화되었습니다. 그러나 다른 한편으로, 이런 종류의 증폭 된 질문에 대한 강력한 이론적 기반은 아직 없습니다. 이 접근법이 효과가있을 때와이 접근법을 사용하는 연구자가 큰 데이터 소스에 포함 된 사람과 포함되지 않은 사람으로 인해 발생할 수있는 편향에 대해 특별히 염려 할 필요가있는이 단일 예는 표시되지 않습니다. 또한 증폭 된 접근 방식은 아직 추정치 주변의 불확실성을 정량화하는 좋은 방법을 가지고 있지 않다. 다행스럽게도, 증폭 된 질문은 소규모 지역 평가 (Rao and Molina 2015) , 추론 (Rubin 2004) 및 모델 기반 사후 계층화 (그 자체가 P. P., 이 장의 앞부분에서 설명한 방법) (Little 1993) . 이러한 깊은 연관 때문에, 나는 증폭 된 질문의 많은 방법 론적 토대가 곧 개선 될 것으로 기대한다.
마지막으로 Blumenstock의 첫 번째 시도와 두 번째 시도를 비교하면 디지털 시대 사회 연구에 대한 중요한 교훈을 알 수 있습니다. 시작은 끝이 아닙니다. 즉, 여러 번, 첫 번째 접근 방식은 최선이 아니지만, 연구원들이 계속 작업한다면, 상황은 나아질 수 있습니다. 보다 일반적으로 디지털 시대의 사회 연구에 대한 새로운 접근법을 평가할 때 두 가지 별개의 평가를하는 것이 중요합니다. (1) 현재이 연구가 얼마나 효과가 있습니까? (2) 데이터 환경이 변화하고 연구자가 문제에 더 많은 관심을 기울일 때 향후 이것이 얼마나 효과적일까요? 연구자가 첫 번째 평가를하도록 훈련 받았지만 두 번째 평가가 더 중요합니다.