당신이 좋은 데이터가있는 좋은 질문을 결합하면 단순 계산은 재미있을 수있다.
세련된 소리로 표현 되기는하지만 많은 사회 연구는 실제로 일을 계산하는 것입니다. 빅 데이터 시대에 연구자들은 그 어느 때보다도 많은 것을 세울 수 있습니다. 그렇다고해서 우연히 계산을 시작해야한다는 의미는 아닙니다. 대신 연구자는 다음과 같은 질문을해야합니다. 이것은 전적으로 주관적인 문제처럼 보일지 모르지만 몇 가지 일반적인 패턴이 있습니다.
종종 학생들은 다음과 같이 말하면서 계산 연구에 동기를 부여합니다. 나는 아무도 계산하지 못한 것을 셀 것입니다. 예를 들어, 한 학생이 많은 사람들이 이민자를 연구했으며 많은 사람들이 쌍둥이를 연구했다고 말할 수도 있지만 아무도 이민 쌍둥이를 연구하지 않았습니다. 내 경험상, 내가 부재로 동기를 부여 하는이 전략은 일반적으로 좋은 연구로 이어지지 않는다. 부재로 인한 동기 부여는 저기에 구멍이 있다고 말하는 것과 비슷합니다. 나는 그것을 채우기 위해 열심히 노력할 것입니다. 그러나 모든 구멍을 채울 필요는 없습니다.
부재로 동기를 부여하는 대신, 중요한 전략이나 흥미있는 연구 질문 (또는 이상적으로는 모두)을 찾는 것이 더 나은 전략이라고 생각합니다. 이 두 가지 용어는 모두 정의하기가 어렵지만 중요한 연구에 대해 생각하는 한 가지 방법은 정책 결정자가 중요한 결정에 영향을 미치거나 피드를 제공한다는 것입니다. 예를 들어, 실업률 측정은 정책 결정을 이끌어내는 경제 지표이기 때문에 실업률을 측정하는 것이 중요합니다. 일반적으로 연구자들은 중요한 것을 잘 알고 있다고 생각합니다. 이 절의 나머지 부분에서는 카운팅이 흥미 롭다고 생각하는 두 가지 예제를 제공 할 것입니다. 각각의 경우 연구원들은 우연히 계산하지 않았습니다. 오히려 그들은 사회 시스템이 어떻게 작동하는지에 대한보다 일반적인 아이디어에 대한 중요한 통찰력을 밝혀주는 매우 특별한 상황에 의존하고있었습니다. 다른 말로하면, 이러한 특별한 카운팅 연습을 흥미롭게 만드는 것은 데이터 그 자체가 아니라, 이러한보다 일반적인 아이디어에서 오는 것입니다.
계산의 간단한 힘의 한 예는 뉴욕시 택시 운전사의 행동에 대한 Henry Farber (2015) 연구에서 나옵니다. 이 그룹은 본질적으로 흥미로운 것으로 들리지 않지만, 노동 경제학에서 두 가지 경쟁 이론을 테스트하기위한 전략적 연구 사이트 입니다. 파버 (Farber)의 연구 목적을 위해 택시 운전사의 근무 환경에는 두 가지 중요한 특징이 있습니다. (1) 날씨와 같은 요소에 따라 매일 시간당 임금이 변동하고, (2) 일은 그들의 결정에 따라 매일 변동될 수 있습니다. 이러한 특징 때문에 시간당 임금과 근무 시간 간의 관계에 대한 흥미로운 질문이 생깁니다. 경제학 신고전주의 모델은 택시 운전사가 시간당 임금이 높은 날에는 더 많은 일을 할 것으로 예측합니다. 반대로 행동 경제학의 모델은 그 반대를 정확하게 예측합니다. 운전자가 특정 수입 목표 (하루 100 달러)를 설정하고 그 목표가 충족 될 때까지 일하면 운전자는 더 많은 수입을 올리는 데 더 적은 시간 동안 일하게됩니다. 예를 들어, 귀하가 목표 수령자 인 경우, 좋은 날 (시간당 25 달러)에서 4 시간, 나쁜 날 (시간당 20 달러)에서 5 시간을 끝낼 수 있습니다. 따라서 운전자는 (신고 전파 모델에 의해 예측 된 바와 같이) 높은 시간당 임금으로 더 많은 시간을 노동 시간당 임금을 낮게 (행동 경제 모델에 의해 예측 된 것처럼) 더 많은 시간 동안 일합니까?
이 질문에 답하기 위해 Farber는 2009 년부터 2013 년까지 뉴욕시 택시에서 택시를 탈 때마다 데이터를 수집했습니다.이 데이터는 현재 공개적으로 사용 가능합니다. 도시가 택시를 사용해야하는 전자 계량기로 수집 된이 데이터에는 시작 시간, 시작 위치, 종료 시간, 종료 위치, 요금 및 팁 (팁이 신용 카드로 지불 된 경우)과 같은 각 여행에 대한 정보가 포함됩니다. . Farber는이 택시 미터 데이터를 사용하여 대부분의 운전자가 신고전주의 이론과 일치하는 임금이 더 높은 날에 더 많은 일을한다는 것을 발견했습니다.
이러한 주요 발견 외에도 Farber는 데이터의 크기를 사용하여 이질성과 역 동성을 더 잘 이해할 수있었습니다. 그는 시간이 지남에 따라 최신 운전자는 고임금 일에 더 많은 시간을 일하는 것을 점차적으로 배우는 것을 발견했습니다 (예 : 신고 전파 모델이 예측하는대로 행동하는 법을 배웁니다). 그리고 타겟 운전자처럼 행동하는 새로운 운전자는 택시 운전사가 될 가능성이 더 큽니다. 현재 드라이버의 관찰 된 동작을 설명하는 데 도움이되는이 두 가지 미묘한 결과는 모두 데이터 세트의 크기 때문에 가능했습니다. 짧은 기간 동안 적은 수의 택시 기사로부터 종이 여행지를 사용한 초기 연구에서는 탐지가 불가능했습니다 (Camerer et al. 1997) .
Farber의 연구는 도시에서 수집 한 데이터가 Farber가 수집 한 데이터에 매우 가깝기 때문에 큰 데이터 소스를 사용하는 연구에 가장 적합한 시나리오에 가까웠습니다 (한 가지 차이점은 Farber가 전체 데이터를 원했을 것이라는 것입니다) 임금 요금 + 팁 - 도시 데이터는 신용 카드로 지불 한 팁만 포함). 그러나 데이터만으로는 충분하지 않았습니다. 파버 (Farber)의 연구의 열쇠는 데이터에 흥미로운 질문을 던지기위한 것이 었습니다.
셀 수있는 두 번째 사례는 중국 정부의 온라인 검열에 대한 Gary King, Jennifer Pan 및 Molly Roberts (2013) 연구에서 비롯됩니다. 그러나이 경우 연구원은 큰 데이터를 수집해야했으며 데이터가 불완전하다는 사실을 처리해야했습니다.
국왕과 동료들은 중국의 소셜 미디어 게시물이 수만 명의 사람들을 포함하고있는 엄청난 국가기구에 의해 검열되었다는 사실에 동기를 부여 받았다. 그러나 연구원들과 시민들은 이러한 검열 관이 삭제되어야 할 내용을 어떻게 결정할 지에 대해 거의 이해하지 못하고있다. 중국 학자들은 사실 어떤 종류의 게시물이 삭제 될 가능성이 가장 높은지에 대해 상반되는 기대를 가지고 있습니다. 일부 사람들은 검열 관이 국가를 비판하는 게시물에 집중한다고 생각하지만 다른 사람들은 시위와 같은 집단 행동을 장려하는 게시물에 집중한다고 생각하는 사람들도 있습니다. 이러한 기대가 올바른지 연구자가 중국과 검열에 종사하는 다른 권위주의 정부를 이해하는 방법에 영향을 미친다. 따라서 King과 동료들은 게시되고 삭제 된 게시물을 게시되고 삭제되지 않은 게시물과 비교하려고했습니다.
이 게시물을 수집하면 다른 페이지 관련 게시물 레이아웃-발견하고 이후에 삭제 된 볼이 게시물을 재 방문과 1,000 개 이상의 중국어 소셜 미디어 웹 사이트 - 각 크롤링의 놀라운 엔지니어링 공적을 포함했다. 대규모 웹 크롤링과 관련된 정상 공학 문제에 더하여,이 프로젝트들은 수많은 검열 게시물 24 시간 미만에서 중단되어 있기 때문에 매우 빨라야하기 위해 필요한 추가 과제가 있었다. 즉, 느린 크롤러 검열 된 게시물 많이 놓칠 것이다. 또한, 크롤러는 소셜 미디어 웹 사이트가이 연구에 대한 응답으로 자신의 정책을 변경, 그렇지 않은 액세스를 차단하거나 않도록 탐지를 회피하면서이 모든 데이터 수집을해야했다.
이 대규모 엔지니어링 작업이 완료 될 무렵, King과 동료들은 각각 민감도가 가정 된 85 개의 사전 지정된 주제에 대해 약 1,100 만 개의 게시물을 획득했습니다. 예를 들어, 민감한 주제는 반체제 예술가 인 Ai Weiwei입니다. 중 민감도의 주제는 중국 통화의 절상과 평가 절하이며 민감도가 낮은 주제는 월드컵입니다. 11 백만장의 게시물 중 약 2 백만 명이 검열되었습니다. 다소 놀랍게도 King과 동료들은 민감도가 높은 주제에 대한 게시물이 중간 및 저 감도 주제에 대한 게시물보다 약간 더 자주 검열된다는 사실을 발견했습니다. 다시 말해 중국 검열 관은 아이 웨이 웨이 (Ai Weiwei)가 월드컵을 언급하는 글을 언급하는 것을 검열 할 가능성이있다. 이러한 결과는 정부가 민감한 주제에 대한 모든 게시물을 검열한다는 생각을 뒷받침하지 않습니다.
그러나 주제별 검열 비율에 대한이 간단한 계산은 잘못된 것일 수 있습니다. 예를 들어, 정부는 아이 웨이 웨이를지지하는 게시물을 검열 할 수 있지만, 그를 비판하는 글은 남겨 둡니다. 게시물을 더 조심스럽게 구분하기 위해 연구원은 각 게시물의 정서 를 측정해야했습니다. 불행히도, 많은 사전 작업이 있었음에도 불구하고 기존 사전을 사용하는 감정 탐지의 완전 자동화 된 방법은 많은 상황에서 여전히 좋지 않습니다 (2.3.9 절에서 설명한 2001 년 9 월 11 일의 감정적 인 타임 라인을 만드는 문제로 다시 생각해보십시오). 따라서 King과 동료들은 (1) 국가에 비판적 이었는지, (2) 국가를지지했는지, (3) 사건에 대해 관련성이 없거나 사실적으로 보도되었는지에 대해 1100 만개의 소셜 미디어 게시물에 라벨을 붙일 방법이 필요했습니다. 이것은 엄청난 일처럼 들리지만, 그들은 데이터 과학에 대한 일반적인하지만 사회 과학에서 상대적으로 드문 강력한 트릭을 사용하여 해결 : 학습 감독; 그림 2.5를 참조하십시오.
첫째, 일반적으로 전처리 라고하는 단계에서 연구원은 소셜 미디어 게시물을 문서 용어 행렬 로 변환했습니다. 여기에는 각 문서에 대해 하나의 행이 있고 게시물에 특정 단어 (예 : 항의 또는 교통 정보)가 포함되어 있는지 여부를 기록하는 열이 있습니다. . 다음으로, 연구 보조원 그룹이 게시물 샘플의 정서를 손으로 표시했습니다. 그런 다음이 손으로 라벨링 된 데이터를 사용하여 특성에 따라 게시물의 정서를 추측 할 수있는 기계 학습 모델을 작성했습니다. 마지막으로이 모델을 사용하여 1,100 만 개에 달하는 모든 게시물의 정서를 추정했습니다.
따라서 11 백만 개의 게시물을 수동으로 읽고 레이블을 지정하는 것보다는 논리적으로 불가능합니다. King과 동료는 수작업으로 적은 수의 게시물에 레이블을 지정하고 감독 된 학습을 사용하여 모든 게시물의 정서를 추정했습니다. 이 분석을 완료 한 후, 그들은 다소 놀랍게도 삭제 된 게시물의 확률이 그것이 국가를 비판적으로지지했는지 아니면지지하는 국가와 관련이 없는지와 관련이 없다고 결론을 내릴 수있었습니다.
결국 국왕과 동료들은 포르노 그라피, 검열 비평, 집단 행동 가능성 (대규모 시위로 이어질 가능성)이있는 게시물의 세 가지 유형 만 정기적으로 검열한다는 사실을 발견했습니다. 엄청난 수의 삭제 된 게시물과 삭제되지 않은 게시물을 관찰함으로써 King과 동료들은 감시 및 계산만으로 검열이 어떻게 작동 하는지를 알 수있었습니다. 또한,이 책 전체에서 발생할 주제에 대한 예시로 사용 된 감독 학습 접근 방식은 일부 결과에 손으로 라벨을 붙인 다음 나머지 부분에 레이블을 붙이기위한 기계 학습 모델을 구축하는 것이 디지털 시대의 사회 연구에서 매우 흔한 것으로 나타났습니다 . 3 장 (질문하기)과 5 장 (대량 작성하기)의 그림 2.5와 매우 유사한 그림을 볼 수 있습니다. 이것은 여러 장에서 나타나는 몇 가지 아이디어 중 하나입니다.
뉴욕의 택시 운전사의 행동 양식과 중국 정부의 소셜 미디어 검열 행동은 큰 데이터 소스를 비교적 간단하게 계산하는 것이 상황에 따라 흥미롭고 중요한 연구로 이어질 수 있음을 보여줍니다. 그러나 두 경우 모두 연구자는 큰 데이터 소스에 흥미로운 질문을 던져야했습니다. 데이터 자체로는 충분하지 않았습니다.