거대한 데이터 소스는 어디 에나 있지만 사회 연구를 위해 사용하는 것은 까다로울 수 있습니다. 내 경험에 의하면, 데이터에 대한 "무료 점심 식사 금지"규칙과 같은 것이 있습니다. 많은 수의 작업을 수집하지 않으면 아마도 많은 일을 생각해야 할 것입니다. 그것을 분석.
현재와 미래의 큰 데이터 소스에는 10 가지 특성이있는 경향이 있습니다. 이들 중 3 개는 일반적으로 연구에 도움이됩니다 (항상 그렇지는 않음) : 크게, 항상 켜짐, 비 반응. 불완전하고, 접근하기 어렵고, 대표성이없고, 표류하고, 알고리즘으로 혼란스럽고, 더럽고, 민감합니다. 일반적으로 연구가 문제가되는 것은 아닙니다. 사회 연구를 위해 큰 데이터 소스가 만들어지지 않았기 때문에 이러한 특성 중 많은 부분이 궁극적으로 발생합니다.
이 장의 아이디어에 따르면 큰 데이터 소스가 사회 연구에 가장 중요한 세 가지 주요 방법이 있다고 생각합니다. 첫째, 연구자는 경쟁 이론 예측 사이에서 결정할 수 있습니다. 이러한 종류의 일의 예로 Farber (2015) (New York Taxi Drivers)와 King, Pan, and Roberts (2013) (중국 검열)가 있습니다. 둘째, 빅 데이터 소스는 현재 캐스팅을 통해 정책 측정을 향상시킬 수 있습니다. 이런 종류의 일의 예로 Ginsberg et al. (2009) (Google 독감 트렌드). 마지막으로 큰 데이터 소스는 연구자가 실험을하지 않고 인과 관계 추정을하는 데 도움이 될 수 있습니다. 이러한 종류의 작업의 예로 Mas and Moretti (2009) (생산성에 대한 동료 효과)와 Einav et al. (2015) (eBay에 경매에 시작 가격의 효력). 그러나 이러한 각각의 접근법은 예측에 중요한 수량의 정의 나 경쟁 예측을하는 두 가지 이론과 같이 연구자가 데이터에 많은 것을 요구하도록하는 경향이 있습니다. 따라서 큰 데이터 소스가 무엇을 할 수 있는지 생각하는 가장 좋은 방법은 흥미롭고 중요한 질문을 할 수있는 연구원을 도울 수 있다는 것입니다.
결론을 내리기 전에 큰 데이터 소스가 데이터와 이론 간의 관계에 중요한 영향을 미칠 수 있다는 점을 고려해야합니다. 지금까지이 장에서는 이론 중심의 경험적 연구의 접근 방식을 취했다. 그러나 큰 데이터 소스는 또한 연구자들이 경험적으로 이론화 된 이론화 를 할 수있게 해줍니다. 즉, 경험적 사실, 패턴 및 퍼즐을 신중하게 축적함으로써 연구자는 새로운 이론을 구축 할 수 있습니다. 이론에 대한 데이터 우선 접근법은 새로운 것이 아니며 바운더리 글레이저 (Barney Glaser)와 안셀 스트라우스 (1967) Anselm Strauss (1967) 가 근거 이론을 요구하면서 가장 강하게 표현되었다. 그러나이 데이터 우선 접근법은 디지털 시대의 연구에 대한 저널리즘에서 주장 된 것처럼 "이론의 종말"을 의미하지는 않습니다 (Anderson 2008) . 오히려 데이터 환경이 변화함에 따라 데이터와 이론의 관계가 재조정되기를 기대해야합니다. 데이터 수집이 비싼 세상에서 이론이 제시하는 데이터 만 수집하는 것이 가장 유용 할 것입니다. 그러나 엄청난 양의 데이터가 이미 무료로 제공되는 세계에서 데이터 우선 접근 방식을 시도하는 것이 좋습니다 (Goldberg 2015) .
이 장에서 보았 듯이 연구원은 사람들을 보면서 많은 것을 배울 수 있습니다. 다음 3 장에서는 데이터 수집을 조정하고 질문을하고 (3 장), 실험을 실행하고 (4 장) 더 많은 사람들과 직접 상호 작용할 때 더 많은 다른 것들을 배울 수있는 방법을 설명하겠습니다. 연구 과정에서 직접적으로 (5 장).