큰 데이터 소스의 측정은 동작을 변경하지 않을 가능성이 훨씬 적습니다.
사회 연구의 한 가지 과제는 사람들이 연구자가 관찰하고 있음을 알 때 자신의 행동을 바꿀 수 있다는 것입니다. 사회 과학자들은 일반적으로이 반응을 부른다 (Webb et al. 1966) . 예를 들어, 사람들은 이전에 현장 연구보다 관찰 연구에 관대 할 수 있습니다. 왜냐하면 전자에서는 그들이 관찰되고 있다는 것을 매우 잘 알고 있기 때문입니다 (Levitt and List 2007a) . 많은 연구자들이 기대하는 큰 데이터의 한 측면은 참가자가 일반적으로 자신의 데이터가 캡처되고 있거나 더 이상 자신의 행동을 변경하지 않는이 데이터 수집에 익숙해 져 있다는 것을 인식하지 못한다는 것입니다. 따라서 참가자가 반응 이 없기 때문에 이전에 정확한 측정을 할 수 없었던 행동을 연구하기 위해 많은 양의 큰 데이터 소스를 사용할 수 있습니다. 예를 들어, Stephens-Davidowitz (2014) 는 미국의 다른 지역에서 인종적 영향을 측정하기 위해 검색 엔진 쿼리에서 인종 차별적 인 용어의 보급을 사용했습니다. 비 반응적이고 큰 (2.3.1 절 참조) 검색 데이터의 특성은 설문 조사와 같은 다른 방법을 사용하는 것이 어려울 수있는 측정을 가능하게했습니다.
그러나 무 반응성은 이러한 데이터가 어떻게 든 사람들의 행동이나 태도를 직접 반영한다는 것을 보장하지 않습니다. 예를 들어 인터뷰 기반 조사에서 한 응답자가 "문제가 없다는 것이 아니라 페이스 북에 게시하지 않고 있습니다." (Newman et al. 2011) . 다시 말해, 일부 큰 데이터 소스는 비 반응 적이지만 사회적 바람직성 편향, 사람들이 최상의 방법으로 자신을 제시하려는 경향이없는 것은 아닙니다. 또한이 장의 뒷부분에서 설명 하듯이 큰 데이터 소스에서 캡처 한 동작은 플랫폼 소유자의 목표에 따라 때로는 영향을받습니다.이 문제는 알고리즘 혼란 이라고 합니다 . 마지막으로, 무 반응성이 연구에 유리하지만, 동의 나 인식없이 사람들의 행동을 추적하면 제 6 장에서 자세히 설명 할 윤리적 인 우려가 제기됩니다.
방금 설명한 세 가지 속성, 즉 항상 크고 항상 반응하는 것은 일반적으로 사회 연구에 유리하지만 항상 그런 것은 아닙니다. 다음으로, 불완전하고 액세스 할 수없고 비표준이고 표류하는 알고리즘 적으로 혼란스럽고 더럽고 민감한 대용량 데이터 소스의 7 가지 속성을 살펴 보겠습니다. 일반적으로 항상 그런 것은 아니지만 연구를위한 문제를 만듭니다.