큰 데이터는 연구 이외의 목적을 위해 회사와 정부에 의해 만들어지고 수집됩니다. 따라서이 데이터를 연구에 사용하면 용도 변경이 필요합니다.
많은 사람들이 디지털 시대에 사회 연구를 접하는 첫 번째 방법은 종종 빅 데이터 ( big data) 라고 불리는 것을 통해서입니다. 이 용어가 널리 사용 되었음에도 불구하고 큰 데이터가 무엇인지에 대해서는 합의가 이루어지지 않았습니다. 그러나 빅 데이터의 가장 일반적인 정의 중 하나는 볼륨, 버라이어티 및 속도 : "3 대"에 초점을 맞추고 있습니다. 대략적으로 다양한 형식의 많은 데이터가 있으며 끊임없이 생성되고 있습니다. 일부 대형 데이터 팬은 Veracity 및 Value와 같은 다른 "Vs"를 추가하는 반면 일부 비평가는 Vague 및 Vacuous와 같은 Vs를 추가합니다. 3 "Vs"(또는 5 "Vs"또는 7 "Vs")보다는 사회 연구 목적으로, 더 나은 곳은 5 "Ws"입니다 : 누가, 무엇을, 어디서, 언제 , 그리고 왜. 사실 큰 데이터 소스에서 생성 된 많은 도전과 기회는 단 하나의 "W"에서 비롯된 것입니다. 이유는 무엇입니까?
아날로그 시대에 사회 연구에 사용 된 대부분의 데이터는 연구를 위해 만들어진 것입니다. 그러나 디지털 시대에는 서비스 제공, 수익 창출 및 법률 관리와 같이 연구 이외의 목적으로 기업 및 정부가 막대한 양의 데이터를 생성합니다. 그러나 창조적 인 사람들은이 기업 및 정부 데이터를 연구 목적으로 다시 사용할 수 있다는 것을 깨달았습니다. 1 장의 미술 비유로 돌아가서, Duchamp가 발견 된 대상을 예술을 창조하기 위해 다시 사용했듯이 과학자들은 발견 된 데이터를 용도 변경하여 연구를 만들 수 있습니다.
연구 목적으로 작성되지 않은 데이터를 사용하여 새로운 용도로 활용할 수있는 기회가 될 것입니다. 예를 들어 Twitter와 같은 소셜 미디어 서비스를 일반 사회 조사와 같은 전통적인 여론 조사와 비교해보십시오. Twitter의 주요 목표는 사용자에게 서비스를 제공하고 수익을 창출하는 것입니다. 반면 일반 사회 조사는 사회 연구, 특히 여론 조사를위한 범용 데이터를 만드는 데 중점을 둡니다. 이 목표의 차이는 Twitter가 작성한 데이터와 일반 사회 조사에서 작성한 데이터가 모두 여론을 연구하는 데 사용될 수 있지만 서로 다른 속성을 가짐을 의미합니다. 트위터는 일반 사회 조사와 일치 할 수없는 규모와 속도로 운영되지만 일반 사회 조사와는 달리 트위터는 사용자를주의 깊게 샘플링하지 않으며 오랜 기간 동안 비교 가능성을 유지하기 위해 열심히 노력하지 않습니다. 이 두 가지 데이터 소스가 매우 다르기 때문에 일반 사회 조사가 Twitter보다 우수하거나 그 반대의 경우를 말하는 것이 이치에 맞지 않습니다. 글로벌 분위기 (예 : Golder and Macy (2011) )의 시간 대책을 원한다면 Twitter가 가장 좋습니다. 반면 미국의 태도 양극화에 대한 장기적인 변화 (예 : DiMaggio, Evans, and Bryson (1996) )를 이해하려면 일반 사회 조사가 최선의 선택입니다. 더 일반적으로, 큰 데이터 소스가 다른 유형의 데이터보다 좋거나 나쁘다는 것을 논하기보다는이 장에서는 큰 데이터 소스가 매력적인 속성을 갖고있는 연구 질문 유형과 그렇지 않은 질문 유형을 명확히하려고 노력할 것입니다 이상.
큰 데이터 소스에 대해 생각할 때 많은 연구자들은 검색 엔진 로그 및 소셜 미디어 게시물과 같은 회사에서 생성 및 수집 한 온라인 데이터에 즉시 집중합니다. 그러나이 좁은 초점은 두 가지 중요한 데이터의 중요한 소스를 두지 않습니다. 첫째, 점점 커지는 기업의 큰 데이터 소스는 실제 세계의 디지털 장치에서 발생합니다. 예를 들어이 장에서는 동료의 생산성에 영향을받는 근로자의 생산성을 조사하기 위해 슈퍼마켓 체크 아웃 데이터를 다시 사용하는 연구에 대해 설명합니다 (Mas and Moretti 2009) . 다음 장에서는 휴대 전화 (Blumenstock, Cadamuro, and On 2015) 및 전기 유틸리티 (Allcott 2015) 작성한 청구 데이터를 사용한 연구원에 대해 설명 (Allcott 2015) . 위의 예에서 알 수 있듯이 기업의 빅 데이터 소스는 온라인 행동 그 이상입니다.
온라인 행동에 초점을 맞추지 못한 큰 데이터의 두 번째 중요한 소스는 정부가 만든 데이터입니다. 연구원이 정부 행정 기록 이라고 부르는 이러한 정부 데이터에는 세금 기록, 학교 기록 및 중요한 통계 기록 (예 : 출생 및 사망 기록)이 포함됩니다. 정부는 이런 종류의 데이터를 수백 년 동안 창조해 왔으며, 사회 과학자들은 사회 과학자들과 거의 같은 기간 동안 그들을 착취 해 왔습니다. 그러나 변화된 것은 디지털화로 정부가 데이터를 수집, 전송, 저장 및 분석하는 것이 훨씬 쉬워졌습니다. 예를 들어,이 장에서는 뉴욕시 정부의 디지털 택시 미터에서 데이터를 용도 변경하여 노동 경제에 대한 근본적인 논쟁을 다루는 연구에 대해 설명합니다 (Farber 2015) . 다음 장에서는 정부에서 수집 한 투표 기록이 설문 조사 (Ansolabehere and Hersh 2012) 와 실험 (Bond et al. 2012) 에서 사용 된 방법에 대해 설명 (Ansolabehere and Hersh 2012) .
용도 변경에 대한 아이디어는 거대한 데이터 소스로부터 학습하는 것이 중요하다고 생각합니다. 따라서 빅 데이터 소스의 속성 (2.3 절)과이를 연구 (2.4 절)에서 어떻게 사용할 수 있는지에 대해 구체적으로 말하기 전에, repurposing에 관한 일반적인 조언 두 가지를 제공합니다. 첫째, "발견 된"데이터와 "설계된"데이터 사이에 존재하는 것으로 대비 한 대비를 생각해 볼 수 있습니다. 그게 다야.하지만 맞지 않아. 연구원의 관점에서 볼 때 큰 데이터 소스는 "발견"되었지만 하늘에서 떨어지는 것이 아닙니다. 대신 연구자가 "발견 한"데이터 소스는 누군가 목적에 맞게 설계되었습니다. "발견 된"데이터는 누군가에 의해 설계되었으므로 필자는 데이터를 만든 사람과 프로세스에 대해 가능한 한 많이 이해하려고 노력하는 것이 좋습니다. 둘째, 데이터를 용도 변경하는 경우 문제에 대한 이상적인 데이터 세트를 상상해보고 이상적인 데이터 세트를 사용중인 데이터 세트와 비교하는 것이 매우 유용합니다. 직접 데이터를 수집하지 않았다면, 원하는 것과 당신이 가지고있는 것 사이에 중요한 차이가있을 것입니다. 이러한 차이점을 인식하면 보유한 데이터에서 무엇을 배울 수 있고 배울 수 없는지를 명확히하고, 수집해야하는 새로운 데이터를 제안 할 수 있습니다.
내 경험에 비추어 볼 때, 사회 과학자들과 데이터 과학자들은 용도 변경을 매우 다르게하는 경향이 있습니다. 연구를 위해 설계된 데이터로 작업하는 데 익숙한 사회 과학자는 일반적으로 재사용 된 데이터의 문제점을 지적하면서 강점을 무시합니다. 반면에 데이터 과학자들은 일반적으로 재사용 된 데이터의 장점을 지적하면서 취약점을 무시합니다. 당연히 최선의 방법은 하이브리드입니다. 즉, 연구자는 큰 데이터 소스 (좋고 나쁜 것 모두)의 특성을 이해하고 그로부터 배우는 방법을 알아야합니다. 그리고 이것이이 장의 나머지 부분을위한 계획입니다. 다음 섹션에서는 빅 데이터 소스의 10 가지 공통 특성을 설명합니다. 다음 섹션에서는 이러한 데이터를 효과적으로 활용할 수있는 세 가지 연구 방법에 대해 설명하겠습니다.