아날로그 시대에 대한 데이터를 수집하는 행위 - 누가 비용, 따라서 비교적 드문 경우-무엇인지한다. 이제 디지털 시대에, 수십억의 사람들의 행동, 기록, 저장 및 분석 가능한된다. 예를 들어, 웹 사이트에 클릭 할 때마다, 당신의 휴대 전화에 전화를 걸거나 신용 카드로 뭔가를 지불, 당신의 행동의 디지털 기록 작성 및 비즈니스에 의해 저장됩니다. 이러한 데이터는 사람들의 일상 생활 동작의 부산물이기 때문에, 종종 디지털 흔적이라고한다. 기업이 보유 이러한 흔적뿐만 아니라, 정부는 종종 디지털화 및 분석 가능한 데이터를 개인과 기업 모두에 대한 믿을 수 없을만큼 풍부한 데이터를 가지고있다. 이 두 기업과 정부 기록들은 빅 데이터라고합니다.
빅 데이터의 지속적 상승 홍수 행동 데이터가 행동 데이터가 풍부 세계에 부족 어디에 우리가 세계에서 이동 한 것을 의미한다. 이러한 유형의 데이터는 비교적 새로운 있기 때문에,이를 이용하여 연구의 불행한 양을 맹목적으로 사용할 수있는 데이터를 쫓는 과학자처럼 보인다. 이 장에서는, 대신, 데이터의 다른 소스를 이해하기로 원칙적인 접근 방식을 제공하고이 방법을 사용할 수 있습니다. 이 풍부한 이해는 더 나은 데이터의 적절한 소스로 연구 질문과 일치하는 데 도움이됩니다. 이러한 기존의 소스가 부족한 경우 또는, 당신은 미래의 장에서 아이디어를 사용하여 자신의 데이터를 수집하도록 설득.
관측 데이터 : 큰 데이터로부터 학습을위한 첫 단계는 수년간 사회 연구에 사용 된 데이터의 더 넓은 범주의 일부임을 인식한다. 대략, 관측 자료는 어떤 식 으로든 개입하지 않고 사회 시스템을 관찰의 결과 데이터입니다. 그것에 대해 생각하는 원유 방법은 관측 자료 사람들 (예를 들어, 설문 조사, 제 3 주제) 또는 사람들의 환경 (예를 들어, 실험, 제 4의 주제를) 변경과 대화 나누기 포함하지 않는 모든 것입니다. 따라서, 기업과 정부 기록뿐만 아니라, 관측 데이터는 신문 기사와 위성 사진의 텍스트 등을 포함한다.
이 장에서는 세 부분으로 구성되어 있습니다. 첫째, 2.2 절에서 좀 더 상세하게 빅 데이터를 설명하고 일반적으로 과거에 사회 연구에 사용 된 데이터 사이의 근본적인 차이를 명확히. 그런 다음, 2.3 절에, 내가 큰 데이터 소스의 열 일반적인 특성을 설명합니다. 이러한 특성을 이해하는 것은 우리가 빠르게 강점과 기존 소스의 약점을 인식하고 우리가 미래에 생성 될 새로운 소스를 활용 도움이 될 수 있습니다. 계산 일, 예측 것들과 실험을 근사 : 마지막으로, 2.4 절에, 나는 당신이 관측 데이터로부터 학습하는 데 사용할 수있는 세 가지 주요 연구 전략을 설명합니다.