아날로그 시대에 행동에 관한 데이터를 수집합니다. 누구가 무엇을 언제 할 수 있으며, 언제 비싼 지, 따라서 비교적 드뭅니다. 이제 디지털 시대에 수십억 명의 사람들의 행동이 기록되고 저장되고 분석됩니다. 예를 들어, 웹 사이트를 클릭하거나 휴대 전화로 전화를 걸거나 신용 카드로 무언가를 지불 할 때마다 귀하의 행동에 대한 디지털 기록이 생성되어 사업장에 저장됩니다. 이러한 유형의 데이터는 사람들의 일상적인 행동의 부산물이기 때문에 흔히 디지털 흔적 이라고 합니다 . 정부는 기업이 보유한 이러한 흔적 외에도 사람과 기업 모두에 대해 엄청난 양의 데이터를 보유하고 있습니다. 이러한 비즈니스 및 정부 기록을 종합 해 빅 데이터 라고도 합니다 .
날로 커지는 빅 데이터의 홍수는 행동 데이터가 부족한 세계에서 행동 데이터가 풍부한 세계로 이동했음을 의미합니다. 큰 데이터로부터 학습하는 첫 번째 단계는 수년 동안 사회 조사에 사용 된 더 광범위한 데이터 카테고리의 일부인 깨닫고 있습니다 : 관측 데이터 . 대략적으로, 관측 자료는 어떤 식 으로든 개입하지 않고 사회 시스템을 관찰함으로써 생기는 데이터입니다. 관찰 데이터는 사람들과 이야기하는 것 (예 : 설문 조사, 3 장 주제) 또는 사람들의 환경 변화 (예 : 실험, 4 장 주제)와 관련이없는 모든 것입니다. 따라서 비즈니스 및 정부 기록 외에도 관측 데이터에는 신문 기사 텍스트 및 위성 사진과 같은 내용이 포함됩니다.
이 장에는 세 부분이 있습니다. 첫째, 2.2 절에서 빅 데이터 소스를보다 자세하게 설명하고 이전에는 사회 연구에 일반적으로 사용되었던 데이터와의 근본적인 차이를 명확히했습니다. 그런 다음 2.3 절에서 큰 데이터 소스의 10 가지 공통 특성을 설명합니다. 이러한 특성을 이해하면 기존 소스의 강점과 약점을 신속하게 인식 할 수 있으며 향후 사용할 수있는 새 소스를 활용하는 데 도움이됩니다. 마지막으로, 2.4 절에서 관찰 데이터로부터 배우기 위해 사용할 수있는 3 가지 주요 연구 전략, 즉 물건 수를 세우고, 예측하고, 실험을 대략적으로 설명합니다.