2.3.2.1 불완전한

아무리 "큰"당신의 "빅 데이터는"아마 당신이 원하는 정보를하지 않는 방법에 대해 설명합니다.

가장 큰 데이터 소스는 당신 연구하고자 할 정보가없는 것을 의미에서 불완전하다. 이 연구 이외의 목적으로 작성된 데이터의 공통 특징이다. 많은 사회 과학자들은 이미 당신이 원하는 질문을하지 않은 기존의 설문 조사로, 불완전 처리의 경험이있다. 불행하게도, 불완전의 문제는 빅 데이터에 더 극단적 인 경향이있다. 이론적 구조를 운용 할하는 인구 통계, 다른 플랫폼에서 동작 및 데이터 : 내 경험에 의하면, 빅 데이터는 세 사회 연구를위한 유용한 정보의 유형을 누락하는 경향이있다.

불완전 이러한 형태의 세 가지가 Gueorgi Kossinets과 던컨 와츠의 연구에 도시되어있다 (2006) 대학에서 소셜 네트워크의 진화에 대해. Kossinets 및 와트 (연구자는 이메일의 내용에 액세스하지 않았다) 어떤 시간에 이메일을 보낸 사람에 대한 정확한 정보를 가지고 대학에서 전자 메일 로그 시작했다. 이 이메일 기록은 놀라운 데이터 세트 같은 소리지만, 그들이 있습니다-에도 불구하고 자신의 크기와 입도-근본적으로 불완전한. 예를 들어, 전자 메일 로그는 성별과 연령 학생의 인구 통계 학적 특성에 대한 데이터가 포함되어 있지 않습니다. 또한, 이메일 기록은 전화 통화, 텍스트 메시지, 또는 대면 대화 등의 다른 매체를 통한 통신에 대한 정보를 포함하지 않는다. 마지막으로, 이메일 로그는 직접 관계가 많은 기존의 이론 이론 구조에 대한 정보를 포함하지 않는다. 내가 연구 전략에 대해 이야기 할 때 나중에 장에, 당신은 Kossinets 및 와트는 이러한 문제를 해결하는 방법을 볼 수 있습니다.

불완전 세 가지 종류의 이론적 구조를 운용 할 수있는 불완전한 데이터의 문제는 해결하기 어려운이고, 내 경험, 그것은 종종 실수로 데이터 과학자에 의해 간과된다. 대략, 이론적 구조는 불행하게도,이 구조는 항상 명확하게 정의하고 측정 할 수없는, 사회 과학자 공부 추상적 인 아이디어가 있지만. 예를 들어, 경험적으로 더 지능적인 사람들이 더 많은 돈을 벌 명백하게 단순한 주장을 테스트하려고 가정 해 봅시다. 이 주장을 테스트하기 위해 당신은 지능이 무엇인가 ". 정보"를 측정해야하지만까요? 예를 들어, Gardner (2011) 지능의 8 가지 형태가 실제로 있다는 것을 주장했다. 그리고, 정확하게 지능 이러한 형태 중 하나를 측정 할 수있다 절차는? 심리학자에 의해 작품의 엄청난 양에도 불구하고,이 질문은 여전히​​ 명확한 답변이 없습니다. 따라서, 더욱 지능 비교적 간단한 주장-사람들이 적립 더 많은 돈-수는 데이터 이론적 구조를 운용 할 어려울 수 있기 때문에 경험적으로 평가하기 어렵다. "규범", "사회적 자본"과 "민주주의를 포함 운용 할 중요하지만 어려운 이론적 구조의 다른 예."사회 과학자들은 이론적 구조 및 데이터 구조의 유효성 사이의 일치 전화 (Cronbach and Meehl 1955) . 그리고 구조의 목록에서 알 수 있듯이, 그들은 연구의 목적을 위해 수집 된 데이터로 작업 한 경우에도, 유효성은 사회 과학자들이 오랫동안 고생했는지 문제가 구축. 연구 이외의 목적으로 수집 된 데이터로 작업 할 때, 구성 타당도의 문제가 훨씬 더 도전하다 (Lazer 2015) .

이 연구 논문을 읽을 때, 하나의 신속하고 유용한 방법은 구성 타당도에 대한 우려는 일반적 구조로 표현 된 종이의 주요 주장을하는 것입니다 평가하고, 사용되는 데이터의 관점에서 다시 표현한다. 예를 들어, 더 지능적인 사람들이 더 많은 돈을 벌 것을 보여주기 위해 주장이 가상의 연구를 고려 :

  • 연구 1 : 분석 정보의-테스트 잘 연구 시험 레이븐 진보적 인 행렬에 잘 점수 사람들이 (Carpenter, Just, and Shell 1990) 세금 반환에 더보고 소득 짧음
  • 연구 2 : 더 이상 말은 명품 브랜드를 언급 할 가능성이 사용하는 트위터의 사람들

두 경우 모두, 연구자들은 더 지능적인 사람들이 더 많은 돈을 벌 것으로 나타났습니다 주장 할 수있다. 그러나, 첫 번째 연구에서 이론적 구조는 물론 데이터가 조작화되고, 상기 제 그들은 아니다. 이 예에서 보듯 또한, 더 많은 데이터가 자동으로 구성 타당도 문제가 해결되지 않습니다. 그것은 백만 트윗 억 트윗, 또는 조 트윗을 참여 여부를 연구 2의 결과를 의심해야한다. 구성 타당도의 개념에 익숙하지 연구원은 표 2.2은 디지털 트레이스 데이터를 사용하여 이론적 구조를 조작화 한 연구의 몇 가지 예를 제공합니다.

표 2.2 : 더 추상적 인 이론적 개념의 조치로 사용되는 디지털 트레이스의 예. 사회 과학자들은이 경기의 구성 타당도를 호출하고 사회 연구를위한 빅 데이터 소스 사용에 큰 도전이다 (Lazer 2015) .
디지털 추적 이론적 구조 소환
대학에서 전자 메일 로그 (메타 데이터 전용) 사회 관계 Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
웨이 보에 소셜 미디어 게시물 시민 참여 Zhang (2016)
기업의 이메일 로그 (메타 데이터 및 전체 텍스트) 조직의 문화에 맞게 Goldberg et al. (2015)

operationalizing 이론적 구조에 대한 불완전한 데이터의 문제를 해결하기 위해 매우 열심히하지만, 불완전 인구 통계 학적 정보와 다른 플랫폼에서 동작에 대한 불완전한 정보의 문제에 대한 세 가지 일반적인 해결책이있다. 첫 번째는 실제로 당신이 필요로하는 데이터를 수집하는 것입니다; 내가 설문 조사에 대해 얘기 할 때 나는 제 3 장에서 그 예에 대해 말씀 드리죠. 불행하게도, 데이터 수집의이 종류는 항상 가능한 것은 아니다. 두 번째 주요 솔루션은 데이터 과학자 사용자 속성 추론 어떤 사회 과학자가 전가 전화를 호출 일을하는 것입니다. 이 방법에서, 연구진은 다른 사람들의 특성을 추론하는 그들이 어떤 사람들이 정보를 사용합니다. Kossinets에 의해 사용되는 세 번째 가능한 솔루션 한 여러 데이터 소스를 결합 와트는-했다. 이 프로세스는 종종 병합 또는 레코드 링크라고한다. 이 과정에 대한 나의 마음에 드는 은유는 이제까지 기록 결합에 기록 된 첫 번째 용지의 첫 번째 단락에서 제안되었다 (Dunn 1946) :

"세계 각 사람은 생명의 책이 만들어집니다. 이 책은 출생에서 시작하여 죽음으로 끝납니다. 그 페이지는 삶의 원칙 이벤트의 레코드로 구성되어 있습니다. 레코드 링크 볼륨으로이 책의 페이지를 조립하는 과정에 주어진 이름이다. "

이 구절은 1946 년에 작성되었고, 그 당시 사람들은 생명의 책은 출생, 결혼, 이혼, 사망 등 주요 생활 사건을 포함 할 수 있다고 생각했다. 그 다른 페이지 (즉, 우리의 디지털 흔적)이 함께 결합 될 수있는 경우, 지금 사람들에 대한 너무 많은 정보가 기록되어, 생명의 책은 믿을 수 없을만큼 상세한 초상화 될 수 있습니다. 생명의이 책은 연구자를위한 훌륭한 자원이 될 수 있습니다. 하지만, 생명의 책은 파멸의 데이터베이스를 호출 할 수있다 (Ohm 2010) 나는 아래 빅 데이터 소스에서 수집 된 정보의 민감한 성격에 대해 이야기 할 때 아래에 자세히 설명 된 바와 같이, 비 윤리적 인 목적으로 모든 종류의 사용할 수 있습니다, 및 제 6 장 (윤리)입니다.