큰 데이터가 아무리 크다해도 원하는 정보가 없을 것입니다.
대부분의 빅 데이터 소스는 연구에 필요한 정보가 없다는 점에서 불완전 합니다. 이것은 연구 이외의 목적으로 작성된 데이터의 공통된 특징입니다. 많은 사회 과학자들은 이미 필요한 질문을하지 않은 기존 설문 조사와 같이 미완성을 다루는 경험을 이미 가지고 있습니다. 불행히도, 불완전 성의 문제는 큰 데이터에서 더 극단적 인 경향이 있습니다. 내 경험상, 큰 데이터에는 사회 연구에 유용한 세 가지 유형의 정보, 즉 참가자에 대한 인구 통계 정보, 다른 플랫폼에서의 행동 및 이론적 구성을 조작하기위한 데이터가 누락되는 경향이 있습니다.
세 가지 종류의 불완전 성 중에서 이론적 구조를 조작하기위한 불완전한 데이터의 문제는 해결하기가 가장 어렵습니다. 그리고 제 경험상 우연히 간과되기도합니다. 대략적으로, 이론적 인 구조 는 사회 과학자가 연구하고 이론적 인 구조물을 조작 하는 추상적 인 아이디어입니다. 관찰 가능한 데이터로 그 구조물을 포착 할 수있는 방법을 제안하는 것을 의미합니다. 불행하게도,이 단순한 소리 나는 과정은 종종 꽤 어려운 것으로 판명됩니다. 예를 들어, 지능이 더 많은 사람들이 더 많은 돈을 벌었다고 명백히 단순하게 주장하는 것을 경험적으로 테스트하려고한다고 가정 해 봅시다. 이 주장을 테스트하려면 "지능"을 측정해야합니다. 그러나 지능이란 무엇입니까? Gardner (2011) 는 실제로 8 가지 형태의 지능이 있다고 주장했다. 그리고 이러한 지능 형태를 정확하게 측정 할 수있는 절차가 있습니까? 심리학자들의 막대한 노력에도 불구하고 이러한 질문에는 여전히 모호하지 않은 대답이 없습니다.
따라서 지능이 더 높은 사람들은 상대적으로 단순한 주장 일지라도 데이터에서 이론적 인 구조를 조작하기가 어려울 수 있기 때문에 경험적으로 평가하기가 어려울 수 있습니다. 중요하지만 조작하기 어려운 이론적 구조의 다른 사례에는 "규범", "사회 자본"및 "민주주의"가 포함됩니다. 사회 과학자는 이론적 구성과 데이터 구성의 타당성을 일치시킵니다 (Cronbach and Meehl 1955) . 이 짧은 목록의 구조가 암시 하듯이, 유효성 구축은 사회 과학자들이 오랫동안 어려움을 겪고있는 문제입니다. 그러나 내 경험상 연구의 목적으로 생성되지 않은 데이터로 작업 할 때 구조 타당성의 문제가 더 커졌습니다 (Lazer 2015) .
연구 결과를 평가할 때 구조 타당성을 평가하는 빠르고 유용한 방법 중 하나는 일반적으로 구문으로 표현되는 결과를 가져 와서 사용 된 데이터 측면에서 다시 표현하는 것입니다. 예를 들어, 지능이 더 많은 사람들이 더 많은 돈을 벌 수 있다는 것을 보여주는 두 가지 가상의 연구를 고려해보십시오. 첫 번째 연구에서 연구원은 Raven Progressive Matrices Test (Carpenter, Just, and Shell 1990) 분석 정보의 잘 테스트 된 테스트 (Carpenter, Just, and Shell 1990) 높은 점수를 얻은 사람들은 세금 환급에 대한 소득이 더 높다는 것을 발견했습니다. 두 번째 연구에서, 연구원은 더 긴 단어를 사용하는 트위터의 사람들이 명품 브랜드를 언급 할 가능성이 더 큰 것으로 나타났습니다. 두 경우 모두,이 연구원들은 지능이 더 많은 사람들이 더 많은 돈을 벌 수 있다는 것을 보여 주었다고 주장 할 수 있습니다. 그러나 첫 번째 연구에서는 이론적 인 구조가 데이터에 의해 잘 작동되지만 두 번째 연구에서는 그렇지 않습니다. 또한이 예제에서 알 수 있듯이 더 많은 데이터가 구문 유효성과 관련된 문제를 자동으로 해결하지 못합니다. 두 번째 연구의 결과가 100 만개의 짹짹, 10 억 개의 짹짹 또는 1 조개의 짹짹과 관련이 있는지 의심해야합니다. 구조 타당성에 대한 개념에 익숙하지 않은 연구자의 경우 표 2.2는 디지털 추적 데이터를 사용하여 이론적 인 구성을 조작 한 연구의 몇 가지 예를 제공합니다.
데이터 소스 | 이론적 구성 | 참고 문헌 |
---|---|---|
대학의 이메일 로그 (메타 데이터 전용) | 사회적 관계 | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo의 소셜 미디어 게시물 | 시민 참여 | Zhang (2016) |
회사의 이메일 로그 (메타 데이터 및 전체 텍스트) | 조직의 문화적 적합성 | Srivastava et al. (2017) |
이론적 구조를 포착하기위한 불완전한 데이터의 문제는 해결하기가 어렵지만, 불완전한 인구 통계 학적 정보와 다른 플랫폼의 행동에 대한 불완전한 정보와 같은 다른 일반적인 유형의 불완전성에 대한 일반적인 해결책이 있습니다. 첫 번째 해결책은 실제로 필요한 데이터를 수집하는 것입니다. 설문 조사에 대해 이야기 할 때 3 장에서 그 사실을 이야기하겠습니다. 두 번째 주요 솔루션은 데이터 과학자가 사용자 속성 추론 이라고 부르는 것을 수행하고 사회 과학자는 대체를 호출하는 것입니다. 이 접근법에서 연구원들은 다른 사람들의 속성을 추론하기 위해 그들이 가지고있는 정보를 사용합니다. 세 번째 가능한 솔루션은 여러 데이터 원본을 결합하는 것입니다. 이 프로세스를 레코드 연결 이라고도합니다. 이 과정에 대한 내가 가장 좋아하는 은유는 Dunn (1946) 이 기록적인 연계로 작성한 첫 번째 논문의 첫 단락에 썼다.
"세계의 모든 사람들은 생명의 책을 만듭니다. 이 책은 출생으로 시작하여 죽음으로 끝납니다. 그것의 페이지는 인생의 주요 사건에 대한 기록들로 구성되어있다. 레코드 연결은이 책의 페이지를 볼륨으로 모으는 프로세스에 주어진 이름입니다. "
던이 그 구절을 썼을 때 그는 생명의 책이 출생, 결혼, 이혼, 죽음과 같은 주요 삶의 사건을 포함 할 수 있다고 상상하고있었습니다. 그러나 사람들에 대한 많은 정보가 기록되었으므로 Life of Book은 다른 페이지 (즉, 디지털 흔적)를 함께 묶을 수있는 경우 엄청나게 자세한 초상화가 될 수 있습니다. 이 책자는 연구자들에게 훌륭한 자료가 될 수 있습니다. 하지만 6 장 (윤리)에서 설명 하듯이 모든 종류의 비 윤리적 목적에 사용될 수있는 파멸 데이터베이스 (Ohm 2010) 라고 부를 수도 있습니다.