연구진은 우정 형성을 이해하는 이메일 로그 및 관리 기록을 사용했다. 이 연구는 빅 데이터의 불완전 처리가 필요합니다.
많은 상황에서, 연구자들은 자동으로 한 곳에서 수집 원하는 모든 것을 가질 정도로 운이 없습니다. 두 가지 일반적인 문제는 사람과 이론적 구조와 데이터 사이의 불일치에 대한 불완전한 정보입니다. 이러한 문제는 모두 Kossinets 및 와트에 의해 해결되었다 (2009) 네트워크가 진화 방법 사회 이해하기위한 노력의 일환으로.
기존의 관계 2) 공유 활동 (예를 들면, 기숙사, 클래스), 3) 인구 통계의 1) 구조 : 대략 말하기, 연구자들은 소셜 네트워크의 진화는 세 가지 기능에 의해 구동되는 것이라고 생각합니다. 이 세 가지 요소 사이의 상호 관계를 이해하는 것은 개인의 인구 통계 및 활동에 대한 정보와 결합 길이 네트워크 데이터를 필요로한다. 이전 연구는 이러한 기능의 일부를했지만, 아무도 세 없었다.
Kossinets 및 와트는 큰 대학에서 전자 메일 로그를 수집하여 연구를 시작했다. 그러나, 이러한 전자 기록 형은 네트워크 진화를 구동하는 다양한 요인을 이해하는 데 필요한 모든 것을 포함하지 않는 불완전 하였다. 공유 활동 (예를 들어, 학생 기숙사 정보와 코스에 등록의 전체 목록)에 대한 대학 정보에 의해 수집 된 인구 통계 학적 정보 : 따라서, Kossinets 및 와트는 정보의 두 가지 다른 소스,이 이메일 로그를 합병했다. 불완전 각각의 정보를이 세 가지 소스되면, 함께 Kossinets을 통합하고 와트는 이해 네트워크 진화를위한 강력한 데이터 구조를 가지고 있었다.
그러나, 그들은 극복 한 하나의 마지막 도전이 있었다. Kossinets 및 와트는이 대학의 소셜 네트워크들이 사람에 연결된 사람의 추정치에 이메일 로그를 사용하는 방법이 필요 그래서 진화 방법을 공부하고 싶어하는 시간. 이전 (제 2.3.2.1)에서 설명하고있는 바와 같이 사회 연구를위한 디지털 트레이스를 사용하는 경우, 이론적 구조의 operationalization 이런 종류의 큰 도전이다. 결국, Kossinets 및 와트 두 사람이 시간 \ (t의 \)에 접속 간주되었다 결정하는 경우 그리고 그들은 이메일을 (\ 난 \ () (\ (J의 \)를 이메일 및 \ (J의 \)는 \를 이메일로 교환 한 경우에만 나는 이전 60 일)) \. 이러한 선택은 임의하지 않았다; 그들은이 경험적인 설정의주의 깊은 고려를 기반으로하고 Kossinets 및 와트는 결과는 이러한 선택에 강력한라고 확인했다. 당신의 operationalization 일부 특정 선택 관련된 경우 일반적으로 60 일 대신 30 일 또는 90 일 -이 결과는이 선택에 민감하지 있는지 확인하는 것이 좋습니다 단절을-말한다.
Kossinets 및 와트가 불완전하여 발생하는 문제를 해결하면 (예를 들면, 인구 통계 학적 정보 공유 활동에 대한 정보를 누락, 이론적 구조를 누락 누락), 그들은 네트워크 진화를 구동 할 수있는 세 가지 주요 세력을 이해하기 위해 그들을 사용 데이터를했다 : 1) 기존의 관계 2) 공유 활동 (예를 들면, 기숙사, 클래스), 3) 인구 통계의 구조. 이전 연구와 일치, 그들은 비슷한 인구를 가진 사람들이 관계를 형성 할 가능성이 있음을 발견했다. 그러나 이전 연구와는 달리, 그들은이 패턴이 강하게 기존 네트워크 구조 및 공유 활동에 의해 완화 된 것으로 나타났습니다. 다시 말하면, 이전 연구 보았던 패턴은 부분적으로 이전의 연구는되어 있지 않았다고 데이터로 설명되었다. 그러므로, 성공적으로 데이터 미완성을 처리하여 Kossinets 및 와트 소셜 네트워크 진화를 이용시 여러 다양한 요인들의 상호 작용을 분명히 할 수 있었다.