Các nhà nghiên cứu sử dụng các bản ghi email và hồ sơ hành chính để hiểu sự hình thành tình bạn. Nghiên cứu này đòi hỏi phải đối phó với những bất toàn của dữ liệu lớn.
Trong nhiều tình huống, các nhà nghiên cứu không đủ may mắn để có tất cả mọi thứ mà họ muốn thu thập ở một nơi. Hai vấn đề phổ biến là thông tin không đầy đủ về con người và sự không phù hợp giữa cấu trúc lý thuyết và dữ liệu. Cả hai vấn đề đã được giải quyết bằng Kossinets và Watts (2009) như là một phần của những nỗ lực của họ để hiểu cách mạng xã hội phát triển.
Nói đại khái, các nhà nghiên cứu cho rằng phát triển mạng xã hội được thúc đẩy bởi ba tính năng: 1) cấu trúc của mối quan hệ hiện có 2) hoạt động chia sẻ (ví dụ, ký túc xá, lớp học) và 3) nhân khẩu học. Hiểu được mối quan hệ giữa ba yếu tố này đòi hỏi dữ liệu mạng dọc kết hợp với các thông tin về nhân khẩu học và các hoạt động cá nhân. Nghiên cứu trước đây đã có một số các tính năng này, nhưng không có ai bị cả ba.
Kossinets và Watts bắt đầu nghiên cứu của họ bằng cách mua lại các bản ghi điện tử từ một trường đại học lớn. Tuy nhiên, các bản ghi email một mình là không đầy đủ, họ không bao gồm tất cả mọi thứ cần thiết để hiểu các yếu tố khác nhau lái xe phát triển mạng. Do đó, Kossinets và Watts sáp nhập các bản ghi email, với hai nguồn thông tin khác: thông tin cá nhân được thu thập bởi các trường đại học và các thông tin về các hoạt động chia sẻ (ví dụ, thông tin cư trú sinh viên và một danh sách đầy đủ đăng ký vào khóa học). Khi ba nguồn thông tin, mỗi trong số đó là không đầy đủ, được sáp nhập với nhau Kossinets và Watts đã có một cấu trúc dữ liệu mạnh mẽ cho sự phát triển sự hiểu biết mạng.
Nhưng, có một thử thách cuối cùng họ đã phải vượt qua. Kossinets và Watts muốn nghiên cứu cách mạng xã hội tại trường đại học này đã tiến hóa vì vậy họ cần một cách để sử dụng các bản ghi email vào một ước tính của những người đã được kết nối với những người vào thời điểm đó. Như đã thảo luận ở trước đây (mục 2.3.2.1), loại này vận hành của cấu trúc lý thuyết là một thách thức lớn khi sử dụng các dấu vết kỹ thuật số cho các nghiên cứu xã hội. Cuối cùng, Kossinets và Watts quyết định rằng hai người được coi là kết nối lúc \ (t \) khi và chỉ khi họ đã trao đổi email (\ (i \) gửi qua email \ (j \) và \ (j \) gửi qua email \ ( i \)) trong 60 ngày trước đó. Những lựa chọn này không phải là tùy ý; họ đã dựa trên việc xem xét cẩn thận các thiết lập thực nghiệm này, và Kossinets và Watts đã kiểm tra mà kết quả của họ mạnh mẽ đến những lựa chọn này. Nói chung, nếu vận hành của bạn liên quan đến việc lựa chọn một số cụ thể cutoffs-nói 60 ngày thay vì 30 ngày hoặc 90 ngày, đó là một ý tưởng tốt để đảm bảo rằng kết quả là không nhạy cảm với sự lựa chọn này.
Khi Kossinets và Watts giải quyết các vấn đề gây ra bởi sự không đầy đủ (ví dụ, thiếu thông tin nhân khẩu học, thiếu thông tin về các hoạt động chia sẻ, và mất tích cấu trúc lý thuyết), họ đã có dữ liệu đó cho phép họ hiểu được ba lực lượng chính mà có thể lái xe tiến hóa mạng: 1) cấu trúc của các mối quan hệ hiện có 2) hoạt động chia sẻ (ví dụ, ký túc xá, lớp học) và 3) nhân khẩu học. Phù hợp với các nghiên cứu trước đó, họ phát hiện ra rằng những người có nhân khẩu học tương tự có nhiều khả năng hình thành các mối quan hệ. Tuy nhiên, không giống như các nghiên cứu trước đó, họ phát hiện ra rằng mô hình này đã được giảm nhẹ mạnh mẽ bởi các cấu trúc mạng hiện có và các hoạt động chia sẻ. Nói cách khác, các mô hình mà các nhà nghiên cứu trước đó đã nhìn thấy được giải thích một phần bởi các dữ liệu mà các nhà nghiên cứu trước đây không có. Như vậy, bằng thành công đối phó với những bất toàn của dữ liệu của họ, Kossinets và Watts đã có thể làm rõ sự tương tác của một loạt các yếu tố khác nhau mà lái xe biến mạng xã hội.