2.4.1.2學生之間的友誼形成

研究人員使用電子郵件日誌和行政記錄,了解友誼的形成。這項研究需要處理大數據的不完整。

在許多情況下,研究人員還不能幸運地擁有,他們希望在一個地方自動收集一切。兩種常見的問題是關於人的理論結構和數據之間的不匹配不完整的信息。這兩個問題是由Kossinets和Watts討論(2009)作為其努力了解網絡如何演進社會的一部分。

粗略地說,研究人員認為,社交網絡演進是由三個功能驅動:1)現有的關係2)共享活動(例如,宿舍,班級)和3)人口的結構。了解這三個因素之間的相互關係需要縱向的網絡數據與關於個人的人口統計和活動的信息相結合。早先的研究其中的某些功能,但沒有有三個。

Kossinets和Watts通過從大型的大學獲取電子郵件日誌開始了他們的研究。但是,僅僅這些電子郵件記錄不完整,但不包括了解推動網絡演進的各種因素所需的一切。因此,Kossinets和Watts合併這些電子郵件日誌,與其他信息兩個來源:由大學和有關共享活動(如學生宿舍信息和報名的課程的完整列表)信息收集人口統計信息。一旦這三個信息源,每個不全,合併在一起Kossinets和Watts有理解網絡演進強大的數據結構。

但是,有是他們必須要克服的最後一個挑戰。 Kossinets和Watts想學這所大學的社交網絡如何演變,使他們需要找到一種方法使用的電子郵件登錄到誰連接到誰的估計此時。如前面(第2.3.2.1節)所討論的,使用數字痕跡社會研究當這種理論結構的運作是一個很大的挑戰。最後,Kossinets和Watts決定,兩個人被認為在時間\(T \)連接,當且僅當他們交換了電子郵件(\(I \)通過電子郵件發送\(J \)\(J \)通過電子郵件發送\( I \))在前面的60天。這些選擇不是隨心所欲;它們是基於謹慎考慮這種經驗設置,並Kossinets和Watts檢查,他們的結果是穩健的這些選擇。一般情況下,如果你的運作涉及到選擇某些特定的臨界值,比如說60天,而不是30天或90天這是一個好主意,以確保您的結果是不是這個選擇很敏感。

一旦Kossinets和Watts解決由不完備造成的問題(例如,失踪人口信息,缺少有關共享活動信息和缺理論結構),他們不得不使他們能夠理解,可以驅動網絡演進的三個主要力量數據:1)現有的關係2)共享活動(例如,宿舍,班級)和3)人口的結構。與早先的研究相一致,他們認為,人與類似的人口更有可能形成的關係。然而,與先前的研究,他們發現,這種模式是強烈的現有的網絡結構和共享活動緩解。換句話說,較早的研究人員曾見過的圖案由數據部分解釋,較早的研究沒有。因此,通過與他們的數據的不完全成功地解決,Kossinets和Watts能夠闡明的各種驅動社交網絡演進不同因素的相互作用。