研究人员使用电子邮件日志和行政记录,了解友谊的形成。这项研究需要处理大数据的不完整。
在许多情况下,研究人员还不能幸运地拥有,他们希望在一个地方自动收集一切。两种常见的问题是关于人的理论结构和数据之间的不匹配不完整的信息。这两个问题是由Kossinets和Watts讨论(2009)作为其努力了解网络如何演进社会的一部分。
粗略地说,研究人员认为,社交网络演进是由三个功能驱动:1)现有的关系2)共享活动(例如,宿舍,班级)和3)人口的结构。了解这三个因素之间的相互关系需要纵向的网络数据与关于个人的人口统计和活动的信息相结合。早先的研究其中的某些功能,但没有有三个。
Kossinets和Watts通过从大型的大学获取电子邮件日志开始了他们的研究。但是,仅仅这些电子邮件记录不完整,但不包括了解推动网络演进的各种因素所需的一切。因此,Kossinets和Watts合并这些电子邮件日志,与其他信息两个来源:由大学和有关共享活动(如学生宿舍信息和报名的课程的完整列表)信息收集人口统计信息。一旦这三个信息源,每个不全,合并在一起Kossinets和Watts有理解网络演进强大的数据结构。
但是,有是他们必须要克服的最后一个挑战。 Kossinets和Watts想学这所大学的社交网络如何演变,使他们需要找到一种方法使用的电子邮件登录到谁连接到谁的估计此时。如前面(第2.3.2.1节)所讨论的,使用数字痕迹社会研究当这种理论结构的运作是一个很大的挑战。最后,Kossinets和Watts决定,两个人被认为在时间\(T \)连接,当且仅当他们交换了电子邮件(\(I \)通过电子邮件发送\(J \)和\(J \)通过电子邮件发送\( I \))在前面的60天。这些选择不是随心所欲;它们是基于谨慎考虑这种经验设置,并Kossinets和Watts检查,他们的结果是稳健的这些选择。一般情况下,如果你的运作涉及到选择某些特定的临界值,比如说60天,而不是30天或90天这是一个好主意,以确保您的结果是不是这个选择很敏感。
一旦Kossinets和Watts解决由不完备造成的问题(例如,失踪人口信息,缺少有关共享活动信息和缺理论结构),他们不得不使他们能够理解,可以驱动网络演进的三个主要力量数据:1)现有的关系2)共享活动(例如,宿舍,班级)和3)人口的结构。与早先的研究相一致,他们认为,人与类似的人口更有可能形成的关系。然而,与先前的研究,他们发现,这种模式是强烈的现有的网络结构和共享活动缓解。换句话说,较早的研究人员曾见过的图案由数据部分解释,较早的研究没有。因此,通过与他们的数据的不完全成功地解决,Kossinets和Watts能够阐明的各种驱动社交网络演进不同因素的相互作用。