2.4.1.2 Vriendschap formatie onder studenten

Onderzoekers gebruikten e-mail logs en ​​administratieve gegevens om de vorming vriendschap begrijpen. Dit onderzoek vereist het omgaan met de onvolledigheid van big data.

In veel situaties, onderzoekers zijn niet gelukkig genoeg om alles wat ze automatisch op één plek willen verzameld hebben. Twee veel voorkomende problemen zijn onvolledige informatie over de mensen en een mismatch tussen theoretische concepten en data. Beide problemen werden aangepakt door Kossinets en Watts (2009) , als onderdeel van hun inspanningen om te begrijpen hoe de sociale netwerken evolueren.

Ruwweg onderzoekers denken dat social network evolutie wordt aangedreven door drie kenmerken: 1) de structuur van bestaande relaties 2) gezamenlijke activiteiten (bv, slaapzalen, klassen) en 3) demografie. Inzicht in de onderlinge verbanden tussen deze drie factoren vereist longitudinale netwerkgegevens gecombineerd met informatie over de demografische ontwikkelingen en activiteiten van individuen '. Eerdere studies hadden een aantal van deze functies, maar geen enkele had alle drie.

Kossinets en Watts begonnen hun onderzoek door de overname van de e-mail logs van een grote universiteit. Echter, deze e-mail logs alleen waren incompleet, ze geen alles wat nodig is om de verschillende factoren netwerk evolutie te begrijpen. Daarom Kossinets en Watts fuseerde deze e-logs, met twee andere bronnen van informatie: demografische gegevens van de universiteit en informatie over de gezamenlijke activiteiten (bv studentenresidentie informatie en een volledig overzicht van de inschrijving in cursussen) verzameld. Nadat deze drie informatiebronnen, die elk onvolledig was, werden samengevoegd en Kossinets Watts had een krachtige datastructuur begrip netwerkevolutie.

Maar, er was een laatste uitdaging die ze moesten overwinnen. Kossinets en Watts wilde onderzoeken hoe het sociale netwerk in deze universiteit ontwikkeld, zodat ze behoefte aan een manier om de e-mail logs te gebruiken in een schatting van die verbonden was met wie op welk moment. Zoals besproken in eerder (paragraaf 2.3.2.1), dit soort operationalisering van theoretische concepten is een grote uitdaging bij het gebruik van digitale sporen voor sociaal-wetenschappelijk onderzoek. Op het einde, Kossinets en Watts besloten dat twee mensen werden beschouwd aangesloten op het moment \ (t \) als en slechts als zij e-mails (\ (i \) gemaild \ (j \) en \ (j \) gemaild \ (hadden uitgewisseld i \)) in de laatste 60 dagen. Deze keuzes waren niet willekeurig; ze waren gebaseerd op een zorgvuldige afweging van deze empirische instelling en Kossinets en Watts gecontroleerd dat hun resultaten waren robuust deze keuzes. In het algemeen, als uw operationalisering gaat om het kiezen van een aantal specifieke cutoffs-zeggen 60 dagen in plaats van 30 dagen of 90 dagen-het is een goed idee om ervoor te zorgen dat je resultaten zijn niet gevoelig voor deze keuze.

Zodra Kossinets en Watts het probleem veroorzaakt door de onvolledigheid aangepakt (zoals ontbrekende demografische informatie, ontbrekende informatie over gezamenlijke activiteit, en ontbrekende theoretische concepten), hadden ze de gegevens die hen in staat stelde om de drie belangrijkste krachten die het netwerk evolutie kan rijden begrijpen: 1) de structuur van de bestaande relaties 2) gezamenlijke activiteiten (bv, slaapzalen, klassen) en 3) demografie. In overeenstemming met eerder onderzoek, vonden ze dat mensen met dezelfde demografische hebben meer kans om relaties te vormen. Echter, in tegenstelling tot eerdere studies, vonden ze dat dit patroon werd sterk beperkt door de bestaande structuur van het netwerk en de gezamenlijke activiteiten. Met andere woorden, het patroon dat eerder onderzoekers hadden gezien gedeeltelijk verklaard door data die eerdere onderzoekers niet hebben. Door dus succes het behandelen van de onvolledigheid van de gegevens, en Kossinets Watts konden verduidelijken de interactie van een aantal verschillende factoren die sociaal netwerk evoluties rijden.