2.4.1.2 Friendship dannelse blant studenter

Forskerne brukte e-postlogger og administrative registre for å forstå vennskap formasjon. Denne forskningen krever håndteringen av ufullstendig store data.

I mange situasjoner, forskere ikke er heldig nok til å ha alt som de ønsker automatisk samles på ett sted. To vanlige problemer er ufullstendige opplysninger om personer og en mismatch mellom teoretiske utlegninger og data. Begge disse problemene ble løst ved Kossinets og Watts (2009) som en del av deres innsats for å forstå hvordan sosiale nettverk utvikles.

Grovt sett forskere tror at sosiale nettverk evolusjonen er drevet av tre funksjoner: 1) strukturen av eksisterende relasjoner 2) felles aktiviteter (f.eks sovesaler, klasser) og 3) demografi. Forstå sammenhengen mellom disse tre faktorene krever longitudinelle nettverksdata kombinert med informasjon om demografi og aktiviteter enkeltes. Tidligere studier hadde noen av disse funksjonene, men ingen hadde alle tre.

Kossinets og Watts startet sin forskning ved å kjøpe e-postlogger fra et stort universitet. Men disse e-postlogger alene var ufullstendige, de ikke inkluderer alt som trengs for å forstå de ulike faktorene som driver nettverket evolusjon. Derfor Kossinets og Watts fusjonert disse e-postlogger, med to andre kilder til informasjon: demografisk informasjon samlet inn av universitetet og informasjon om felles aktiviteter (f.eks studentbolig informasjon og en komplett liste over innmelding i kurs). Når disse tre informasjonskilder, som hver var ufullstendig, ble slått sammen Kossinets og Watts hadde en kraftig datastruktur for å forstå nettverket evolusjon.

Men, det var en siste utfordring at de måtte overvinne. Kossinets og Watts ønsket å studere hvordan det sosiale nettverket i dette universitetet utviklet seg slik at de trengte en måte å bruke e-post logger inn et anslag på som var koblet til hvem til hvilken tid. Som omtalt i tidligere (punkt 2.3.2.1), er denne typen operasjonalisering av teoretiske utlegninger en stor utfordring når man bruker digitale spor for samfunnsforskning. Til slutt, Kossinets og Watts besluttet at to personer ble ansett koblet på gang \ (t \) hvis og bare hvis de hadde utvekslet e-poster (\ (i \) mailet \ (j \) og \ (j \) mailet \ ( i \)) i de foregående 60 dager. Disse valgene var ikke tilfeldig; de var basert på en grundig vurdering av dette empirisk setting, og Kossinets og Watts sjekket at resultatene var robuste til disse valgene. Generelt, hvis operasjonalisering innebærer å velge noen konkrete tidsavgrensninger-si 60 dager i stedet for 30 dager eller 90 dager-det er en god idé å sørge for at resultatene ikke er følsomme for dette valget.

Når Kossinets og Watts adressert problemet forårsaket av ufullstendigheter (for eksempel manglende demografisk informasjon, manglende informasjon om felles aktivitet, og manglende teoretiske utlegninger), hadde de data som gjorde dem i stand til å forstå de tre viktigste kreftene som kan drive nettverket evolusjon: 1) strukturen av eksisterende relasjoner 2) felles aktiviteter (f.eks sovesaler, klasser) og 3) demografi. I samsvar med tidligere forskning, fant de at mennesker med samme demografi er mer sannsynlig å danne relasjoner. Men i motsetning til tidligere studier, fant de at dette mønsteret ble sterkt dempet av den eksisterende nettverksstruktur og felles aktiviteter. Med andre ord, ble det mønster som tidligere forskere hadde sett delvis forklares med data som tidligere forskere ikke har. Således, ved vellykket håndtere incompleteness av sine data, Kossinets og Watts var i stand til å avklare samspillet av en rekke ulike faktorer som driver sosiale nettverk utviklinger.