Forskerne brugte e-mail-logfiler og administrative registre til at forstå dannelse venskab. Denne forskning kræver beskæftiger sig med ufuldstændige store data.
I mange situationer, forskere er ikke heldig nok til at have alt, at de automatisk vil have indsamlet på ét sted. To almindelige problemer er ufuldstændige oplysninger om de mennesker og et misforhold mellem teoretiske konstruktioner og data. Begge disse problemer blev behandlet af Kossinets og Watts (2009) som en del af deres bestræbelser på at forstå, hvordan sociale netværk udvikler sig.
Groft sagt forskere mener, at sociale netværk evolution er drevet af tre funktioner: 1) strukturen af eksisterende forhold 2) fælles aktiviteter (f.eks sovesale, klasser) og 3) demografi. Forståelse af sammenhænge mellem disse tre faktorer kræver langsgående netværksdata kombineret med oplysninger om enkeltpersoners demografi og aktiviteter. Tidligere undersøgelser havde nogle af disse funktioner, men ingen havde alle tre.
Kossinets og Watts startede deres forskning ved at erhverve e-mail-logs fra et stort universitet. Men disse e-logfiler alene var ufuldstændige, de ikke omfatter alt det nødvendige for at forstå de forskellige faktorer, der driver netværk evolution. Derfor Kossinets og Watts fusionerede disse e-mail logfiler, med to andre informationskilder: demografiske oplysninger indsamlet af universitetet og oplysninger om fælles aktiviteter (f.eks kollegium oplysninger og en komplet liste over optagelse på kurser). Når disse tre informationskilder, som hver især var ufuldstændig, blev slået sammen Kossinets og Watts havde en stærk datastruktur for at forstå netværk evolution.
Men der var en sidste udfordring, at de havde at overvinde. Kossinets og Watts ønskede at undersøge, hvordan det sociale netværk i dette universitet udviklet sig så de havde brug for en måde at bruge e-mail-logfiler i et skøn over, som var forbundet til hvem, på hvilket tidspunkt. Som omtalt i tidligere (afsnit 2.3.2.1), denne form for operationalisering af teoretiske konstruktioner er en stor udfordring, når anvendelse af digitale spor for social forskning. I sidste ende, Kossinets og Watts besluttede, at to mennesker blev anset forbundet til tiden \ (t \) hvis og kun hvis de havde udvekslet e-mails (\ (i \) emailet \ (j \) og \ (j \) emailet \ ( i \)) i de sidste 60 dage. Disse valg var ikke vilkårlig; de var baseret på nøje overvejelser af denne empiriske indstilling, og Kossinets og Watts kontrolleret, at deres resultater var robust til disse valg. Generelt hvis din operationalisering indebærer at vælge nogle specifikke cutoffs-sige 60 dage i stedet for 30 dage eller 90 dage, det er en god idé at sørge for, at dine resultater er ikke følsomme over for dette valg.
Når Kossinets og Watts behandlet problemet skyldes ufuldstændige (fx manglende demografiske informationer, manglende oplysninger om delt aktivitet, og mangler teoretiske konstruktioner), havde de data, der satte dem i stand til at forstå de tre vigtigste kræfter, der kan drive netværket evolution: 1) struktur af eksisterende relationer 2) fælles aktiviteter (f.eks sovesale, klasser) og 3) demografi. I overensstemmelse med tidligere forskning, fandt de, at folk med samme demografi er mere tilbøjelige til at danne relationer. modsætning til tidligere undersøgelser, fandt imidlertid de, at dette mønster var stærkt dæmpet af det eksisterende netværk struktur og fælles aktiviteter. Med andre ord blev det mønster, at tidligere forskere havde set delvist forklares ved data, som tidligere forskere ikke havde. Således ved med held at gøre med ufuldstændige deres data, Kossinets og Watts kunne klarlægge samspillet mellem en række forskellige faktorer, som styrer netværk udviklingstendenser sociale.