Výzkumníci použili e-mailové protokoly a správní záznamy pochopit vznik přátelství. Tento výzkum vyžaduje zabývající se neúplnosti zpracování velkých objemů dat.
V mnoha situacích, výzkumníci nejsou to štěstí, že že chtějí automaticky shromážděné na jednom místě všechno. Dva běžné problémy jsou neúplné informace o lidech a nesouladu mezi teoretických konstruktů a dat. Oba tyto problémy byly řešeny Kossinets a Watts (2009) jako součást jejich úsilí pochopit, jak sociální sítě vyvíjejí.
Zjednodušeně řečeno, vědci si myslí, že evoluce sociální síť je řízen třemi funkcemi: 1) struktury existujících vztahů 2) společných aktivit (např dorms, tříd) a 3) demografické. Pochopení vzájemných vztahů mezi těmito třemi faktory vyžaduje podélné síťová data v kombinaci s informacemi o demografii a aktivitách jednotlivců. Dřívější studie měly některé z těchto funkcí, ale žádný měl všechny tři.
Kossinets a Watts začal svůj výzkum tím, že získá e-mailové protokoly z velké univerzity. Samotné tyto e-mailové protokoly byly neúplné, že nejsou uvedeny vše potřebné k pochopení různé faktory, které určují vývoj sítě. Proto Kossinets a Watts sloučil tyto e-mailové protokoly, s dalšími dvěma zdroji informací: demografické informace shromažďované univerzity a informace o sdílených činnostech (např informačních studentská rezidence a kompletní seznam zápis předmětů). Jakmile těchto tří informačních zdrojů, z nichž každá byla neúplná, byly sloučeny dohromady Kossinets a Watts měl silný datovou strukturu pro evoluci porozumění sítě.
Ale byl tam jeden závěrečný problém, který museli překonat. Kossinets a Watts chtěl studovat, jak sociální sítě v této univerzitě vyvinuli tak oni potřebovali způsob, jak používat e-mailové protokoly do odhadu, který byl připojen ke kteří v té době. Jak je uvedeno v dříve (§ 2.3.2.1), tento druh praktického uplatnění teoretických konstruktů je velkou výzvou při používání digitálních stop pro sociální výzkum. Na konci Kossinets a Watts se rozhodl, že dva lidé byli považováni za spojeny v čase \ (t \) tehdy a jen tehdy, kdyby se vyměnili e-maily (\ (i \) e-mailem \ (j \) a \ (j \) e-mailem \ ( i \)) v posledních 60 dnech. Tyto volby nebyly svévolné; byly založeny na pečlivém zvážení tohoto empirického nastavení a Kossinets a Watts zkontrolovat, že jejich výsledky byly robustní, aby tyto volby. Obecně platí, že pokud váš operacionalizace spočívá ve volbě některé specifické odřezky-říkat 60 dnů namísto 30 dnů nebo 90 dnů, je to dobrý nápad, aby se ujistil, že vaše výsledky nejsou citlivé na této volbě.
Jakmile Kossinets a Watts řešit problém způsobený neúplnosti (např chybějící demografické informace, chybějící informace o sdílené činnosti a chybějící teoretické konstrukty), měli data, která jim umožnily pochopit tři hlavní síly, které mohou řídit vývoj sítě: 1) struktura stávajících vztahů 2) společných aktivit (např dorms, tříd) a 3) demografie. V souladu s dřívějším výzkumem zjistili, že lidé s podobnými demografii je větší pravděpodobnost, vytvářet vztahy. Nicméně, na rozdíl od dřívějších studií, zjistili, že tento vzor byl výrazně oslabeny stávající struktury sítě a společných aktivit. Jinými slovy, vzorek, že dříve vědci viděl byl částečně vysvětlit údaje, které dříve vědci neměl. Tím, že úspěšně se jedná o neúplnosti jeho osobních údajů, Kossinets a Watts byli schopni objasnit interakci mnoha různých faktorů, které pohánějí sociálních sítí evoluce.