התנהגות במערכות נתונים גדולות אינה טבעית; היא מונעת על ידי המטרות ההנדסיות של המערכות.
אף על פי שמספר גדול של מקורות נתונים גדולים אינו פעיל, מכיוון שאנשים אינם מודעים לכך שהנתונים שלהם מתועדים (סעיף 2.3.3), החוקרים אינם צריכים להתייחס להתנהגות במערכות המקוונות הללו כ"מתרחשות באופן טבעי ". למעשה, המערכות הדיגיטליות המתעדות את ההתנהגות הן מהונדסים מאוד כדי לגרום להתנהגויות ספציפיות כגון לחיצה על מודעות או פרסום תוכן. הדרכים שבהן המטרות של מעצבי המערכת יכולות להציג דפוסים לתוך נתונים נקראות בלבול אלגוריתמי . אלגוריתם אלגוריתמי אינו ידוע יחסית למדעני החברה, אך זהו חשש מרכזי בקרב מדעני נתונים זהירים. בנוסף, בניגוד לכמה בעיות אחרות עם עקבות דיגיטליים, בלבול אלגוריתמי הוא בלתי נראה במידה רבה.
דוגמה פשוטה יחסית של בלבול אלגוריתמי היא העובדה כי בפייסבוק יש מספר גבוה באופן חריג של משתמשים עם כ -20 חברים, כפי שהתגלה על ידי יוהאן אוגנדר ועמיתיו (2011) . מדענים המנתחים נתונים אלה ללא הבנה של האופן שבו פייסבוק עובד יכול ללא ספק ליצור סיפורים רבים על איך 20 הוא איזה סוג של מספר חברתי קסום. למרבה המזל, אוגנדר ועמיתיו הבינו בצורה משמעותית את התהליך שיצר את הנתונים, וידעו שפייסבוק עודד אנשים עם מעט קשרים בפייסבוק כדי ליצור חברים נוספים עד שיגיעו ל -20 חברים. למרות שאוגנדר ועמיתיו לא אומרים את זה בעיתון שלהם, מדיניות זו נוצרה כנראה על ידי Facebook כדי לעודד משתמשים חדשים להיות פעילים יותר. מבלי לדעת על קיומו של מדיניות זו, עם זאת, קל לצייר את המסקנה הלא נכונה מן הנתונים. במילים אחרות, מספר גבוה להפליא של אנשים עם כ -20 חברים מספרת לנו יותר על פייסבוק מאשר על ההתנהגות האנושית.
בדוגמה קודמת זו, בלבול אלגוריתמי הניב תוצאה מוזרה שחוקר זהיר עשוי לזהות ולחקור עוד יותר. עם זאת, קיימת גרסה מסובכת עוד יותר של בלבול אלגוריתמי המתרחשת כאשר מעצבי מערכות מקוונות מודעים לתיאוריות חברתיות ולאחר מכן אופים תיאוריות אלה לתוך העבודה של המערכות שלהם. מדענים חברתיים קוראים לזה ביצועים : כאשר תיאוריה משנה את העולם בצורה כזו שהיא מביאה את העולם יותר בקנה אחד עם התיאוריה. במקרה של אלגוריתם אלגוריתמי מבצעי, קשה מאוד לזהות את הטבע המבלבל של הנתונים.
דוגמה אחת לדפוס שנוצר על ידי ביצועיות היא טרנזיטיביות ברשתות חברתיות מקוונות. בשנות השבעים והשמונים, חוקרים גילו שוב ושוב שאם אתם חברים עם אליס ובוב, אז אליס ובוב נוטים יותר להיות חברים זה עם זה מאשר אם הם היו שני אנשים שנבחרו באקראי. דפוס דומה מאוד נמצא בגרף החברתי בפייסבוק (Ugander et al. 2011) . לכן, ניתן להסיק כי דפוסים של ידידות בפייסבוק לשכפל דפוסים של חברויות מחובר, לפחות במונחים של טרנזיטיביות. עם זאת, גודל הטרנזיטיביות בתרשים החברתי של פייסבוק מונע בחלקו על ידי בלבול אלגוריתמי. כלומר, מדענים נתונים בפייסבוק ידעו על המחקר האמפירי והתיאורטי על טרנזיטיביות ולאחר מכן אפו אותו איך פייסבוק עובד. לפייסבוק יש תכונה "אנשים שאתה עשוי לדעת" המציעה חברים חדשים, ואחת הדרכים שבהן פייסבוק מחליט מי להציע לך הוא טרנזיטיביות. כלומר, פייסבוק סביר יותר להציע לך להיות חברים עם החברים של החברים שלך. לתכונה זו יש אפקט של טרנזיטיביות גוברת בתרשים החברתי של פייסבוק; במילים אחרות, התיאוריה של הטרנזיטיביות מביאה את העולם לקו עם תחזיות התיאוריה (Zignani et al. 2014; Healy 2015) . לכן, כאשר מקורות נתונים גדולים משחזרים תחזיות של תיאוריה חברתית, עלינו להיות בטוחים שהתיאוריה עצמה לא נאפה כיצד המערכת פעלה.
במקום לחשוב על מקורות נתונים גדולים כצפייה באנשים בסביבה טבעית, מטפורה מתאימה יותר היא התבוננות באנשים בקזינו. בתי קזינו הם סביבות מהונדסות מאוד שנועדו לעורר התנהגויות מסוימות, וחוקר לעולם לא מצפה התנהגות בקזינו לספק חלון ללא הפרעה להתנהגות האנושית. כמובן, אתה יכול ללמוד משהו על ההתנהגות האנושית על ידי לימוד אנשים בבתי קזינו, אבל אם התעלמת את העובדה כי הנתונים נוצרה בקזינו, אתה יכול לצייר כמה מסקנות רעות.
למרבה הצער, התמודדות עם בלבול אלגוריתמי היא קשה במיוחד, כי תכונות רבות של מערכות מקוונות הם קנייניים, מתועד היטב, משתנה כל הזמן. לדוגמה, כפי שאסביר בהמשך פרק זה, בלבול אלגוריתמי היה הסבר אפשרי אחד לתמוטטות ההדרגתית של מגמות מחלת השפעת באמצעות Google (סעיף 2.4.2), אך קשה היה להעריך את התביעה הזו משום שהפעולות הפנימיות של אלגוריתם החיפוש של Google הן קנייני. האופי הדינמי של הבלבול האלגוריתמי הוא צורה אחת של סחף המערכת. אלגוריתמי בלבול אומר שאנחנו צריכים להיות זהירים לגבי כל טענה לגבי התנהגות אנושית שמגיע ממערכת אחת דיגיטלית, לא משנה כמה גדול.