بڑے اعداد و شمار کے نظام میں رویہ قدرتی نہیں ہے؛ یہ نظام کے انجینئرنگ کے اہداف کی طرف سے حوصلہ افزائی کی جاتی ہے.
اگرچہ بہت سے بڑے ڈیٹا ذرائع غیر جانبدار ہیں کیونکہ لوگوں کو معلوم نہیں ہے کہ ان کے اعداد و شمار ریکارڈ کیے گئے ہیں (سیکشن 2.3.3)، محققین کو ان آن لائن سسٹمز میں رویے پر غور نہیں کرنا چاہئے کہ "قدرتی طور پر واقع ہو." حقیقت میں، ڈیجیٹل نظام جو ریکارڈ رویہ ہے اعلی انجینئر مخصوص مخصوص رویے کو فروغ دینے کے لئے اشتہارات پر کلک کرنے یا مواد پوسٹ کرنے کے لۓ. نظام کے ڈیزائنرز کے مقاصد کے اعداد و شمار میں اعداد و شمار متعارف کر سکتے ہیں جس طریقوں کو الگورتھممک confounding کہا جاتا ہے . الگورتھممک الجھن سماجی سائنسدانوں کو نسبتا نامعلوم ہے، لیکن محتاط اعداد و شمار سائنسدانوں میں یہ ایک اہم تشویش ہے. اور، ڈیجیٹل نشانوں کے ساتھ دیگر مسائل کے برعکس، الگورتھممک کشیدگی زیادہ تر پوشیدہ ہے.
الگورتھممک بگاڑنے کا ایک نسبتا سادہ مثال یہ ہے کہ فیس بک پر تقریبا 20 دوستوں کے ساتھ صارفین کی ایک بڑی تعداد میں موجود ہیں، جیسا کہ جوهان یوگانڈر اور ساتھیوں نے (2011) طرف سے دریافت کیا تھا. اس ڈیٹا کا تجزیہ کرنے کے بغیر سائنسی ماہرین کس طرح فیس بک کام کیسے کرسکتے ہیں کہ کس طرح 20 کسی قسم کی جادو معاشرتی تعداد کے بارے میں کہانیاں ہیں. خوش قسمتی سے، یوگاندر اور اس کے ساتھیوں نے اس پروسیسنگ کا ایک اہم سمجھا تھا جس سے اعداد و شمار پیدا کیے گئے، اور وہ جانتے تھے کہ فیس بک پر لوگوں نے فیس بک پر چند کنکشنوں کو حوصلہ افزائی کی جب تک کہ وہ دو دوستوں تک پہنچنے تک زیادہ دوست بنیں. اگرچہ یوجینڈر اور ساتھیوں نے اپنے کاغذ میں یہ نہیں کہا، اس پالیسی کو شاید فیس بک کی طرف سے پیدا کیا گیا تھا لہذا نئے صارفین کو زیادہ فعال بننے کے لئے حوصلہ افزائی کی جائے. تاہم، اس پالیسی کے وجود کے بارے میں جاننے کے بغیر، اعداد و شمار سے غلط نتیجہ نکالنا آسان ہے. دوسرے الفاظ میں، 20 دوستوں کے ساتھ حیرت انگیز طور پر زیادہ سے زیادہ لوگوں کو فیس بک کے بارے میں زیادہ سے زیادہ انسانی رویے سے زیادہ بتاتا ہے.
اس پچھلے مثال میں، الگورتھممک الجھن نے ایک قاری نتیجہ پیش کیا ہے کہ محتاط محققین کو پتہ چلا جاسکتا ہے اور تحقیقات کرسکتا ہے. تاہم، الورجیتھمکک الجھن کا ایک بھی مشکل ورژن ہوتا ہے جو اس وقت ہوتی ہے جب آن لائن سسٹم کے ڈیزائنرز سماجی نظریات سے آگاہ ہیں اور پھر ان نظریات کو ان کے نظام کے کام میں بناتے ہیں. سماجی سائنسدان اس کارکردگی کو فروغ دیتے ہیں : جب ایک نظریہ ایسی دنیا میں بدلتا ہے جب اس دنیا کو نظریہ سے زیادہ لانے کے لۓ آتا ہے. انجام دینے والی الگورتھممک کشیدگی کے معاملے میں، اعداد و شمار کی الجھن فطرت کا پتہ لگانے کے لئے بہت مشکل ہے.
کارکردگی کا مظاہرہ کرتے ہوئے ایک پیٹرن کا ایک مثال آن لائن سوشل نیٹ ورکس میں ٹرانزیکٹو ہے. 1970 اور 1980 کے دہائیوں میں، محققین نے بار بار یہ پتہ چلا کہ اگر آپ ایلس اور باب دونوں کے ساتھ دوست ہیں، تو ایلس اور باب ایک دوسرے کے ساتھ دوست ہونے کا امکان زیادہ ہیں اگر وہ دو بے ترتیب انتخاب شدہ افراد تھے. یہ بہت ہی پیٹرن فیس بک پر سماجی گراف (Ugander et al. 2011) میں پایا گیا تھا. اس طرح، شاید یہ نتیجہ ہو سکتا ہے کہ فیس بک پر دوستی کے نقشے آف لائن دوستی کے نمونہ نمونہ، کم از کم ٹرانزیکٹو کے لحاظ سے. تاہم، فیس بک کے سماجی گراف میں ٹرانسمیشن کی شدت جزوی طور پر الگورتھممک الجھن سے چل رہی ہے. یہی ہے کہ، فیس بک پر ڈیٹا سائنسدانوں نے ٹرانزیکٹو کے بارے میں تجرباتی اور نظریاتی تحقیق کے بارے میں جان لیا اور پھر اسے بیکار کیا کہ کس طرح فیس بک کام کرتا ہے. فیس بک میں "لوگ آپ کو آگاہ" کی خصوصیت ہے جو نئے دوستوں سے مشورہ دیتے ہیں، اور جس طرح سے فیس بک آپ کو مشورہ دیتے ہیں وہ ٹرانزیکٹو ہے جس کا فیصلہ کرتا ہے. یہ ہے کہ، فیس بک کا یہ امکان یہ ہے کہ آپ اپنے دوست کے دوستوں کے ساتھ دوست بنیں. اس خصوصیت میں فیس بک سماجی گراف میں ٹرانزیکٹو بڑھانے کا اثر ہے. دوسرے الفاظ میں، ٹرانسمیشن کے اصول دنیا کو نظریہ کی پیش گوئیوں کے ساتھ لاتا ہے (Zignani et al. 2014; Healy 2015) . اس طرح، جب بڑے اعداد و شمار کے ذریعہ سماجی نظریہ کی پیشن گوئی کرنے کے لئے ظاہر ہوتا ہے، ہمیں اس بات کا یقین ہونا چاہئے کہ نظریہ خود کو بیکار نہیں کیا گیا تھا کہ نظام کس طرح کام کرتا ہے.
بجائے بڑے اعداد و شمار کے ذرائع کے بارے میں سوچنے کے بجائے قدرتی ماحول میں لوگوں کو دیکھتے ہوئے، ایک زیادہ مناسب استعار لوگوں کو جوسینو میں دیکھتا ہے. کیسیئنس انتہائی انجینئرز ہیں جن میں بعض رویے کو فروغ دینے کے لئے ڈیزائن کیا گیا ہے، اور محققین کو ایک جوسینو میں رویے کی توقع نہیں ہوگی کہ وہ انسانی رویے میں غیر معمولی ونڈو فراہم کرے. یقینا، آپ کیسیوں میں لوگوں کو پڑھ کر انسانی رویے کے بارے میں کچھ سیکھ سکتے ہیں، لیکن اگر آپ اس حقیقت کو نظرانداز کرتے ہیں کہ ڈیٹا کو جوئے بازی میں پیدا کیا جا رہا ہے، آپ کو کچھ برا نتیجہ مل سکتا ہے.
بدقسمتی سے، الگورتھممک الجھن کے ساتھ نمٹنے کے لئے خاص طور پر مشکل ہے کیونکہ آن لائن نظام کی بہت سے خصوصیات ملکیت، غریب دستاویزات، اور مسلسل تبدیلی میں ہیں. مثال کے طور پر، جیسا کہ میں اس باب میں بعد میں وضاحت کروں گا، الگورتھممک الجھن Google Flu رجحانات (سیکشن 2.4.2) کی تدریجی خرابی کے لئے ممکنہ وضاحت تھا، لیکن یہ دعوی مشکل کرنا تھا کیونکہ گوگل کے تلاش کے الگورتھم کے اندرونی کام ملکیت. الگورتھممک الجھن کا متحرک فطرت نظام کا بہاؤ کا ایک شکل ہے. الورگتھیمک الجھن کا مطلب یہ ہے کہ ہمیں انسانی رویے کے بارے میں کسی بھی دعوی کے بارے میں محتاط ہونا چاہئے جو ایک ہی ڈیجیٹل نظام سے آتا ہے، اس سے کوئی فرق نہیں.