मोठ्या डेटा प्रणालीतील वागणूक स्वाभाविक नाही; हे यंत्रणेच्या अभियांत्रिकी लक्षानुसार चालते.
जरी बरेच डेटा स्त्रोत नॉन-व्हेक्टिव्ह आहेत कारण लोकांना याची जाणीव नसते की त्यांचे डेटा रेकॉर्ड केले जात आहेत (विभाग 2.3.3), संशोधकांनी या ऑनलाइन सिस्टममध्ये "स्वाभाविकपणे होणार्या" वर्तणुकीचा विचार करू नये. प्रत्यक्षात, रेकॉर्ड वर्तन म्हणजे डिजिटल प्रणाली विशिष्ट आचरण जसे की जाहिरातींवर क्लिक करणे किंवा सामग्री पोस्ट करणे ज्या पद्धतीने सिस्टम डिझाइनरचे उद्दिष्टे डेटामध्ये नमुन्यांची परिचय करू शकतात त्या मार्गाने अल्गोरिदमिक गोंधळ असे म्हणतात. अल्गोरिदमिक गोंधळ सामाजिक शास्त्रज्ञांकडून तुलनेने अज्ञात आहे, परंतु काळजीपूर्वक डेटा शास्त्रज्ञांमध्ये हा एक प्रमुख प्रश्न आहे. आणि, डिजिटल ट्रेससह इतर काही समस्यांविना विपरीत, अल्गोरिदमिक गोंधळात टाकणे मुख्यत्वे अदृश्य आहे.
अल्गोरिदमिक गोंधळात टाकण्यासारखे एक साधे उदाहरण म्हणजे फेसबुकवर अंदाजे 20 मित्रांसह असंख्य वापरकर्त्यांची संख्या आहे, जो योहान युग्डर आणि सहकाऱ्यांनी (2011) शोधले होते. फेसबुक कसे कार्य करते याबद्दल कोणतीही माहिती न घेता या डेटाचे विश्लेषण करताहेत, असे कित्येक कथा सांगू शकतात की 20 कशा प्रकारचे जादुई सामाजिक संख्या आहे? सुदैवाने, युगेंडर आणि त्यांच्या सहकाऱ्यांनी या प्रक्रियेची सखोल समज दिली होती ज्याने डेटा तयार केला होता आणि त्यांना हे माहीत होते की फेसबुकने 20 मित्रांपर्यंत पोहोचल्यापर्यंत आणखी मित्र बनविण्यासाठी लोकांना काही संपर्क असलेले लोकांना प्रोत्साहित केले. जरी Ugander आणि सहकाऱ्यांनी आपल्या पेपरमध्ये असे म्हटले नाही, तरी हे धोरण फेसबुकला नवीन वापरकर्त्यांना अधिक सक्रिय होण्यासाठी प्रोत्साहित करण्यासाठी संभाव्यपणे तयार केले आहे. तथापि, या धोरणाचे अस्तित्व जाणून घेतल्याशिवाय, डेटावरून चुकीचा निष्कर्ष काढणे सोपे आहे. दुसऱ्या शब्दांत, सुमारे 20 मित्रांसह असलेल्या आश्चर्याची गोष्ट लोक आपल्याला मानवी वागणुकीपेक्षा फेसबुकबद्दल अधिक माहिती देतात.
या मागील उदाहरणात, अल्गोरिदमिक गोंधळात टाकणारे एक काळजीपूर्वक संशोधक कदाचित शोधू शकतो आणि पुढील तपासू शकतो. तथापि, अल्गोरिदमिक गोंधळाची एक अगदी चंचल आवृत्ती आहे जे तेव्हा होते जेव्हा ऑनलाइन सिस्टमचे डिझाइनर सामाजिक सिद्धांताबद्दल जागरूक असतात आणि नंतर या सिध्दांतांना त्यांच्या सिस्टमच्या कार्यासाठी तयार करतात. सामाजिक शास्त्रज्ञ या performativity कॉल: एक सिद्धांत तो सिद्धांत ओळ अधिक जग आणण्यासाठी अशा प्रकारे जगातील बदलते तेव्हा. निष्कर्ष करणारा अल्गोरिदमिक गोंधळ करण्याच्या बाबतीत, माहितीचे गोंधळलेले स्वरूप शोधणे अवघड आहे.
परस्परोपत्त्याद्वारे निर्माण केलेल्या प्रतिमानाचे एक उदाहरण म्हणजे ऑनलाइन सामाजिक नेटवर्कमध्ये संक्रमण आहे. 1 9 70 आणि 1 9 80 च्या दशकात संशोधकांनी वारंवार असे आढळले की जर तुम्ही आलिस आणि बॉब दोघांची मैत्री केली असेल, तर अॅलिस आणि बॉब दोघे एकमेकांशी मित्रवत होण्याची अपेक्षा करतात. हाच नमुना फेसबुकवर सोशल ग्राफमध्ये सापडला (Ugander et al. 2011) . अशा प्रकारे, एक असा निष्कर्ष काढू शकतो की फेसबुकवरील मैत्रीचे स्वरूप ऑफलाइन मित्रत्वाच्या नमुन्यांची प्रतिलिपी करणे, कमीतकमी ट्रांझिटिव्हिटीच्या दृष्टीने तथापि, फेसबुक सोशल ग्राफमध्ये ट्रांझिटिव्हिटीची तीव्रता अंशतः अल्गोरिदमिक गोंधळाने चालविली जाते. याचा अर्थ, फेसबुकवरील डेटा शास्त्रज्ञ ट्रांझिटिविटीबद्दलचे प्रायोगिक आणि सैद्धांतिक संशोधनाबद्दल माहिती करुन नंतर हे कसे बनवले की फेसबुक कसे कार्य करते फेसबुकमध्ये "आपण ओळखत असलेले लोक" असे एक वैशिष्ट्य आहे जे नवीन मित्र सूचित करते आणि एक मार्ग आहे जो आपल्याला सूचित करतो की आपल्याला ट्रांसिटिविटी कोण आहे हे ठरवितात. म्हणजेच, आपल्या मित्रांच्या मैत्रिणींशी आपण मित्र बनू इच्छितो असे फेसबुक अधिक सांगण्याची शक्यता आहे. या वैशिष्ट्यामुळे फेसबुक सामाजिक ग्राफमध्ये ट्रांझिटिव्हिटी वाढविण्याचा परिणाम आहे; दुसर्या शब्दात, ट्रांझिटिव्हिटीचा सिद्धांत जगभरातील सिद्धांताच्या भविष्यवाणाशी (Zignani et al. 2014; Healy 2015) . म्हणून, जेव्हा मोठा डेटा स्त्रोत सामाजिक सिद्धांताच्या अंदाजांचे पुनरुत्पादन करतात, तेव्हा आपण याची खात्री केली पाहिजे की सिध्दांत स्वतःच प्रणालीत कशा प्रकारे कार्यरत आहे ह्याचा वापर करीत नाही.
एका नैसर्गिक सेटिंगमध्ये लोकांना पाहताना मोठ्या डेटा स्त्रोतांचा विचार करण्यापेक्षा, एक अधिक उपयुक्त रुपक एक कॅसिनोमधील लोकांना पाहत आहे. कॅसिनो हे अत्यंत वर्धित वातावरण आहेत जे विशिष्ट आचरण चालविण्याकरिता डिझाइन केलेले आहेत, आणि एक संशोधक कधीही कॅसिनोमध्ये वर्तनाची अपेक्षा करणार नाही ज्यायोगे मानवी वर्तनामध्ये निरुपयोगी विंडो उपलब्ध होईल. नक्कीच, आपण कॅसिनोमधील लोकांचा अभ्यास करून मानवी वर्तनाबद्दल काहीतरी शिकू शकता, परंतु आपण जर एखाद्या कॅसिनोमध्ये डेटा तयार केला जात असल्याचे आपण दुर्लक्ष केले तर आपण काही खराब निष्कर्ष काढू शकता
दुर्दैवाने, अल्गोरिदमिक विरोधाभास हाताळणे विशेषतः अवघड आहे कारण ऑनलाइन सिस्टिमच्या अनेक वैशिष्ट्यांचा मालकी हक्क, खराबपणे दस्तऐवजीकरण आणि सतत बदलत आहे. उदाहरणार्थ, मी या प्रकरणात नंतर स्पष्ट केल्याप्रमाणे, अल्गोरिदमिक गोंधळ Google फ्लू ट्रेंड (विभाग 2.4.2) च्या हळूहळू अपघातासाठी एक संभाव्य स्पष्टीकरण होता परंतु हे हक्क आकलित करणे कठीण होते कारण Google च्या शोध अल्गोरिदमच्या अंतर्गत कामकाजाचे मालकीचा अल्गोरिदमिक गोंधळ च्या गतिशील स्वरूप प्रणाली प्रवाह एक प्रकार आहे. अल्गोरिदमिक गोंधळ म्हणजे आपल्याला एका डिजिटल सिस्टिमद्वारे मानवी वागणुकीसंबंधी कोणत्याही दाव्याबद्दल सावध राहणे आवश्यक आहे, मग कितीही मोठा असला तरीही.