बड़े डेटा सिस्टम में व्यवहार प्राकृतिक नहीं है; यह सिस्टम के इंजीनियरिंग लक्ष्यों द्वारा संचालित है।
यद्यपि कई बड़े डेटा स्रोत अपरिवर्तनीय हैं क्योंकि लोगों को पता नहीं है कि उनके डेटा रिकॉर्ड किए जा रहे हैं (सेक्शन 2.3.3), शोधकर्ताओं को इन ऑनलाइन सिस्टमों में व्यवहार को "स्वाभाविक रूप से होने" के रूप में नहीं माना जाना चाहिए। असल में, व्यवहार करने वाले डिजिटल सिस्टम हैं विज्ञापनों पर क्लिक करने या सामग्री पोस्ट करने जैसे विशिष्ट व्यवहारों को प्रेरित करने के लिए अत्यधिक इंजीनियर। सिस्टम डिजाइनरों के लक्ष्यों को डेटा में पैटर्न पेश करने के तरीके को एल्गोरिदमिक उलझन कहा जाता है । एल्गोरिदमिक उलझन सामाजिक वैज्ञानिकों के लिए अपेक्षाकृत अज्ञात है, लेकिन सावधान डेटा वैज्ञानिकों के बीच यह एक प्रमुख चिंता है। और, डिजिटल निशान के साथ कुछ अन्य समस्याओं के विपरीत, एल्गोरिदमिक उलझन काफी हद तक अदृश्य है।
एल्गोरिदमिक उलझन का एक अपेक्षाकृत सरल उदाहरण यह तथ्य है कि फेसबुक पर लगभग 20 मित्रों के साथ उपयोगकर्ताओं की एक बड़ी संख्या है, जैसा कि जोहान युगेंडर और सहयोगियों (2011) द्वारा खोजा गया था। वैज्ञानिकों ने इस डेटा का विश्लेषण किए बिना इस बात का विश्लेषण किए कि फेसबुक कैसे काम करता है, इस बारे में कई कहानियां उत्पन्न कर सकती हैं कि कैसे 20 किसी प्रकार का जादुई सामाजिक नंबर है। सौभाग्य से, युगेंडर और उनके सहयोगियों के पास उस प्रक्रिया की पर्याप्त समझ थी जिसने डेटा उत्पन्न किया था, और उन्हें पता था कि फेसबुक ने फेसबुक पर कुछ कनेक्शन के साथ लोगों को प्रोत्साहित किया था जब तक कि वे 20 दोस्तों तक नहीं पहुंच जाते। यद्यपि उगेंडर और सहयोगी अपने पेपर में यह नहीं कहते हैं, लेकिन इस नीति को नए उपयोगकर्ताओं को अधिक सक्रिय होने के लिए प्रोत्साहित करने के लिए फेसबुक द्वारा संभवतः बनाया गया था। हालांकि, इस नीति के अस्तित्व के बारे में जानने के बिना, डेटा से गलत निष्कर्ष निकालना आसान है। दूसरे शब्दों में, लगभग 20 मित्रों के साथ आश्चर्यजनक रूप से उच्च संख्या में लोगों को मानव व्यवहार के मुकाबले फेसबुक के बारे में और बताता है।
इस पिछले उदाहरण में, एल्गोरिदमिक उलझन ने एक quirky परिणाम उत्पन्न किया कि एक सावधान शोधकर्ता आगे का पता लगा सकता है और जांच कर सकता है। हालांकि, एल्गोरिदमिक उलझन का एक भी ट्रिकियर संस्करण है जो तब होता है जब ऑनलाइन सिस्टम के डिजाइनर सामाजिक सिद्धांतों से अवगत होते हैं और फिर इन सिद्धांतों को अपने सिस्टम के काम में सेंकते हैं। सामाजिक वैज्ञानिक इस निष्पादन को कहते हैं: जब एक सिद्धांत दुनिया को इस तरह से बदलता है कि यह दुनिया को सिद्धांत के अनुरूप और अधिक लाएगा। निष्पादक एल्गोरिदमिक उलझन के मामले में, डेटा की भ्रमित प्रकृति का पता लगाना बहुत मुश्किल है।
निष्पादन द्वारा बनाए गए पैटर्न का एक उदाहरण ऑनलाइन सोशल नेटवर्क में पारगमनशीलता है। 1 9 70 और 1 9 80 के दशक में, शोधकर्ताओं ने बार-बार पाया कि यदि आप ऐलिस और बॉब दोनों के साथ दोस्त हैं, तो ऐलिस और बॉब एक दूसरे के साथ दोस्त होने की अधिक संभावना है, अगर वे दो यादृच्छिक रूप से चुने गए लोग थे। यह वही पैटर्न फेसबुक पर सामाजिक ग्राफ में पाया गया था (Ugander et al. 2011) । इस प्रकार, कोई यह निष्कर्ष निकाल सकता है कि फेसबुक पर दोस्ती के पैटर्न कम से कम पारगमन के संदर्भ में ऑफलाइन दोस्ती के पैटर्न दोहराते हैं। हालांकि, फेसबुक सोशल ग्राफ में पारगमन की परिमाण आंशिक रूप से एल्गोरिदमिक उलझन द्वारा संचालित है। यही है, फेसबुक पर डेटा वैज्ञानिकों ने पारगमन के बारे में अनुभवजन्य और सैद्धांतिक अनुसंधान के बारे में पता था और फिर फेसबुक को कैसे काम किया, इस पर बेक किया। फेसबुक में "लोग जिन्हें आप जानते हैं" सुविधा है जो नए दोस्तों को सुझाती है, और एक तरीका यह है कि फेसबुक निर्णय लेता है कि आपको कौन सा सुझाव देना है वह पारगमनशीलता है। यही है, फेसबुक यह सुझाव देने की अधिक संभावना है कि आप अपने दोस्तों के दोस्तों के साथ दोस्त बनें। इस सुविधा के इस प्रकार फेसबुक सामाजिक ग्राफ में पारगमनशीलता का प्रभाव पड़ता है; दूसरे शब्दों में, पारगमन की सिद्धांत दुनिया को सिद्धांत की भविष्यवाणियों के (Zignani et al. 2014; Healy 2015) । इस प्रकार, जब बड़े डेटा स्रोत सामाजिक सिद्धांत की भविष्यवाणियों को पुन: उत्पन्न करने के लिए प्रकट होते हैं, तो हमें यह सुनिश्चित करना होगा कि सिद्धांत स्वयं को कैसे काम करता है इस बारे में बेक नहीं किया गया था।
प्राकृतिक सेटिंग में लोगों को देखने के रूप में बड़े डेटा स्रोतों के बारे में सोचने के बजाय, एक अधिक उपयुक्त रूपक कैसीनो में लोगों को देख रहा है। कैसीनो अत्यधिक इंजीनियर वातावरण हैं जो कुछ व्यवहार प्रेरित करने के लिए डिज़ाइन किए गए हैं, और एक शोधकर्ता कभी भी कैसीनो में व्यवहार को मानवीय व्यवहार में एक अनजान खिड़की प्रदान करने की अपेक्षा नहीं करेगा। बेशक, आप कैसीनो में लोगों का अध्ययन करके मानव व्यवहार के बारे में कुछ सीख सकते हैं, लेकिन अगर आपने इस तथ्य को नजरअंदाज कर दिया कि डेटा कैसीनो में बनाया जा रहा है, तो आप कुछ खराब निष्कर्ष निकाल सकते हैं।
दुर्भाग्य से, एल्गोरिदमिक उलझन से निपटना विशेष रूप से कठिन है क्योंकि ऑनलाइन सिस्टम की कई विशेषताएं मालिकाना, खराब दस्तावेज और लगातार बदलती हैं। उदाहरण के लिए, जैसा कि मैंने बाद में इस अध्याय में समझाया है, एल्गोरिदमिक उलझन Google फ़्लू रुझान (धारा 2.4.2) के क्रमिक टूटने के लिए एक संभावित स्पष्टीकरण था, लेकिन यह दावा आकलन करना मुश्किल था क्योंकि Google की खोज एल्गोरिदम की आंतरिक कार्यप्रणालीयां हैं मालिकाना। एल्गोरिदमिक उलझन की गतिशील प्रकृति सिस्टम बहाव का एक रूप है। एल्गोरिदमिक उलझन का मतलब है कि हमें एक डिजिटल सिस्टम से आने वाले किसी भी व्यवहार के बारे में सावधान रहना चाहिए, चाहे कितना बड़ा हो।