पाया डेटा में व्यवहार आईटी प्रणालियों के इंजीनियरिंग लक्ष्यों से प्रेरित है, प्राकृतिक नहीं है।
हालांकि कई पाया डेटा स्रोतों गैर प्रतिक्रियाशील क्योंकि लोगों को पता नहीं कर रहे हैं अपने डेटा (धारा 2.3.1.3), शोधकर्ताओं "स्वाभाविक रूप से होती" या होने के लिए इन ऑनलाइन सिस्टम में व्यवहार पर विचार नहीं करना चाहिए दर्ज की जा रही है "शुद्ध।" वास्तव में, डिजिटल प्रणाली है कि रिकॉर्ड व्यवहार अत्यधिक ऐसे विज्ञापनों पर क्लिक करने या सामग्री पोस्ट करने के रूप में विशिष्ट व्यवहार के लिए प्रेरित करने के लिए इंजीनियर हैं। तरीके है कि प्रणाली डिजाइनरों के लक्ष्यों को डेटा में पैटर्न लागू कर सकते हैं एल्गोरिथम confounding कहा जाता है। एल्गोरिथम confounding अपेक्षाकृत सामाजिक वैज्ञानिकों के लिए अज्ञात है, लेकिन यह सावधानी डेटा वैज्ञानिकों के बीच एक प्रमुख चिंता का विषय है। और, डिजिटल निशान के साथ अन्य समस्याओं में से कुछ के विपरीत, एल्गोरिथम confounding काफी हद तक अदृश्य है।
एल्गोरिथम confounding की एक अपेक्षाकृत सरल उदाहरण के तथ्य यह है कि फेसबुक पर वहां लगभग 20 दोस्तों के साथ उपयोगकर्ताओं के एक anomalously उच्च संख्या हो रहा है (Ugander et al. 2011) वैज्ञानिकों ने कैसे काम करता है फेसबुक doubtlessly कैसे 20 जादुई सामाजिक नंबर किसी तरह का है के बारे में कई कहानियाँ उत्पन्न कर सकता है की किसी भी समझ के बिना इस डेटा के साथ विश्लेषण। हालांकि, Ugander और उनके सहयोगियों की प्रक्रिया है कि डेटा उत्पन्न की पर्याप्त समझ थी, और वे जानते थे कि फेसबुक और अधिक दोस्त बनाने के लिए जब तक वे 20 दोस्त पहुँच फेसबुक पर कुछ कनेक्शन के साथ लोगों को प्रोत्साहित किया। हालांकि Ugander और उनके सहयोगियों कर अखबार में यह कहना नहीं, तो इस नीति मुमकिन है ताकि नए उपयोगकर्ताओं को और अधिक सक्रिय बनने के लिए प्रोत्साहित करने के लिए फेसबुक द्वारा बनाया गया था। इस नीति के अस्तित्व के बारे में जानने के बिना, हालांकि, यह आसान डेटा से गलत निष्कर्ष आकर्षित करने के लिए है। दूसरे शब्दों में, लगभग 20 दोस्तों के साथ लोगों की संख्या में आश्चर्यजनक उच्च हमें मानव व्यवहार से फेसबुक के बारे में अधिक बताता है।
यह पिछले उदाहरण है जहाँ एल्गोरिथम confounding एक विचित्र नतीजा यह है कि एक सावधान शोधकर्ताओं ने आगे की जांच कर सकते हैं, वहाँ तब होती है जब ऑनलाइन सिस्टम के डिजाइनरों सामाजिक सिद्धांतों के बारे में जानते हैं एल्गोरिथम confounding का एक भी पेचीदा मामला संस्करण है और फिर काम में इन सिद्धांतों सेंकना उत्पादन की तुलना में अधिक हानिकारक अपने सिस्टम की। सामाजिक वैज्ञानिकों ने इस performativity फोन: जब सिद्धांतों इस तरह है कि वे और अधिक सिद्धांत के साथ लाइन में दुनिया लाने में दुनिया बदल जाते हैं। क्रियात्मक एल्गोरिथम confounding के मामलों में, डेटा की प्रकृति चकित होने की संभावना अदृश्य है।
performativity द्वारा बनाई गई एक पैटर्न का एक उदाहरण ऑनलाइन सामाजिक नेटवर्क में संक्रामिता है। 1970 के दशक और 1980 के दशक में शोधकर्ताओं ने पाया है कि बार-बार करता है, तो आप दोस्तों ऐलिस के साथ कर रहे हैं और आप दोस्तों बॉब के साथ कर रहे हैं, तो बॉब और ऐलिस अधिक दो बेतरतीब ढंग से चुने हुए लोगों से दोस्त एक दूसरे के साथ होने की संभावना है। और, यह बहुत ही पैटर्न फेसबुक पर सामाजिक ग्राफ में पाया गया था (Ugander et al. 2011) । इस प्रकार, एक समाप्त हो सकता है कि फेसबुक पर दोस्ती के पैटर्न ऑफ़लाइन दोस्ती के पैटर्न दोहराने, कम से कम संक्रामिता के संदर्भ में। हालांकि, फेसबुक सामाजिक ग्राफ में संक्रामिता की भयावहता को आंशिक रूप से एल्गोरिथम confounding से प्रेरित है। यही कारण है कि फेसबुक पर डेटा वैज्ञानिकों संक्रामिता के बारे में अनुभवजन्य और सैद्धांतिक अनुसंधान का पता था और फिर कैसे काम करता है फेसबुक में पकाया जाता है, है। फेसबुक एक "लोगों को आप जानते हो सकता है" विशेषता यह है कि नए दोस्त का सुझाव है, और एक तरह से फेसबुक का फैसला है कि आप करने के लिए संक्रामिता है सुझाव है कि जो है। वह यह है कि फेसबुक और अधिक सुझाव है कि आप दोस्तों के लिए अपने दोस्तों के साथ दोस्त बन जाते संभावना है। यह सुविधा इस प्रकार फेसबुक सामाजिक ग्राफ में संक्रामिता में वृद्धि का प्रभाव पड़ता है; दूसरे शब्दों में, संक्रामिता के सिद्धांत के सिद्धांत की भविष्यवाणियों के साथ लाइन में दुनिया में लाता है (Healy 2015) । इस प्रकार, बड़ा डेटा स्रोतों सामाजिक सिद्धांत की भविष्यवाणियों को पुन: पेश करने के लिए प्रकट होता है जब, हमें यकीन है कि सिद्धांत ही में कैसे प्रणाली काम नहीं कर रहा था पके हुए किया जाना चाहिए।
बल्कि एक प्राकृतिक सेटिंग में लोगों को देख के रूप में बड़ा डेटा स्रोतों के बारे में सोच से, एक अधिक उपयुक्त रूपक एक कैसीनो में लोगों को देख रहा है। केसिनो अत्यधिक इंजीनियर हैं कुछ व्यवहार के लिए प्रेरित करने के लिए बनाया गया वातावरण, और एक शोधकर्ताओं उम्मीद है कि एक कैसीनो में व्यवहार मानव व्यवहार में एक निरंकुश खिड़की प्रदान करेगा कभी नहीं होगा। बेशक, हम में मानव व्यवहार का अध्ययन कर लोगों के बारे में कुछ सीख सकता है कैसीनो में तथ्य यह है एक कैसीनो शराब की खपत और जोखिम के बीच संबंधों के अध्ययन के लिए एक आदर्श स्थापित किया जा सकता है वरीयताओं है लेकिन अगर हम नजरअंदाज कर दिया है कि डेटा एक कैसीनो में बनाया जा रहा था कि हम हो सकता है कुछ बुरा निष्कर्ष निकालना।
दुर्भाग्य से, एल्गोरिथम confounding के साथ काम कर विशेष रूप से कठिन है, क्योंकि ऑनलाइन सिस्टम के कई सुविधाओं के मालिकाना, खराब दस्तावेज हैं, और लगातार बदल रहा है। उदाहरण के लिए, के रूप में मैं इस अध्याय में बाद में समझाता हूँ, एल्गोरिथम confounding Google फ़्लू रुझान (धारा 2.4.2) के क्रमिक ब्रेक डाउन के लिए एक संभावित व्याख्या यह हो गया था, लेकिन इस दावे का आकलन करने के लिए मुश्किल था, क्योंकि गूगल के खोज की अंदरूनी कामकाज एल्गोरिथ्म मालिकाना हैं। एल्गोरिथम confounding की गतिशील प्रकृति प्रणाली बहाव का एक रूप है। एल्गोरिथम confounding मतलब है कि हम कोई फर्क नहीं पड़ता है कि एक डिजिटल प्रणाली से आता है मानव व्यवहार के लिए किसी भी दावे, के बारे में सतर्क होना कितना बड़ा होना चाहिए।