2.3.2.5 एल्गोरिदम मुंह काला

पाया डेटा में व्यवहार आईटी प्रणालियों के इंजीनियरिंग लक्ष्यों से प्रेरित है, प्राकृतिक नहीं है।

हालांकि कई पाया डेटा स्रोतों गैर प्रतिक्रियाशील क्योंकि लोगों को पता नहीं कर रहे हैं अपने डेटा (धारा 2.3.1.3), शोधकर्ताओं "स्वाभाविक रूप से होती" या होने के लिए इन ऑनलाइन सिस्टम में व्यवहार पर विचार नहीं करना चाहिए दर्ज की जा रही है "शुद्ध।" वास्तव में, डिजिटल प्रणाली है कि रिकॉर्ड व्यवहार अत्यधिक ऐसे विज्ञापनों पर क्लिक करने या सामग्री पोस्ट करने के रूप में विशिष्ट व्यवहार के लिए प्रेरित करने के लिए इंजीनियर हैं। तरीके है कि प्रणाली डिजाइनरों के लक्ष्यों को डेटा में पैटर्न लागू कर सकते हैं एल्गोरिथम confounding कहा जाता है। एल्गोरिथम confounding अपेक्षाकृत सामाजिक वैज्ञानिकों के लिए अज्ञात है, लेकिन यह सावधानी डेटा वैज्ञानिकों के बीच एक प्रमुख चिंता का विषय है। और, डिजिटल निशान के साथ अन्य समस्याओं में से कुछ के विपरीत, एल्गोरिथम confounding काफी हद तक अदृश्य है।

एल्गोरिथम confounding की एक अपेक्षाकृत सरल उदाहरण के तथ्य यह है कि फेसबुक पर वहां लगभग 20 दोस्तों के साथ उपयोगकर्ताओं के एक anomalously उच्च संख्या हो रहा है (Ugander et al. 2011) वैज्ञानिकों ने कैसे काम करता है फेसबुक doubtlessly कैसे 20 जादुई सामाजिक नंबर किसी तरह का है के बारे में कई कहानियाँ उत्पन्न कर सकता है की किसी भी समझ के बिना इस डेटा के साथ विश्लेषण। हालांकि, Ugander और उनके सहयोगियों की प्रक्रिया है कि डेटा उत्पन्न की पर्याप्त समझ थी, और वे जानते थे कि फेसबुक और अधिक दोस्त बनाने के लिए जब तक वे 20 दोस्त पहुँच फेसबुक पर कुछ कनेक्शन के साथ लोगों को प्रोत्साहित किया। हालांकि Ugander और उनके सहयोगियों कर अखबार में यह कहना नहीं, तो इस नीति मुमकिन है ताकि नए उपयोगकर्ताओं को और अधिक सक्रिय बनने के लिए प्रोत्साहित करने के लिए फेसबुक द्वारा बनाया गया था। इस नीति के अस्तित्व के बारे में जानने के बिना, हालांकि, यह आसान डेटा से गलत निष्कर्ष आकर्षित करने के लिए है। दूसरे शब्दों में, लगभग 20 दोस्तों के साथ लोगों की संख्या में आश्चर्यजनक उच्च हमें मानव व्यवहार से फेसबुक के बारे में अधिक बताता है।

यह पिछले उदाहरण है जहाँ एल्गोरिथम confounding एक विचित्र नतीजा यह है कि एक सावधान शोधकर्ताओं ने आगे की जांच कर सकते हैं, वहाँ तब होती है जब ऑनलाइन सिस्टम के डिजाइनरों सामाजिक सिद्धांतों के बारे में जानते हैं एल्गोरिथम confounding का एक भी पेचीदा मामला संस्करण है और फिर काम में इन सिद्धांतों सेंकना उत्पादन की तुलना में अधिक हानिकारक अपने सिस्टम की। सामाजिक वैज्ञानिकों ने इस performativity फोन: जब सिद्धांतों इस तरह है कि वे और अधिक सिद्धांत के साथ लाइन में दुनिया लाने में दुनिया बदल जाते हैं। क्रियात्मक एल्गोरिथम confounding के मामलों में, डेटा की प्रकृति चकित होने की संभावना अदृश्य है।

performativity द्वारा बनाई गई एक पैटर्न का एक उदाहरण ऑनलाइन सामाजिक नेटवर्क में संक्रामिता है। 1970 के दशक और 1980 के दशक में शोधकर्ताओं ने पाया है कि बार-बार करता है, तो आप दोस्तों ऐलिस के साथ कर रहे हैं और आप दोस्तों बॉब के साथ कर रहे हैं, तो बॉब और ऐलिस अधिक दो बेतरतीब ढंग से चुने हुए लोगों से दोस्त एक दूसरे के साथ होने की संभावना है। और, यह बहुत ही पैटर्न फेसबुक पर सामाजिक ग्राफ में पाया गया था (Ugander et al. 2011) । इस प्रकार, एक समाप्त हो सकता है कि फेसबुक पर दोस्ती के पैटर्न ऑफ़लाइन दोस्ती के पैटर्न दोहराने, कम से कम संक्रामिता के संदर्भ में। हालांकि, फेसबुक सामाजिक ग्राफ में संक्रामिता की भयावहता को आंशिक रूप से एल्गोरिथम confounding से प्रेरित है। यही कारण है कि फेसबुक पर डेटा वैज्ञानिकों संक्रामिता के बारे में अनुभवजन्य और सैद्धांतिक अनुसंधान का पता था और फिर कैसे काम करता है फेसबुक में पकाया जाता है, है। फेसबुक एक "लोगों को आप जानते हो सकता है" विशेषता यह है कि नए दोस्त का सुझाव है, और एक तरह से फेसबुक का फैसला है कि आप करने के लिए संक्रामिता है सुझाव है कि जो है। वह यह है कि फेसबुक और अधिक सुझाव है कि आप दोस्तों के लिए अपने दोस्तों के साथ दोस्त बन जाते संभावना है। यह सुविधा इस प्रकार फेसबुक सामाजिक ग्राफ में संक्रामिता में वृद्धि का प्रभाव पड़ता है; दूसरे शब्दों में, संक्रामिता के सिद्धांत के सिद्धांत की भविष्यवाणियों के साथ लाइन में दुनिया में लाता है (Healy 2015) । इस प्रकार, बड़ा डेटा स्रोतों सामाजिक सिद्धांत की भविष्यवाणियों को पुन: पेश करने के लिए प्रकट होता है जब, हमें यकीन है कि सिद्धांत ही में कैसे प्रणाली काम नहीं कर रहा था पके हुए किया जाना चाहिए।

बल्कि एक प्राकृतिक सेटिंग में लोगों को देख के रूप में बड़ा डेटा स्रोतों के बारे में सोच से, एक अधिक उपयुक्त रूपक एक कैसीनो में लोगों को देख रहा है। केसिनो अत्यधिक इंजीनियर हैं कुछ व्यवहार के लिए प्रेरित करने के लिए बनाया गया वातावरण, और एक शोधकर्ताओं उम्मीद है कि एक कैसीनो में व्यवहार मानव व्यवहार में एक निरंकुश खिड़की प्रदान करेगा कभी नहीं होगा। बेशक, हम में मानव व्यवहार का अध्ययन कर लोगों के बारे में कुछ सीख सकता है कैसीनो में तथ्य यह है एक कैसीनो शराब की खपत और जोखिम के बीच संबंधों के अध्ययन के लिए एक आदर्श स्थापित किया जा सकता है वरीयताओं है लेकिन अगर हम नजरअंदाज कर दिया है कि डेटा एक कैसीनो में बनाया जा रहा था कि हम हो सकता है कुछ बुरा निष्कर्ष निकालना।

दुर्भाग्य से, एल्गोरिथम confounding के साथ काम कर विशेष रूप से कठिन है, क्योंकि ऑनलाइन सिस्टम के कई सुविधाओं के मालिकाना, खराब दस्तावेज हैं, और लगातार बदल रहा है। उदाहरण के लिए, के रूप में मैं इस अध्याय में बाद में समझाता हूँ, एल्गोरिथम confounding Google फ़्लू रुझान (धारा 2.4.2) के क्रमिक ब्रेक डाउन के लिए एक संभावित व्याख्या यह हो गया था, लेकिन इस दावे का आकलन करने के लिए मुश्किल था, क्योंकि गूगल के खोज की अंदरूनी कामकाज एल्गोरिथ्म मालिकाना हैं। एल्गोरिथम confounding की गतिशील प्रकृति प्रणाली बहाव का एक रूप है। एल्गोरिथम confounding मतलब है कि हम कोई फर्क नहीं पड़ता है कि एक डिजिटल प्रणाली से आता है मानव व्यवहार के लिए किसी भी दावे, के बारे में सतर्क होना कितना बड़ा होना चाहिए।