ठूलो डाटा प्रणालीमा व्यवहार प्राकृतिक छैन; यो प्रणालीको ईन्जिनियरिङ् लक्ष्यहरु द्वारा संचालित छ।
यद्यपि धेरै ठूला डेटा स्रोतहरू अपरिचित छैनन् किनकी मानिसहरूले उनीहरूको डेटा रेकर्ड भएका छन् (खण्ड 2.3.3), शोधकर्ताहरूलाई यी अनलाइन प्रणालीहरूमा "प्राकृतिक रूप देखि सम्भव छैन" व्यवहारमा विचार गर्नुपर्दैन। वास्तविकतामा, डिजिटल प्रणाली जुन रेकर्ड व्यवहार हो अत्यधिक इन्जिनियर गर्ने विशिष्ट व्यवहारहरू उत्पन्न गर्न जस्तै विज्ञापनहरूमा क्लिक वा सामग्री पोस्ट गर्न। प्रणाली डिजाईजरहरूको लक्ष्यहरूले डेटामा एल्गोरिदमिक कन्ट्रिङ भनिन्छ पैटर्नमा परिचय गर्न सक्ने तरिकाहरू। एल्गोरिदमम असंख्य सामाजिक वैज्ञानिकहरूको अपेक्षाकृत अज्ञात छ, तर यो सावधान डेटा वैज्ञानिकहरू बीचको एउटा ठूलो चासो हो। और, डिजिटल निशान संग केहि अन्य समस्याहरु को विपरीत, एल्गोरिदममिक confounding को ठूलो मात्रा मा अदृश्य छ।
एल्गोरिदममिक असम्भवको एक अपेक्षाकृत सरल उदाहरण यो तथ्य हो कि फेसबुकमा लगभग 20 मित्रहरु संग प्रयोगकर्ताहरु को एक अत्यन्त उच्च संख्या हो जुन योहान युगान्डर र साथीहरु (2011) द्वारा खोजिएको थियो। वैज्ञानिकहरूले यस डेटाको बारेमा कुनै जानकारी बिना विश्लेषण गर्न कसरी फेसबुक काम गर्न सक्छ भन्ने कुरा असम्भव हुन सक्छ कि कसरी 20 प्रकारको जादुई सामाजिक सङ्ख्या छ भन्ने बारेमा धेरै कथाहरू उत्पन्न गर्दछ। सौभाग्य देखि, युगान्डर र तिनका सहयोगीहरूले डाटा उत्पन्न गर्ने प्रक्रियाको एकदम महत्त्वपूर्ण कुरा थियो, र उनीहरूले फेसबुकमा मानिसहरूलाई धेरै साथीहरूसँग फेसबुकमा प्रोत्साहित गरे जुन उनी साथीहरुसँग 20 साथीसम्म पुग्न सकेनन्। यद्यपि यूगान्डर र सहकर्मीहरूले उनीहरूको पेपरमा यसो भनेनन्, नयाँ प्रयोगकर्ताहरूलाई अझ सक्रिय हुन प्रोत्साहन दिन यो नीतिलाई फेसबुकद्वारा सम्भवतः सिर्जना गरिएको थियो। यस नीतिको अस्तित्वको बारेमा जान्न, तथापि, डाटाबाट गलत निष्कर्ष निकाल्न सजिलो छ। अन्य शब्दहरुमा, लगभग 20 मित्रहरु को मान्छे को आश्चर्यजनक उच्च संख्या हामिलाई मानव व्यवहार को तुलना मा अधिक Facebook को बारे मा बतािन्छ।
यस अघिल्लो उदाहरणमा, एल्गोरिदममिक अज्ञातले एक अर्काको परिणाम सिर्जना गर्यो कि सावधान शोधकर्ताले पत्ता लगाउन र अन्वेषण गर्न सक्छ। यद्यपि, त्यहाँ एक एल्गोरिदममिक कन्डोडको पनि एकदम कडा संस्करण हो जुन यो अनलाइन सर्भरका डिजाइनरहरू सामाजिक सिद्धान्तहरूको बारेमा जानकारी छन् र त्यसपछि यी सिद्धान्तहरू उनीहरूको प्रणालीको काममा खान्छन्। सामाजिक वैज्ञानिकहरूले यो कार्यप्रणालीलाई कल गर्छन्: जब एक सिद्धान्तले संसारलाई यस्तो परिवर्तन गर्छ कि यसले संसारलाई अझ सिद्धान्तमा ल्याउँछ। प्रदर्शन एल्गोरिदमिक विलम्बको अवस्थामा, डाटाको बखत प्रकृति पत्ता लगाउन गाह्रो छ।
प्रदर्शनशीलता द्वारा बनाईएको एक ढाँचा को एक उदाहरण अनलाइन सामाजिक नेटवर्क मा पारदर्शिता छ। 1 9 70 र 1 9 80 मा, शोधकर्ताहरूले बारम्बार भेट्टाए कि यदि तपाईं एलिस र Bob दुवैसँग मित्र हुनुहुन्छ भने, एलिस र बाबले एक-अर्कासँग मित्र हुन सम्भव छ भने उनीहरूले दुईवटा अनियमित रूपमा चुनेका व्यक्तिहरू थिए। यो उस्तै पद्धति फेसबुक मा सामाजिक ग्राफ (Ugander et al. 2011) मा फेला पर्यो। यसैले, एक हुन सक्छ कि फेसबुकमा मित्रताको ढाँचा अफलाइन मित्रताहरूको प्रतिकृयात्मक ढाँचाहरू, कम से कम पारगमनको शर्तमा। तथापि, फेसबुक सोशल ग्राफमा ट्राटिजिटिटीको परिमाण आंशिक रूपमा एल्गोरिदममिक बिरुद्ध द्वारा संचालित गरिएको छ। यही छ, फेसबुकमा डाटा वैज्ञानिकहरूले ट्रान्जिटिटीको बारेमा अनुभविक र सैद्धान्तिक अनुसन्धानको बारेमा जान्दथे र त्यसपछि फेसबुकले कसरी काम गर्दछ भनेर यसलाई बेक्यो। फेसबुकमा "मानिसहरू तपाईले जान्दछन्" सुविधा छ जुन नयाँ साथीहरूलाई सुझाव दिन्छ, र फेसबुकले तपाईंलाई सुझाव दिन्छ कि एक तरिका कसरी पारदर्शिता छ भन्ने निर्णय गर्दछ। त्यो हो, फेसबुकले तपाईंलाई साथीहरुका साथीहरु संग साथी बन्न सुझाव दिनु पर्छ। यस सुविधाले फेसबुक सोशल ग्राफमा बढि ट्रांजिटिटीको प्रभाव पार्छ; अन्य शब्दहरूमा, पारदर्शिताको सिद्धान्तले संसारलाई यस सिद्धान्तको भविष्यवाणीको साथमा ल्याउँछ (Zignani et al. 2014; Healy 2015) । यसैले, जब ठूलो डेटा स्रोतहरु सामाजिक सिद्धान्त को भविष्यवाणी को लागी पेश गर्न को लागी प्रकट हुन्छ, हामी यो सुनिश्चित गर्न को लागी कि सिद्धान्त स्वयं नै कसरि काम गर्दछ प्रणाली मा पकेन।
बरु प्राकृतिक स्रोतमा व्यक्तिहरूलाई हेर्दा ठूलो डाटा स्रोतहरूको बारेमा सोच्नुहोस्, एक अधिक उपयुक्त रूपान्तर कैसीनोमा मान्छे देख्छ। क्यासिनो अत्यधिक इंजीनियर वातावरण हुन् जुन केही व्यवहारहरू उत्पन्न गर्न डिजाइन गरिएको छ, र एक शोधकर्ताले क्यासिनोमा व्यवहारलाई अनौठो सञ्जाललाई मानव व्यवहारमा व्यवहार गर्ने आशा गर्दैन। निस्सन्देह, तपाइँ क्यासिनोहरूमा मानिसहरूको अध्ययन गरेर मानव व्यवहारको बारेमा केहि सिक्न सक्नुहुन्थ्यो, तर यदि तपाईंले यो क्यासिनोमा डेटा सिर्जना गरिनु भएको तथ्यलाई बेवास्ता गर्नुभयो भने तपाईले केही खराब निष्कर्ष निकाल्न सक्नुहुनेछ।
दुर्भाग्यवश, एल्गोरिदमम अर्गुजनको साथ व्यवहार गर्नु खासै गाह्रो छ किनकि अनलाईन प्रणालीका धेरै विशेषताहरू मालिकाना, खराब रूपमा दलित छन् र निरन्तर परिवर्तन हुन्छन्। उदाहरणको लागि, म यस अध्यायमा पछि पछि व्याख्या गर्नेछु, एल्गोरिदमिक असहमति Google Flu Trends (खण्ड 2.4.2) को क्रमशः विच्छेदको लागि एक सम्भावना स्पष्टीकरण थियो, तर यो दावीको मूल्याङ्कन गर्न गाह्रो थियो किनभने Google को खोज एल्गोरिदमको भित्री कार्य मालिकाना। एल्गोरिदममिक भ्रामक को गतिशील प्रकृति प्रणाली बहाव को एक रूप हो। एल्गोरिदमम भ्रामक भनेको हो कि हामी मानव व्यवहार सम्बन्धी कुनै पनि डिजिटल प्रणाली बाट आउँछ भन्ने कुराको बारेमा सावधान रहनु पर्छ, चाहे जति फरक हुन्छ।