आढळले डेटा वर्तन नैसर्गिक नाही, तो प्रणाली अभियांत्रिकी गोल चेंडू आहे.
लोकांना जागृत नका, कारण अनेक आढळले डेटा स्रोत नॉन reactive आहे, तरी त्यांच्या डेटा रेकॉर्ड केले जात आहेत (विभाग 2.3.1.3), संशोधक "नैसर्गिकपणे येणार्या" किंवा या ऑनलाइन प्रणाली वर्तन विचार करू नये "शुद्ध." प्रत्यक्षात, रेकॉर्ड वर्तन अत्यंत अशा जाहिरातींवर क्लिक करून किंवा सामग्री पोस्ट विशिष्ट आचरण लावणे तंत्रज्ञानाने आहेत की डिजिटल प्रणाली. प्रणाली डिझाइनर गोल डेटा मध्ये नमुन्यांची परिचय शकत नाही त्या प्रकारे अल्गोरिथमसंबंधी confounding म्हणतात. अल्गोरिथमसंबंधी confounding सामाजिक शास्त्रज्ञ तुलनेने अज्ञात आहे, पण तो काळजीपूर्वक डेटा शास्त्रज्ञ लोकांमध्ये एक प्रमुख चिंता आहे. आणि, डिजिटल मागोवा इतर समस्या काही विपरीत, अल्गोरिथमसंबंधी confounding मुख्यत्वे अदृश्य आहे.
अल्गोरिथमसंबंधी confounding एक तुलनेने सोपे उदाहरण Facebook वर अंदाजे 20 मित्र वापरकर्ते एक anomalously उच्च अनेक आहेत की खरं आहे (Ugander et al. 2011) . फेसबुक कसे कार्य करते doubtlessly 20 जादूचा सामाजिक संख्या काही प्रकारचे आहे याबद्दल अनेक कथा निर्माण शकते कोणत्याही समजून न या डेटा विश्लेषण शास्त्रज्ञांनी. तथापि, Ugander आणि त्यांच्या सहकाऱ्यांनी डेटा व्युत्पन्न प्रक्रिया एक खारा समजून होते आणि ते फेसबुक वर काही कनेक्शन सह लोक 20 मित्र गाठली होईपर्यंत अधिक मित्र करण्यास त्यांना प्रोत्साहन हे माहीत होते. Ugander आणि सहकारी कागद हे सांगणे नाही, तरी, अधिक सक्रिय होण्यासाठी नवीन वापरकर्ते प्रोत्साहन देण्यासाठी हे धोरण असे गृहीत धरले फेसबुक निर्माण केले. हे धोरण अस्तित्व जाणून घेतल्याशिवाय, मात्र, हे सोपे डेटा चुकीचे निष्कर्ष काढणे आहे. दुसऱ्या शब्दांत, सुमारे 20 मित्रांसह लोक आश्चर्याची गोष्ट उच्च संख्या आम्हाला मानवी वर्तन पेक्षा फेसबुक अधिक सांगते.
अल्गोरिथमसंबंधी confounding काळजीपूर्वक संशोधक, पुढील तपास यासाठी की ऑनलाइन प्रणाली डिझाइनर सामाजिक सिद्धांत जाणीव आहे होतो तेव्हा त्या अल्गोरिथमसंबंधी confounding एक अगदी trickier आवृत्ती आहे, आणि नंतर काम मध्ये या सिद्धांत बेक quirky परिणाम उत्पादन जेथे हे मागील उदाहरण पेक्षा अधिक नाशकारक त्यांच्या प्रणाली. सामाजिक शास्त्रज्ञ या performativity म्हणता सिद्धांत ते सिद्धांत ओळीत जागतिक आणण्यासाठी अशा प्रकारे जग बदलण्याची तेव्हा. performative अल्गोरिथमसंबंधी confounding प्रकरणे, डेटा तिथे निसर्ग शक्यता अदृश्य आहे.
performativity बनवले एक नमुना एक उदाहरण ऑनलाइन सामाजिक नेटवर्क transitivity आहे. 1970 आणि 1980 मध्ये, संशोधक वारंवार आढळले की आपण आलिस मित्र आहेत आणि आपण बॉब मैत्री आहे, तर बॉब आणि आलिस दोन सहजगत्या निवडलेले लोक पेक्षा एकमेकांचे मित्र असू होण्याची अधिक शक्यता आहे. आणि याच नमुना Facebook वर सामाजिक आलेख मध्ये आढळली नाही (Ugander et al. 2011) . त्यामुळे एक Facebook वर मैत्री नमुन्यांची किमान transitivity दृष्टीने, ऑफलाइन मैत्री नमुन्यांची हुबेहुब प्रतिकृती तयार करणे, असा निष्कर्ष काढता शकते. तथापि, फेसबुक सामाजिक आलेख मध्ये transitivity विशालता अंशतः अल्गोरिथमसंबंधी confounding चेंडू आहे. फेसबुक डेटा शास्त्रज्ञ transitivity बद्दल प्रायोगिक आणि सैद्धांतिक संशोधन माहीत होते आणि नंतर Facebook वर कसे कार्य करते ते भाजलेले आहे. फेसबुक एक "आपण कदाचित ओळखत" नवीन मित्र सुचवितो की वैशिष्ट्य, आणि Facebook कोण सूचित आपण transitivity आहे ठरवते की एक मार्ग आहे. आहे की, फेसबुक, आपण आपल्या मित्रांना मित्र मैत्री सुचविणे अधिक शक्यता आहे. अशा प्रकारे हे वैशिष्ट्य फेसबुक सामाजिक आलेख मध्ये transitivity वाढत प्रभाव आहे; दुसऱ्या शब्दांत, transitivity सिद्धांत सिद्धांत अंदाज ओळ मध्ये जागतिक आणते (Healy 2015) . त्यामुळे मोठा डेटा स्रोत सामाजिक सिद्धांत अंदाज पुनरुत्पादन दिसेल तेव्हा, आम्ही सिद्धांत स्वतः प्रणाली काम कसे मध्ये भाजलेले नाही झाली याची खात्री असणे आवश्यक आहे.
उलट एक नैसर्गिक सेटिंग मध्ये लोक निरीक्षण म्हणून मोठा डेटा स्रोत विचार पेक्षा अधिक योग्य रूपकाच्या एक गायन लोकांना निरीक्षण आहे. कॅसिनो अत्यंत काही आचरण लावणे रचना वातावरणात तंत्रज्ञानाने आहेत, आणि एक संशोधक एक गायन मध्ये वर्तन मानवी वर्तन मध्ये एक unfettered विंडो उपलब्ध होईल, अशी अपेक्षा नसते. अर्थात, आम्ही मानवी वर्तन अभ्यास लोक काहीतरी शिकू शकले नाही कॅसिनो-इन खरं गायन मद्य सेवन आणि धोका संबंध अभ्यास आदर्श सेटिंग असू शकते प्राधान्ये पण आम्ही डेटा एक गायन मध्ये तयार केले जात दुर्लक्ष तर आम्ही कदाचित काही वाईट निष्कर्ष काढणे.
ऑनलाइन प्रणाली अनेक वैशिष्ट्ये, प्रोप्रायटरी असमाधानकारकपणे दस्तऐवजीकरण आहेत, आणि सतत बदलत कारण, दुर्दैवाने, अल्गोरिथमसंबंधी confounding वागण्याचा अवघड आहे. उदाहरणार्थ, मी या धड्यातील नंतर स्पष्ट कराल, अल्गोरिथमसंबंधी confounding हळूहळू ब्रेक-डाऊन म्हणून Google Flu Trends (विभाग 2.4.2) च्या एक शक्य स्पष्टीकरण होते, पण हा हक्क मुल्यांकन करणे कठीण होते, कारण Google च्या शोध आतील कार्य अल्गोरिदम मालकी आहे. अल्गोरिथमसंबंधी confounding प्रेरक निसर्ग प्रणाली वाहून नेणे एक प्रकार आहे. अल्गोरिथमसंबंधी confounding आम्ही कितीही मोठा असो एक एकल डिजिटल प्रणाली येते की कोणताही दावा मानवी वर्तन, करताना सावध राहणे आवश्यक अर्थ असा की.