2.3.2.5 الگوریتمی در گم

رفتار در داده یافت طبیعی نیست، آن است که توسط اهداف مهندسی سیستم هدایت می شود.

اگر چه بسیاری از منابع داده یافت غیر واکنشی، چرا که مردم آگاه نیست داده های خود را در حال ثبت (بخش 2.3.1.3)، محققان باید رفتار در این سیستم آنلاین در نظر نمی شود "به طور طبیعی" یا "خالص است." در واقع، سیستم های دیجیتال که ثبت رفتار بسیار مهندسی برای وادار رفتارهای خاص مانند کلیک کردن بر روی تبلیغات و یا ارسال مطالب. راه هایی که اهداف طراحان سیستم می توانید الگوهای به داده های معرفی شده است مخدوش الگوریتم نامیده می شود. مخدوش الگوریتمی برای دانشمندان علوم اجتماعی نسبتا ناشناخته است، اما یک نگرانی اصلی دانشمندان داده دقیق است. و بر خلاف برخی از مشکلات دیگر با آثار دیجیتال، مخدوش الگوریتمی تا حد زیادی نامرئی است.

یک مثال نسبتا ساده از مخدوش الگوریتمی این واقعیت است که در فیس بوک هستند تعداد خلاف قاعده بالایی از کاربران با حدود 20 دوستان است (Ugander et al. 2011) . دانشمندان تجزیه و تحلیل با این داده ها بدون هیچ درک درستی از نحوه فیس بوک کار می تواند بدون شک تولید داستان های بسیاری در مورد چگونگی 20 نوعی از تعداد اجتماعی جادویی است. با این حال، Ugander و همکارانش درک قابل توجهی از فرایند است که داده های تولید شده بود، و آنها می دانستند که فیس بوک افراد را با چند ارتباطات در فیس بوک را تشویق به پیدا کردن دوستان بیشتر تا زمانی که 20 دوستان است. اگر چه Ugander و همکارانش این در مقاله می گویند نیست، این سیاست احتمالا توسط فیس بوک به منظور تشویق کاربران جدید به فعال تر ساخته شده است. بدون دانستن در مورد وجود این سیاست، با این حال، از آن آسان است به منظور جلب این نتیجه گیری غلط از داده ها. به عبارت دیگر، تعداد شگفت انگیزی بالا از مردم با حدود 20 دوستان به ما می گوید بیشتر در مورد فیس بوک از رفتار انسان است.

بیشتر خطرناک تر از این مثال قبلی که در آن مخدوش الگوریتمی تولید نتیجه دمدمی است که محققان دقیق ممکن است تحقیق بیشتر است، یک نسخه حتی سختتر از مخدوش الگوریتمی است که رخ می دهد که طراحان سیستم های آنلاین از تئوری های اجتماعی آگاه هستند وجود دارد و پس از پخت این نظریه به کار سیستم های خود. دانشمندان علوم اجتماعی پاسخ این کاربردپذیری: زمانی که نظریه جهان را تغییر در چنین راهی که آنها جهان بیشتر به خط را با تئوری به ارمغان بیاورد. در موارد مخدوش الگوریتمی اجرایی، طبیعت سر در گم از داده احتمال نامرئی است.

یک نمونه از الگوی ایجاد شده توسط کاربردپذیری متعدی در شبکه های اجتماعی آنلاین است. در 1970s و 1980s، محققان بارها و بارها نشان داده است که اگر شما دوستان با آلیس و شما دوستان با باب، پس از آن باب و آلیس به احتمال زیاد به دوستان با یکدیگر از دو نفر به طور تصادفی انتخاب شده است. و این الگوی بسیار مشابه در نمودار های اجتماعی در فیس بوک پیدا شد (Ugander et al. 2011) . بنابراین، چنین نتیجه گیری کرد که الگوهای دوستی در فیس بوک تکرار الگوهای دوستی آنلاین نیست، حداقل از نظر متعدی. با این حال، مقدار متعدی در نمودار های اجتماعی فیس بوک به صورت جزئی توسط مخدوش الگوریتم هدایت می شود. این است که، دانشمندان داده در فیس بوک از تحقیقات تجربی و نظری در مورد متعدی می دانستند و سپس آن را به چگونه فیس بوک کار می پخته است. فیس بوک دارای یک "مردم شما می دانید" ویژگی است که نشان می دهد دوستان جدید، و یک راه است که فیس بوک تصمیم می گیرد که نشان می دهد به شما متعدی است. این است که، فیس بوک احتمال بیشتری برای نشان می دهد که شما دوستان با دوستان از دوستان خود تبدیل شده است. این ویژگی در نتیجه دارای اثر افزایش متعدی در نمودار های اجتماعی فیس بوک؛ به عبارت دیگر، تئوری متعدی جهان را به خط با پیش بینی های تئوری به ارمغان می آورد (Healy 2015) . بنابراین، هنگامی که منابع داده های بزرگ به نظر می رسد به تکثیر پیش بینی های نظریه اجتماعی، ما باید مطمئن شوید که نظریه خود را به شد که چگونه سیستم کار می کرد پخته نمی شود.

به جای فکر کردن از منابع داده های بزرگ به عنوان مشاهده افراد در یک محیط طبیعی، استعاره مناسب تر است مشاهده افراد در یک کازینو. کازینو بسیار محیط طراحی شده برای وادار رفتارهای خاصی طراحی شده، و یک محققان هرگز انتظار می رود که رفتار در یک کازینو، یک پنجره بی قید و بند را به رفتار انسانی فراهم می کند. البته، ما می تواند چیزی در مورد رفتار مطالعه افراد بشر در یاد قمار در واقع یک کازینو ممکن است برای مطالعه و بررسی رابطه بین مصرف الکل و خطر شود یک محیط ایده آل تنظیمات اما اگر ما نادیده گرفته است که داده بودن در یک کازینو ایجاد شد و ما ممکن است رسم برخی از نتیجه گیری بد است.

متاسفانه، با مخدوش کننده الگوریتمی به خصوص دشوار است، زیرا بسیاری از ویژگی های سیستم های آنلاین اختصاصی، ضعیف مستند هستند و همواره در حال تغییر. به عنوان مثال، به عنوان من بعدا در این فصل توضیح دهد، مخدوش الگوریتم یکی از دلایل ممکن برای تدریجی استراحت به پایین از آنفولانزای روند گوگل (بخش 2.4.2) بود، اما این ادعا سخت بود برای ارزیابی به دلیل عملکرد داخلی از جستجوی گوگل الگوریتم اختصاصی است. ماهیت پویا از مخدوش الگوریتمی یک شکل از رانش سیستم است. مخدوش الگوریتمی معنی است که ما باید با احتیاط در مورد هر گونه ادعا برای رفتار انسانی است که از یک سیستم دیجیتال تک می آید، مهم نیست چقدر بزرگ باشد.