السلوك في أنظمة البيانات الضخمة ليس طبيعيا ؛ هي مدفوعة بالأهداف الهندسية للأنظمة.
على الرغم من أن العديد من مصادر البيانات الضخمة غير فعالة لأن الناس لا يدركون أن بياناتهم يتم تسجيلها (القسم 2.3.3) ، يجب على الباحثين عدم اعتبار السلوك في هذه الأنظمة عبر الإنترنت "يحدث بشكل طبيعي". في الواقع ، فإن الأنظمة الرقمية التي تسجل السلوك تم تصميمها بشكل هندسي لإثارة سلوكيات معينة مثل النقر على الإعلانات أو نشر المحتوى. ويطلق على الطرق التي يمكن لأهداف مصممي النظام إدخال الأنماط إلى بياناتها الخلط الخوارزمي . إن الخلط الخوارزمي غير معروف نسبيا لعلماء الاجتماع ، لكنه مصدر قلق كبير بين علماء البيانات الدقيقة. وعلى عكس بعض المشاكل الأخرى ذات الآثار الرقمية ، فإن الخلط الخوارزمي غير مرئي إلى حد كبير.
مثال بسيط نسبيًا على الخلط الخوارزمي هو حقيقة أن هناك عددًا كبيرًا جدًا من المستخدمين في Facebook مع ما يقرب من 20 صديقًا ، كما اكتشفه يوهان أوغاندر وزملاؤه (2011) . إن العلماء الذين يقومون بتحليل هذه البيانات دون أي فهم للكيفية التي يعمل بها فيس بوك ، يمكن بلا شك أن يولِّدوا العديد من القصص حول كيفية اعتبار 20 نوعًا من الأرقام الاجتماعية السحرية. لحسن الحظ ، كان لدى أوغاندر وزملاؤه فهم كبير للعملية التي ولّدت البيانات ، وكانوا يعرفون أن Facebook شجع الأشخاص الذين لديهم اتصالات قليلة على Facebook لتكوين صداقات أكثر حتى يصلوا إلى 20 صديقًا. على الرغم من أن أوغاندر وزملاؤه لا يقولون هذا في ورقتهم ، فقد تم إنشاء هذه السياسة بواسطة Facebook لتشجيع المستخدمين الجدد على أن يصبحوا أكثر نشاطًا. ولكن من دون معرفة وجود هذه السياسة ، من السهل استخلاص الاستنتاج الخاطئ من البيانات. وبعبارة أخرى ، فإن العدد المرتفع بشكل مدهش من الأشخاص الذين لديهم حوالي 20 صديقًا يخبروننا أكثر عن Facebook عن السلوك البشري.
في هذا المثال السابق ، أدى الخلط الخوارزمي إلى نتيجة غريبة قد يكتشفها الباحث الدقيق ويدرسها بشكل أكبر. ومع ذلك ، هناك نسخة أكثر تعقيدا من الخلط الخوارزمي الذي يحدث عندما يكون مصممو الأنظمة عبر الإنترنت على دراية بالنظريات الاجتماعية ثم يخبزون هذه النظريات في عمل أنظمتهم. يطلق علماء الاجتماع على هذا الأداء : عندما تغير النظرية العالم بطريقة تجعله أكثر توافقاً مع النظرية. في حالة الخلط الخوارزمي التطبيقي ، من الصعب للغاية اكتشاف الطبيعة المرتبكة للبيانات.
أحد الأمثلة على نمط تم إنشاؤه بواسطة الأداء هو النقل عبر الشبكات الاجتماعية عبر الإنترنت. في السبعينيات والثمانينيات من القرن الماضي ، وجد الباحثون مرارًا وتكرارًا أنه إذا كنت صديقًا مع كل من أليس وبوب ، فمن المرجح أن يكون كل من أليس وبوب صديقين لبعضهما البعض أكثر من كونهما شخصين تم اختيارهما بشكل عشوائي. تم العثور على هذا النمط ذاته في الرسم البياني الاجتماعي على Facebook (Ugander et al. 2011) . وهكذا ، يمكن للمرء أن يخلص إلى أن أنماط الصداقة على فيسبوك تكرر أنماط الصداقات الموجودة حاليا ، على الأقل من حيث العبور. ومع ذلك ، فإن حجم العبور في الرسم البياني الاجتماعي في Facebook يكون مدفوعًا جزئيًا بالخوارزميات الخوارزمية. أي أن علماء البيانات في فيسبوك كانوا على علم بالبحث التجريبي والنظري حول العبور ثم اختبروه في كيفية عمل Facebook. لدى Facebook ميزة "People You May Know" التي تقترح أصدقاء جدد ، والطريقة التي تقرر بها Facebook من يقترح عليك هي النقل. وهذا يعني أن موقع Facebook يرجح أن تصبح صديقًا لأصدقائك. وبالتالي ، فإن هذه الميزة تؤدي إلى زيادة العبور في الرسم البياني الاجتماعي Facebook ؛ وبعبارة أخرى ، فإن نظرية العبور يجلب العالم ليتوافق مع تنبؤات نظرية (Zignani et al. 2014; Healy 2015) . وهكذا ، عندما يبدو أن مصادر البيانات الكبيرة تنبئ تنبؤات النظرية الاجتماعية ، يجب أن نكون على يقين من أن النظرية نفسها لم تكن مخبأة في كيفية عمل النظام.
وبدلاً من التفكير في مصادر البيانات الضخمة كملاحظة الأشخاص في بيئة طبيعية ، فإن الاستعارة الأكثر ملائمة هي مراقبة الناس في الكازينو. الكازينوهات هي عبارة عن بيئات مصممة بشكل هندسي لإثارة سلوكيات معينة ، ولا يتوقع الباحث أبداً من السلوك في الكازينو توفير نافذة غير مقيدة في السلوك البشري. بالطبع ، يمكنك أن تتعلم شيئًا عن السلوك البشري من خلال دراسة الناس في الكازينوهات ، ولكن إذا تجاهلت حقيقة أن البيانات يتم إنشاؤها في كازينو ، فقد تستخلص بعض الاستنتاجات السيئة.
للأسف ، التعامل مع الخلط الخوارزمي صعب بشكل خاص لأن العديد من خصائص الأنظمة عبر الإنترنت هي ملكية خاصة ، موثقة بشكل سيئ ، ومتغيرة باستمرار. على سبيل المثال ، كما سأوضح لاحقًا في هذا الفصل ، كان الخلط الخوارزمي أحد التفسيرات المحتملة للانهيار التدريجي لاتجاهات Google Flu Trends (القسم 2.4.2) ، ولكن كان من الصعب تقييم هذا الادعاء نظرًا لأن الأعمال الداخلية لخوارزمية البحث في Google امتلاكي. الطبيعة الديناميكية للخوارزميات الخوارزمية هي أحد أشكال الانجراف في النظام. يعني الخلط الخوارزمي أننا يجب أن نكون حذرين بشأن أي ادعاء يتعلق بالسلوك البشري يأتي من نظام رقمي واحد ، بغض النظر عن حجمه.