يجعل الانجراف السكاني وانحراف الاستخدام وانحراف النظام من الصعب استخدام مصادر البيانات الكبيرة لدراسة الاتجاهات طويلة الأجل.
واحدة من المزايا العظيمة لكثير من مصادر البيانات الضخمة هي أنها تجمع البيانات بمرور الوقت. يطلق علماء الاجتماع على هذا النوع من البيانات الطولانية للبيانات عبر الزمن. وبطبيعة الحال ، تعد البيانات الطولية مهمة جدًا لدراسة التغيير. ولكن من أجل قياس التغيير بشكل موثوق ، يجب أن يكون نظام القياس نفسه مستقرا. على حد تعبير عالم الاجتماع أوتيس دودلي دونكان ، "إذا كنت ترغب في قياس التغيير ، فلا تغير المقياس" (Fischer 2011) .
لسوء الحظ ، فإن العديد من أنظمة البيانات الضخمة - خاصة أنظمة الأعمال - تتغير طوال الوقت ، وهي عملية سأطلق عليها الانجراف . وعلى وجه الخصوص ، تتغير هذه الأنظمة بثلاث طرق رئيسية: الانجراف في عدد السكان (التغيير في من يستخدمها) ، والانحراف السلوكي (التغير في كيفية استخدام الناس لها) ، وانحراف النظام (التغيير في النظام نفسه). تعني مصادر الانجراف الثلاثة أن أي نمط في مصدر بيانات كبير قد ينتج عن تغيير هام في العالم ، أو قد يكون سببه نوع من الانجراف.
يرجع السبب الأول للانجراف - التجمُّع السكاني - إلى تغيرات في من يستخدم النظام ، ويمكن أن تحدث هذه التغييرات على المدى الزمني القصير والطويل. على سبيل المثال ، خلال الانتخابات الرئاسية الأمريكية لعام 2012 ، تذبذبت نسبة التغريدات حول السياسة التي كتبها النساء من يوم إلى آخر (Diaz et al. 2016) . وهكذا ، فإن ما قد يبدو وكأنه تغيير في مزاج "تويتر" ، قد يكون مجرد تغيير في من يتحدث في أي لحظة. بالإضافة إلى هذه التقلبات قصيرة الأجل ، كان هناك أيضًا اتجاه طويل المدى لبعض المجموعات الديموغرافية التي تتبنى موقع Twitter وتتخلى عنه.
بالإضافة إلى التغييرات في من يستخدم نظام ، هناك أيضا تغييرات في كيفية استخدام النظام ، والذي أسميه الانجراف السلوكي. على سبيل المثال ، خلال احتجاجات احتلال جيزي في تركيا عام 2013 ، غيّر المتظاهرون استخدامهم لعلامات التصنيف مع تطور الاحتجاج. فيما يلي كيف وصفت زينب توفكجي (2014) الانجراف السلوكي ، الذي تمكنت من اكتشافه لأنها كانت تراقب السلوك على تويتر وبصورة شخصية:
"ما حدث هو أنه بمجرد أن أصبح الاحتجاج هو القصة المهيمنة ، توقفت أعداد كبيرة من الناس عن استخدام الهاشتاج إلا لفت الانتباه إلى ظاهرة جديدة ... بينما استمرت الاحتجاجات ، بل وتكثفت ، تراجعت أسهم الهاشتاج. كشفت المقابلات سببين لهذا. أولاً ، بمجرد أن يعرف الجميع هذا الموضوع ، كان الهاشتاج غير ضروري في الوقت نفسه ومبذرًا على منصة تويتر المحدودة. ثانيًا ، لم يُنظر إلى علامات التصنيف إلا أنها مفيدة لجذب الانتباه إلى موضوع معين ، وليس الحديث عنه. "
وبالتالي فإن الباحثين الذين يدرسون الاحتجاجات من خلال تحليل التغريدات مع الهاش المتعلقة الاحتجاج لديهم شعور مشوهه لما كان يحدث بسبب هذا الانحراف السلوكي. على سبيل المثال، لأنها قد نعتقد أن مناقشة احتجاج انخفضت وقت طويل قبل أن انخفضت فعلا.
النوع الثالث من الانجراف هو الانجراف في النظام. في هذه الحالة ، لا يتغير الأشخاص أو يتغير سلوكهم ، ولكن النظام نفسه يتغير. على سبيل المثال ، مع مرور الوقت ، زاد Facebook من الحد الأقصى لطول تحديثات الحالة. وبالتالي ، فإن أي دراسة طولية لتحديثات الحالة ستكون عرضة للتأثيرات الناتجة عن هذا التغيير. يرتبط انحراف النظام ارتباطًا وثيقًا بمشكلة تسمى الخلط الخوارزمي ، والتي سأغطيها في القسم 2.3.8.
وفي الختام ، فإن العديد من مصادر البيانات الضخمة تنجرف بسبب التغيرات في من يستخدمها ، وكيف يتم استخدامها ، وكيف تعمل الأنظمة. إن مصادر التغيير هذه هي أحيانًا أسئلة بحثية مثيرة للاهتمام ، ولكن هذه التغييرات تعقِّد قدرة مصادر البيانات الكبيرة على تتبع التغييرات طويلة الأجل بمرور الوقت.