جعل تجربتك أكثر إنسانية من خلال استبدال التجارب مع الدراسات غير التجريبية، صقل العلاجات، وتقليل عدد المشاركين.
القطعة الثانية من النصائح التي أود أن توفر نحو تصميم التجارب الرقمية يتعلق الأخلاق. وبما أن التجربة Restivo وفان دي Rijt على أوسمة في معارض ويكيبيديا، انخفضت التكاليف يعني أن الأخلاق ستصبح جزءا متزايد الأهمية من تصميم البحوث. بالإضافة إلى الأطر الأخلاقية توجيه الأبحاث تجرى على البشر أن أنا أصف في الفصل 6، يمكن للباحثين تصميم التجارب الرقمية أيضا الاعتماد على الأفكار الأخلاقية من مصدر آخر: المبادئ الأخلاقية وضعت لتوجيه التجارب التي تنطوي على الحيوانات. على وجه الخصوص، في مبادئ الكتاب الشهير بهم من تقنية تجريبية إنسانية، Russell and Burch (1959) اقترح ثلاثة المبادئ التي ينبغي أن توجه البحوث الحيوانية: استبدال، وصقل، وخفض. أود أن أقترح أن هذه R الثلاثة يمكن أن تستخدم أيضا في صيغة معدلة بشكل طفيف شكل لتوجيه تصميم التجارب البشرية. خاصه،
من أجل جعل الخرسانة هذه R ثلاث وتبين الكيفية التي يمكن أن تؤدي إلى أفضل وأكثر إنسانية التصميم التجريبي، أنا أصف تجربة ميدانية على الانترنت التي ولدت النقاش الأخلاقي. ثم أنا أصف كيف R ثلاثة اقترحوا تغييرات ملموسة وعملية لتصميم التجربة.
واحدة من التجارب الميدانية الرقمي إثارة للأخلاقيا هو "العاطفي العدوى"، والتي أجريت من قبل آدم كرامر، جيمي Gillroy، وجيفري هانكوك (2014) . وكانت التجربة مكان في الفيسبوك وبدافع من مزيج من الأسئلة العلمية والعملية. في ذلك الوقت، كانت الطريقة السائدة للمستخدمين تفاعل مع الفيسبوك تغذية الأخبار، مجموعة برعاية حسابيا من تحديثات الفيسبوك من المستخدم أصدقاء الفيسبوك. وكان بعض النقاد من الفيسبوك أشارت إلى أن لتغذية أخبار ديه معظمها إيجابية الوظائف أصدقاء الرياء أحدث حزبهم، فإنه يمكن أن يسبب للمستخدمين يشعرون بالحزن لأن حياتهم تبدو أقل إثارة في المقارنة. من ناحية أخرى، وربما أثر هو العكس تماما. ربما رؤية صديقك امضوا وقتا طيبا من شأنها أن تجعلك تشعر بالسعادة؟ من أجل التصدي لهذه المنافسة فرضية وتعميق فهمنا للكيفية التي تتأثر العواطف الشخص من قبل صديقاتها العواطف كرامر ركض وزملاؤه تجربة. وضع الباحثون حوالي 700،000 المستخدمين إلى أربع مجموعات لمدة أسبوع واحد: مجموعة "خفض سلبية"، والذين المشاركات مع الكلمات السلبية (على سبيل المثال، حزين) تم حظرها بشكل عشوائي من الظهور في أخبار الأعلاف. و"الإيجابية خفض" مجموعة لمن المشاركات مع كلمات إيجابية (على سبيل المثال، سعيد) سدت عشوائيا. ومجموعات المراقبة اثنين. في المجموعة الضابطة ل"سلبية خفضت" المجموعة، سدت المشاركات عشوائيا في نفس المعدل ب "السلبية خفضت" المجموعة ولكن بغض النظر عن المحتوى العاطفي. شيد المجموعة الضابطة ل"الإيجابية خفض" مجموعة بطريقة موازية. تصميم هذه التجربة يوضح أن مجموعة المراقبة المناسبة ليست دائما واحدة مع أي تغييرات. بدلا من ذلك، في بعض الأحيان تتلقى المجموعة الضابطة العلاج من أجل خلق المقارنة الدقيقة التي مسألة بحثية يتطلب. في جميع الحالات، كانت الوظائف التي تم حظرها من أخبار الأعلاف لا تزال متاحة للمستخدمين من خلال أجزاء أخرى من موقع الفيسبوك.
وجد كرامر وزملاؤه أن للمشاركين في الإيجابية تخفيض الشرط، والنسبة المئوية للكلمات إيجابية في التحديثات وضعهم انخفضت وارتفعت نسبة من الكلمات السلبية. من ناحية أخرى، للمشاركين في حالة سلبية بل وقلل من نسبة من الكلمات الإيجابية زادت ونسبة من الكلمات السلبية انخفض (الشكل 4.23). ومع ذلك، فإن هذه التأثيرات صغيرة جدا: كان الفرق في كلمات إيجابية وسلبية بين العلاجات والضوابط حوالي 1 في 1000 كلمة.
لقد وضعت مناقشة الجوانب العلمية لهذه التجربة في قسم مزيد من القراءة في نهاية الفصل، ولكن للأسف، هذه التجربة هو الأكثر شهرة لتوليد النقاش الأخلاقي. بعد أيام قليلة من نشر هذه الورقة في وقائع الأكاديمية الوطنية للعلوم، كان هناك ضجة هائلة من كل من الباحثين والصحافة. الغضب حول ورقة ركزت على نقطتين أساسيتين: 1) مشاركا لم تقدم أي موافقة وراء شروط-من الخدمة الفيسبوك القياسية للعلاج أن بعض التفكير قد يسبب ضررا للمشاركين و2) لم تخضع للدراسة من طرف ثالث الأخلاقي مراجعة (Grimmelmann 2015) . الأسئلة الأخلاقية التي أثيرت في هذا النقاش تسببت في مجلة لنشر بسرعة نادر "التعبير التحريري للقلق" بشأن أخلاقيات وعملية المراجعة الأخلاقية للبحوث (Verma 2014) . في السنوات اللاحقة، واصلت التجربة لتكون مصدرا للنقاش حاد والاختلاف، وهذا الخلاف قد كان لها أثر غير مقصود من القيادة في الظلال العديد من التجارب الأخرى التي يتم تنفيذها من قبل شركات (Meyer 2014) .
وبالنظر إلى أن خلفية عن العدوى العاطفي، وأود الآن أن تبين أن آر 3 يمكن أن توحي ملموسة، وتحسين العملية للدراسات حقيقية (مهما كنت قد يعتقد شخصيا عن أخلاقيات هذه التجربة معينة). أول R هو استبدال: يجب على الباحثين أن تسعى إلى استبدال التجارب مع تقنيات أقل الغازية ومحفوفة بالمخاطر، إذا كان ذلك ممكنا. على سبيل المثال، بدلا من تشغيل التجربة، فإن الباحثين قد استغلت تجربة طبيعية. كما هو موضح في الفصل 2، والتجارب الطبيعية هي الحالات التي يحدث شيء في العالم أن يقترب الاحالة عشوائية من العلاج (على سبيل المثال، قرعة لتحديد الذين سيتم تجنيدهم في الجيش). الاستفادة من تجربة طبيعية هي أن الباحث لم يكن لديك لتقديم العلاجات. البيئة يفعل ذلك بالنسبة لك. وبعبارة أخرى، مع تجربة طبيعية، لن يكون هناك حاجة الباحثين إلى التلاعب تجريبيا الناس أخبار أعلاف.
في الواقع، في وقت واحد تقريبا مع التجربة العدوى العاطفية، Coviello et al. (2014) تم استغلال ما يمكن أن يسمى العاطفية العدوى تجربة طبيعية. نهجها، والذي يستخدم تقنية تسمى متغيرات جوهرية، قليلا معقدة إذا كنت قد يسبق له مثيل من قبل. لذلك، من أجل شرح لماذا كانت الحاجة، ودعونا بناء على ذلك. والفكرة الأولى التي قد يكون لها بعض الباحثين لدراسة العدوى العاطفية يكون لمقارنة مشاركاتك في أيام حيث كان آخر الأخبار لديك إيجابي جدا على مشاركاتك في أيام حيث كان آخر الأخبار لديك سلبي للغاية. ومن شأن هذا النهج سيكون على ما يرام إذا كان الهدف هو مجرد التنبؤ المحتوى العاطفي من مشاركاتك، ولكن هذا الأسلوب يمثل إشكالية إذا كان الهدف هو دراسة تأثير مسبب من آخر الأخبار لديك في مشاركاتك. رؤية المشكلة مع هذا التصميم، والنظر في عيد الشكر. في الولايات المتحدة، وظائف إيجابية مسمار والمشاركات السلبية تنخفض في عيد الشكر. وهكذا، في عيد الشكر، يمكن للباحثين يرون أن آخر الأخبار لديك كان إيجابيا للغاية والتي قمت بنشرها الامور الايجابية كذلك. ولكن، يمكن أن يكون ناجما المشاركات الإيجابية من خلال الشكر وليس من قبل محتوى آخر الأخبار لديك. بدلا من ذلك، من أجل تقدير السببية الباحثون تأثير بحاجة الى شيء أن يتغير محتوى آخر الأخبار لديك دون تغيير مباشرة العواطف. لحسن الحظ، هناك شيء من هذا القبيل يحدث في كل وقت: الطقس.
وجد Coviello وزملاؤه أن يوم ممطر في مدينة لشخص ما سوف، في المتوسط، وانخفاض نسبة الوظائف التي هي ايجابية بنحو 1 نقطة مئوية وزيادة نسبة الوظائف التي هي سلبية بنحو 1 نقطة مئوية. ثم، استغل Coviello وزملاؤه هذه الحقيقة لدراسة العدوى العاطفية دون الحاجة إلى التعامل مع تجريبيا أي شخص آخر الأخبار. في جوهر ما فعلوه هو قياس مدى تأثر مشاركاتك بسبب الطقس في المدن التي يعيش فيها أصدقائك. لمعرفة لماذا هذا الأمر يبدو معقولا تماما، تخيل أنك تعيش في مدينة نيويورك، وكان لديك أحد الأصدقاء الذي يعيش في سياتل. الآن تخيل أن يوم واحد يبدأ تمطر في سياتل. وهذا المطر في سياتل لا تؤثر بشكل مباشر على مزاجك، ولكن ذلك سيكون سببا آخر الأخبار لديك لتكون أقل إيجابية وأكثر سلبية من جراء المشاركات صديقك. وهكذا، والمطر في سياتل تعالج بشكل عشوائي آخر الأخبار لديك. معقدة تحول هذا الحدس إلى إجراء إحصائي يمكن الاعتماد عليها (والنهج المحدد يستخدمها Coviello وزملاؤه هو غير القياسية بت) لذلك أنا قد وضعت على مناقشة أكثر تفصيلا في قسم مزيد من القراءة. أهم شيء أن نتذكر حول Coviello ونهج زميل هو أنه مكنهم من دراسة العدوى العاطفية دون الحاجة إلى تشغيل تجربة التي يمكن أن تضر المشاركين، وربما يكون هذا هو الحال في العديد من الأماكن الأخرى يمكنك استبدال التجارب مع الآخر التقنيات.
الثاني في 3 روبية هو حدث: يجب على الباحثين أن تسعى لتحسين العلاجات من أجل إحداث أصغر ضرر ممكن. على سبيل المثال، بدلا من حجب المحتوى الذي كان إما إيجابية أو سلبية، فإن الباحثين قد عززت المحتوى الذي كان إيجابيا أو سلبيا. وهذا من شأنه تعزيز تصميم تغيرت المحتوى العاطفي للمشاركين أخبار أعلاف، ولكن كان يمكن أن يكون تناولها واحد من القلق من أن النقاد أعرب: أن التجارب قد تسببت المشاركين أن تفوت معلومات مهمة في حياتهن أخبار الأعلاف. مع تصميم يستخدمها كرامر وزملاؤه، من المحتمل ليكون قد تم حظره واحدة ليست الرسالة التي هو المهم. ومع ذلك، مع تصميم تعزيز والرسائل التي سيتم النازحين ستكون تلك التي هي أقل أهمية.
وأخيرا، فإن R الثالث هو تخفيض: يجب على الباحثين أن تسعى إلى خفض عدد المشاركين في تجربتهم، إن أمكن. في الماضي، حدث هذا الانخفاض طبيعي لأن التكلفة المتغيرة من التجارب التمثيلية كانت عالية، مما شجع البحوث لتحسين تصميم وتحليل. ومع ذلك، عندما يكون هناك الصفر بيانات التكلفة المتغيرة والباحثين لا تواجه عائقا التكلفة على حجم تجربتهم، وهذا لديه القدرة على أن تؤدي إلى تجارب كبيرة دون داع.
على سبيل المثال، كرامر وزملاؤه يمكن أن تستخدم المعلومات المعالجة المسبقة عن المشاركين في مثل هذه على أنها معالجة مسبقة نشر السلوك لجعل تحليلهم أكثر كفاءة. وبشكل أكثر تحديدا، بدلا من مقارنة نسبة من كلمات إيجابية في ظل الظروف علاجها ومكافحتها، كرامر وزملاؤه يمكن أن تقارن تغيير في نسبة من كلمات إيجابية بين شروط؛ هذا النهج غالبا ما تسمى الفرق في الخلافات والتي ترتبط ارتباطا وثيقا تصميم مختلط وصفت في وقت سابق من الفصل (الشكل 4.5). وهذا هو، لكل مشارك، فإن الباحثين قد خلقت درجة التغيير (السلوك بعد المعالجة - سلوك ما قبل المعالجة) ثم قارن عشرات التغيير من المشاركين في الظروف علاجها ومكافحتها. هذا النهج الفرق في الخلافات أكثر كفاءة إحصائيا، مما يعني أنه يمكن للباحثين تحقيق نفس الثقة الإحصائية باستخدام عينات أصغر من ذلك بكثير. وبعبارة أخرى، من خلال عدم علاج المشاركين مثل "الحاجيات"، يمكن للباحثين في كثير من الأحيان الحصول على تقديرات أكثر دقة.
دون الحاجة البيانات الخام من الصعب أن تعرف بالضبط كم أكثر كفاءة نهج الفرق في الخلافات كان يمكن أن يكون في هذه الحالة. ولكن، Deng et al. (2013) ذكرت أنه في ثلاث تجارب على الانترنت على محرك البحث بنج أنهم كانوا قادرين على تقليل التباين في تقديراتها بنحو 50٪، وقد تم الإبلاغ عن نتائج مماثلة لبعض التجارب على الانترنت في نيتفليكس (Xie and Aurisset 2016) . هذا التخفيض التباين 50٪ يعني أن الباحثين العدوى العاطفي ربما كان قادرا على قطع عينة في نصف إذا كانت قد استخدمت أساليب تحليل مختلفة قليلا. وبعبارة أخرى، مع تغيير صغير في التحليل، وربما كان يدخر 350،000 شخص المشاركة في التجربة.
عند هذه النقطة يمكن أن يتساءل لماذا الباحثون أن تهتم إذا كان 350،000 شخص في العدوى العاطفي دون داع. هناك نوعان من ميزات معينة من العدوى العاطفية التي تجعل القلق مع حجم المفرط الاقتضاء، ويجري تقاسم هذه الميزات من قبل العديد من التجارب الميدانية الرقمية: 1) هناك شكوك حول ما إذا كانت التجربة سوف تسبب ضررا لبعض ما لا يقل عن المشاركين و2) والمشاركة لا طوعية. في التجارب مع هاتين الميزتين يبدو المستحسن أن تبقي تجارب صغيرة قدر الإمكان.
وفي الختام، وثلاثة R's-استبدال، حدد، والحد من-توفير المبادئ التي يمكن أن تساعد الباحثين على بناء الأخلاق في تصاميمهم التجريبية. بالطبع، كل هذه التغييرات المحتملة لانتشار العدوى العاطفي يدخل المفاضلة. على سبيل المثال، أدلة من التجارب الطبيعية ليست دائما نظيفة كما أدلة من التجارب العشوائية ويعزز قد يكون أكثر صعوبة من الناحية اللوجستية لتنفيذ من كتلة. لذلك، كان الغرض من يشير إلى هذه التغييرات لا أن ننتقد قرارات باحثين آخرين. بدلا من ذلك، كان لتوضيح كيف يمكن تطبيق ثلاثة R في حالة واقعية.