פוך הניסוי יותר אנושי על ידי החלפת ניסויים עם מחקרים שאינם הניסיונות, ללטש את הטיפולים, והפחתת מספר המשתתפים.
החלק השני של ייעוץ שאני רוצה להציע על עיצוב ניסויים דיגיטליים נוגע לאתיקה. כפי שהניסוי של רסטיבו ואן דה ריג'ט על ברנסטרים בויקיפדיה מראה כי עלות מופחתת פירושה שהאתיקה תהפוך לחלק חשוב יותר בעיצוב המחקר. בנוסף למסגרות האתיות המכוונות למחקר אנושי, שאותן אני מתאר בפרק 6, חוקרים העוסקים בניסויים דיגיטליים יכולים גם להסתייע ברעיונות אתיים ממקור אחר: העקרונות האתיים שפותחו להנחיית ניסויים בבעלי חיים. בפרט, בספרו ההיסטורי של עקרונות הטכניקה ההומנית , Russell and Burch (1959) הציעו שלושה עקרונות שיש להדריך את המחקר בבעלי חיים: להחליף, לחדד ולהקטין. אני רוצה להציע כי שלושת אלה של R יכול לשמש גם - בצורה שונה מעט - כדי להנחות את העיצוב של ניסויים בבני אדם. באופן מיוחד,
על מנת להפוך את הבטון לשלושת המרכיבים הללו ולהראות כיצד הם עשויים להוביל לטוב יותר של תכנון ניסיוני ואנושי, אתאר ניסוי שדה מקוון שיצר ויכוח מוסרי. לאחר מכן, אני מתאר כיצד שלושת R של הצעה שינויים מעשיים ומעשיים על העיצוב של הניסוי.
אחד הניסויים הבולטים ביותר בתחום הדיגיטלי בתחום הדיגיטלי בוצע על ידי אדם קרמר, ג'יימי גיילרוי וג'פרי הנקוק (2014) ועתה הוא מכונה "הדבקה רגשית". הניסוי התקיים בפייסבוק והיה מונע על ידי שילוב של מדענים שאלות מעשיות. באותה עת, הדרך הדומיננטית שמשתלבת עם המשתמשים בפייסבוק היתה עדכון החדשות, קבוצה מאורגנת אלגוריתמית של עדכוני סטטוס של Facebook מחברי פייסבוק של משתמש. כמה מבקרים של פייסבוק הציעו כי בגלל עדכון חדשות יש בעיקר הודעות חיוביות, חברים מראה את המסיבה האחרונה שלהם - זה יכול לגרום למשתמשים להרגיש עצוב כי חייהם נראו פחות מרגש בהשוואה. מצד שני, אולי ההשפעה היא בדיוק ההפך: אולי לראות את החבר שלך בזמן טוב יגרום לך להרגיש מאושר. כדי להתמודד עם השערות מתחרות אלו - ולקדם את הבנתנו כיצד רגשותיו של אדם מושפעים מרגשותיהם של חבריה - ניהלו קרמר ועמיתיו ניסוי. הם הניחו כ -700,000 משתמשים לארבע קבוצות במשך שבוע אחד: קבוצה של "צמצום שליליות", אשר פוסטים עם מילים שליליות (למשל, "עצוב") נבלמו באופן אקראי מלהופיע בעלון החדשות; קבוצה בעלת "פוזיטיביות מופחתת", שעליהן חסמו באקראי הודעות בעלות מילים חיוביות (למשל, "מאושרות"); ושתי קבוצות בקרה. בקבוצת הביקורת של קבוצת "השליליות", ההודעות נחסמו באופן אקראי בשיעור זהה לקבוצת "השליליות", אך ללא התייחסות לתוכן הרגשי. קבוצת הביקורת של קבוצת "החיסכון הפוזיטיבי" נבנתה במקביל. העיצוב של ניסוי זה מדגים כי קבוצת הבקרה המתאימה אינה תמיד אחת ללא שינויים. לעתים, קבוצת הביקורת מקבלת טיפול כדי ליצור השוואה מדויקת שדורשת שאלת מחקר. בכל המקרים, ההודעות שנחסמו בעדכון החדשות עדיין היו זמינות למשתמשים דרך חלקים אחרים של אתר האינטרנט של Facebook.
קרמר ועמיתיו מצאו כי בקרב המשתתפים במצב המצומצם חיובי, אחוז המילים החיוביות בעדכוני הסטטוס שלהם ירד ושיעור המלים השליליות גדל. מאידך גיסא, עבור משתתפים במצב שליליות, שיעור המילים החיוביות עלה, והמילים השליליות ירדו (איור 4.24). עם זאת, השפעות אלה היו די קטנות: ההבדל במילים חיוביות ושליליות בין טיפולים לבין בקרות היה בערך 1 מתוך 1,000 מילים.
לפני שנדון בסוגיות האתיות שהעלה ניסוי זה, ברצוני לתאר שלוש סוגיות מדעיות תוך שימוש בכמה מהרעיונות הקודמים בפרק. ראשית, לא ברור כיצד הפרטים בפועל של הניסוי מתחברים לטענות התיאורטיות; במילים אחרות, יש שאלות על בניית תוקף. לא ברור כי ספירת המילים החיוביות והשליליות הן למעשה אינדיקטור טוב למצב הרגשי של המשתתפים, משום ש (1) לא ברור כי המילים שאנשים מפרסמים הן אינדיקציה טובה לרגשותיהן ו (2) ברור כי טכניקת ניתוח סנטימנט מסוים כי החוקרים השתמשו הוא מסוגל אמין להסיק רגשות (Beasley and Mason 2015; Panger 2016) . במילים אחרות, ייתכן שיש מדד רע של אות משוחד. שנית, התכנון והניתוח של הניסוי אינם מספיקים לנו מושג על מי מושפע ביותר (כלומר, אין ניתוח של ההטרוגניות של השפעות הטיפול) ומהו המנגנון. במקרה זה, החוקרים היו הרבה מידע על המשתתפים, אבל הם טופלו למעשה כמו יישומונים בניתוח. שלישית, גודל ההשפעה בניסוי זה היה קטן מאוד; ההבדל בין תנאי הטיפול והבקרה הוא בין 1 ל -1,000 מילים. במאמרם, קרמר ועמיתיו טוענים כי ההשפעה של גודל זה היא חשובה, כי מאות מיליוני אנשים לגשת להאכיל את החדשות שלהם בכל יום. במילים אחרות, הם טוענים כי גם אם ההשפעות הן קטנות עבור כל אדם, הם גדולים במצטבר. גם אם היית מקבל את הטיעון הזה, עדיין לא ברור אם ההשפעה של גודל זה חשובה לגבי השאלה המדעית הכללית יותר על התפשטות הרגש (Prentice and Miller 1992) .
בנוסף לשאלות מדעיות אלה, ימים ספורים לאחר פרסום המאמר בהצעת האקדמיה הלאומית למדעים , זעקה עצומה של חוקרים ועיתונות (אני אתאר את הטיעונים בדיון זה ביתר פירוט בפרק 6 ). הסוגיות שהועלו בדיון זה גרמו ליומן לפרסם "ביטוי מעמיק של דאגה" על האתיקה ועל תהליך הסקירה האתית של המחקר (Verma 2014) .
בהינתן הרקע הזה על הדבקה רגשית, ברצוני להראות כי שלושת ה R יכולים להציע שיפורים קונקרטיים ומעשיים למחקרים אמיתיים (כל מה שאתם עשויים לחשוב באופן אישי על האתיקה של הניסוי המסוים הזה). R הראשון הוא להחליף : החוקרים צריכים לחפש להחליף ניסויים עם פחות פולשניות ומסוכנות טכניקות, אם אפשר. לדוגמה, במקום להפעיל ניסוי מבוקר אקראי, החוקרים יכלו לנצל ניסוי טבעי . כמתואר בפרק 2, ניסויים טבעיים הם מצבים שבהם קורה משהו בעולם שמקביל את ההקצאה האקראית של טיפולים (למשל, הגרלה כדי להחליט מי יגויס לצבא). היתרון האתי של הניסוי הטבעי הוא שהחוקר לא צריך לספק טיפולים: הסביבה עושה את זה בשבילך. לדוגמה, כמעט במקביל לניסוי ההדבקה הרגשית, Lorenzo Coviello et al. (2014) ניצלו את מה שניתן לכנות ניסוי טבעי של הדבקה רגשית. Coviello ועמיתיו גילו כי אנשים לפרסם מילים שליליות יותר ופחות מילים חיוביות בימים שבהם יורד גשם. לכן, על ידי שימוש וריאציה אקראית במזג האוויר, הם היו מסוגלים ללמוד את ההשפעה של שינויים להאכיל את החדשות ללא צורך להתערב בכלל. זה היה כאילו מזג האוויר מנהל את הניסוי שלהם. הפרטים של הפרוצדורה שלהם הם קצת מסובכים, אבל הנקודה החשובה ביותר עבור המטרות שלנו כאן היא כי באמצעות ניסוי טבעי, Coviello ועמיתיו היו מסוגלים ללמוד על התפשטות הרגשות ללא צורך להפעיל את הניסוי שלהם.
השני של שלושת Rs לחדד : החוקרים צריכים לשאוף לחדד את הטיפולים שלהם כדי להפוך אותם מזיק ככל האפשר. לדוגמה, במקום לחסום תוכן שהיה חיובי או שלילי, החוקרים יכלו להעלות תוכן חיובי או שלילי. עיצוב זה היה משפר את התוכן הרגשי של הזנות חדשות של המשתתפים, אבל זה היה פונה אחד החששות כי המבקרים הביעו: כי הניסויים יכול היה לגרום למשתתפים לפספס מידע חשוב להאכיל את החדשות שלהם. עם העיצוב של קרמר ועמיתיו, מסר חשוב הוא ככל הנראה להיות חסומים כמו אחד כי הוא לא. עם זאת, עם עיצוב boosting, את ההודעות כי יהיה העקורים יהיו אלה כי הם פחות חשובים.
לבסוף, השלישי R הוא לצמצם : החוקרים צריכים לנסות לצמצם את מספר המשתתפים בניסוי שלהם למינימום הנדרש כדי להשיג את המטרה המדעית שלהם. בניסויים אנלוגיים, זה קרה באופן טבעי בגלל העלויות המשתנות הגבוהות של המשתתפים. אבל בניסויים דיגיטליים, במיוחד אלה עם עלות אפס משתנה, החוקרים אינם עומדים בפני אילוצי עלות על גודל הניסוי שלהם, וזה יש פוטנציאל להוביל ניסויים גדולים שלא לצורך.
לדוגמה, קרמר ועמיתיו יכלו להשתמש במידע טרום-טיפולי על המשתתפים שלהם - כגון התנהגות פוסט-טרום טיפולית - כדי להפוך את הניתוח שלהם ליעיל יותר. באופן ספציפי יותר, במקום להשוות את שיעור המלים החיוביות בתנאי הטיפול והבקרה, יכלו קרמר ועמיתים להשוות את השינוי בשיעור המלים החיוביות בין התנאים; גישה הנקראת לעתים תכנונית מעורבת (איור 4.5) ולפעמים נקראת אומדן הבדל בהבדלים. כלומר, עבור כל משתתף, החוקרים יכלו יצרו ציון שינוי (התנהגות שלאחר הטיפול \(-\) התנהגות טרום הטיפול) ולאחר מכן השווה את השינוי עשרות המשתתפים בתנאי הטיפול והביקורת. גישה זו של הבדלים-הבדלים יעילה יותר מבחינה סטטיסטית, כלומר החוקרים יכולים להשיג את אותו ביטחון סטטיסטי באמצעות דוגמאות קטנות בהרבה.
ללא נתונים גולמיים, קשה לדעת בדיוק כמה יעיל יותר ההבדל ב-אומדן ההבדל היה במקרה זה. אבל אנחנו יכולים להסתכל על ניסויים אחרים הקשורים רעיון גס. Deng et al. (2013) דיווחו כי על ידי שימוש בטופס של האומדן ההפרש-בהבדלים, הם הצליחו לצמצם את השונות של האומדנים שלהם בכ -50% בשלושה ניסויים מקוונים שונים; תוצאות דומות דווחו על ידי Xie and Aurisset (2016) . ירידה זו של 50% מהשונות פירושה שחוקרי ההדבקה הרגשית היו מסוגלים לחתוך את המדגם שלהם לחצי אם הם השתמשו בשיטת ניתוח שונה במקצת. במילים אחרות, עם שינוי זעיר בניתוח, 350,000 אנשים אולי היה חסך השתתפות בניסוי.
בשלב זה, ייתכן שאתה תוהה מדוע החוקרים צריכים לדאוג אם 350,000 אנשים היו דחוף רגשית שלא לצורך. ישנם שני מאפיינים ספציפיים של הדבקה רגשית המעוררים דאגה עם גודל מופרז המתאים, ותכונות אלה משותפים בניסויים רבים בתחום הדיגיטלי: (1) קיימת אי ודאות לגבי האם הניסוי יגרום נזק לפחות לחלק מהמשתתפים ו (2) השתתפות לא היה מרצון. זה נראה סביר לנסות לשמור ניסויים שיש להם תכונות אלה קטנים ככל האפשר.
כדי להיות ברור, הרצון להקטין את גודל הניסוי שלך לא אומר שאתה לא צריך להפעיל גדול, אפס ניסויים עלות משתנים. זה רק אומר כי הניסויים שלך לא צריך להיות גדול יותר ממה שאתה צריך כדי להשיג את המטרה המדעית שלך. אחת הדרכים החשובות לוודא שהניסוי בגודל מתאים היא לבצע ניתוח כוח (Cohen 1988) . בעידן האנלוגי, החוקרים עשו בדרך כלל ניתוח כוח כדי לוודא כי המחקר שלהם לא היה קטן מדי (כלומר, תחת מופעל). עכשיו, עם זאת, החוקרים צריכים לעשות ניתוח כוח כדי לוודא כי המחקר שלהם הוא לא גדול מדי (כלומר, יתר מופעל).
לסיכום, שלושת העקרונות של ר 'מחליפים, מעדנים ומורידים את הערכים שיכולים לעזור לחוקרים לבנות אתיקה בתבניות הניסוי שלהם. כמובן, כל אחד מהשינויים האפשריים הללו ב'מדבקה רגשית 'מציג תמורה. לדוגמה, ראיות מניסויים טבעיים לא תמיד נקיות כמו זו של ניסויים אקראיים, ותגבור התוכן עלול להיות קשה יותר ליישום מאשר לחסום תוכן. לכן, המטרה של הצעת שינויים אלה לא היתה לנחש את החלטותיהם של חוקרים אחרים. במקום זאת, זה היה כדי להמחיש כיצד ניתן ליישם את שלושת R במצב מציאותי. למעשה, סוגיית הסחר מתרחשת כל הזמן בתכנון המחקר, ובעידן הדיגיטלי, הסחר הזה יכלול יותר ויותר שיקולים אתיים. בהמשך, בפרק 6, אציע כמה עקרונות ומסגרות אתיות שיסייעו לחוקרים להבין ולדון במשא ומתן.