4.6.2在您的設計中建立道德:替換,改進和減少

讓與非實驗研究 ​​實驗更換,細化治療,並減少參加人數實驗更加人性化。

我想提供的關於設計數字實驗的第二條建議涉及道德規範。正如維基百科上關於barnstars的Restivo和van de Rijt實驗所示,降低成本意味著道德將成為研究設計中越來越重要的一部分。除了我將在第6章中描述的指導人類受試者研究的倫理框架之外,設計數字實驗的研究人員還可以從不同來源得出倫理觀點:為指導涉及動物的實驗而製定的倫理原則。特別是,在他們具有里程碑意義的著作“人道實驗技術原理”中Russell and Burch (1959)提出了三個應該指導動物研究的原則:取代,改進和減少。我想提出這三個R也可以用於略微修改的形式 - 以指導人體實驗的設計。尤其是,

  • 替換:如果可能,用更少侵入性的方法替換實驗。
  • 優化:優化治療,使其盡可能無害。
  • 減少:盡可能減少實驗參與者的數量。

為了使這三個R具體化,並展示它們如何可能導致更好和更人性化的實驗設計,我將描述一個引發倫理爭論的在線實地實驗。然後,我將描述三個R如何建議實驗設計的具體和實際變化。

Adam Kramer,Jamie Guillroy和Jeffrey Hancock (2014)進行了最具倫理爭議的數字現場實驗之一,後來被稱為“情緒傳染”。該實驗發生在Facebook上,並受到科學和實際問題。當時,用戶與Facebook互動的主要方式是News Feed,這是一組來自用戶Facebook好友的經過精算策劃的Facebook狀態更新。 Facebook的一些批評者認為,由於新聞Feed主要是積極的帖子 - 朋友炫耀他們的最新派對 - 它可能會讓用戶感到難過,因為相比之下,他們的生活似乎不那麼令人興奮。另一方面,也許效果恰恰相反:也許看到你的朋友過得愉快會讓你感到快樂。為了解決這些相互競爭的假設 - 並促進我們對一個人的情緒如何受到朋友的情緒影響的理解 - 克萊默及其同事進行了一項實驗。他們將大約70萬用戶分成四組,持續一周:一個“消極減少”組,負面詞語(例如“悲傷”)隨機被阻止出現在新聞Feed中;一個“積極性降低”的群體,其中有正面詞語(例如,“快樂”)的帖子被隨機阻止;和兩個對照組。在“消極減少”組的對照組中,帖子被隨機阻止,與“消極減少”組相同,但不考慮情緒內容。 “積極性降低”組的對照組以平行方式構建。該實驗的設計表明,適當的控制組並不總是沒有變化的控制組。相反,有時,對照組接受治療以產生研究問題所需的精確比較。在所有情況下,通過Facebook網站的其他部分仍然可以向用戶提供從新聞Feed中阻止的帖子。

Kramer及其同事發現,對於積極性降低狀態的參與者,其狀態更新中正面詞的百分比下降,負面詞的百分比增加。另一方面,對於消極減少狀態的參與者,正面詞的百分比增加,負面詞的百分比減少(圖4.24)。然而,這些影響非常小:治療和對照之間的正面和負面詞的差異大約是1,000個單詞中的1個。

圖4.24:情緒感染的證據(Kramer,Guillory和Hancock,2014)。消極減少狀態的參與者使用較少的否定詞和更積極的詞,而減少積極性的參與者使用更多的否定詞和更少的積極詞。條形表示估計的標準誤差。改編自Kramer,Guillory和Hancock(2014),圖1。

圖4.24:情緒感染的證據(Kramer, Guillory, and Hancock 2014) 。消極減少狀態的參與者使用較少的否定詞和更積極的詞,而減少積極性的參與者使用更多的否定詞和更少的積極詞。條形表示估計的標準誤差。改編自Kramer, Guillory, and Hancock (2014) ,圖1。

在討論這個實驗提出的倫理問題之前,我想用本章前面的一些想法來描述三個科學問題。首先,不清楚實驗的實際細節如何與理論主張相關聯;換句話說,有關於結構有效性的問題。目前尚不清楚正面和負面的詞數實際上是參與者情緒狀態的良好指標,因為(1)人們發布的詞語是他們情緒的良好指標並且(2)不是很清楚明確研究人員使用的特定情緒分析技術能夠可靠地推斷出情緒(Beasley and Mason 2015; Panger 2016) 。換句話說,可能存在偏差信號的不良衡量標準。其次,實驗的設計和分析沒有告訴我們誰受影響最大(即,沒有分析治療效果的異質性)以及機制可能是什麼。在這種情況下,研究人員有很多關於參與者的信息,但他們在分析中基本上被視為小部件。第三,該實驗中的效果尺寸非常小;治療和對照條件之間的差異大約是1,000個單詞中的1個。在他們的論文中,Kramer及其同事證明了這種規模的影響很重要,因為每天有數億人訪問他們的新聞Feed。換句話說,他們認為,即使每個人的影響都很小,但總的來說它們很大。即使你接受這個論點,仍然不清楚這種大小的影響是否對於關於情緒傳播的更普遍的科學問題是重要的(Prentice and Miller 1992)

除了這些科學問題之外,就在本文發表在“美國國家科學院院刊”上幾天之後,研究人員和新聞界都引起了極大的強烈抗議(我將在第6章中更詳細地描述這場辯論中的論點)。 )。本次辯論中提出的問題導致期刊發表了一篇關於倫理學和研究倫理審查過程的罕見的“關注的編輯表達” (Verma 2014)

鑑於關於情緒傳染的背景,我現在想表明三個R可以為實際研究提出具體的,實際的改進(無論你個人如何考慮這個特定實驗的倫理)。第一個R是替代品 :如果可能的話,研究人員應該尋求用侵入性較小且風險較高的技術取代實驗。例如,研究人員可以利用自然實驗 ,而不是進行隨機對照實驗 。如第2章所述,自然實驗是世界上發生的事情,其近似於治療的隨機分配(例如,用於決定誰將被選入軍隊的抽獎)。自然實驗的倫理優勢是研究人員無需提供治療:環境為您做到了這一點。例如,幾乎與Emotional Contagion實驗同時, Lorenzo Coviello et al. (2014)正在利用所謂的情緒傳染自然實驗。 Coviello及其同事發現,在下雨的日子裡,人們會發布更多的負面詞語和更少的正面詞彙。因此,通過使用天氣的隨機變化,他們能夠在不需要干預的情況下研究新聞Feed中的變化的影響。好像天氣正在為他們進行實驗。他們的程序細節有點複雜,但對我們來說最重要的一點是,通過使用自然實驗,Coviello及其同事能夠了解情緒的傳播,而無需進行自己的實驗。

三個R中的第二個是精煉的 :研究人員應該尋求改進他們的治療方法,使它們盡可能無害。例如,研究人員可以提升積極或消極的內容,而不是阻止正面或負面的內容。這種提升設計將改變參與者新聞稿的情感內容,但它會解決評論家所表達的一個問題:實驗可能導致參與者錯過他們的新聞Feed中的重要信息。通過Kramer及其同事使用的設計,一條重要的信息可能會被阻止,而不是。然而,通過提升設計,將被取代的信息將是那些不那麼重要的信息。

最後,第三個R 減少 :研究人員應該設法將實驗參與者的數量減少到達到其科學目標所需的最低限度。在模擬實驗中,由於參與者的可變成本高,這種情況自然發生。但是在數字實驗中,特別是那些成本可變的研究,研究人員不會對實驗的規模造成成本限制,這有可能導致不必要的大型實驗。

例如,Kramer及其同事可以使用關於其參與者的治療前信息 - 例如治療前發布行為 - 以使他們的分析更有效。更具體地說,不是比較治療和控制條件中陽性詞的比例,Kramer及其同事可以比較條件之間陽性詞比例的變化 ;一種有時稱為混合設計的方法(圖4.5),有時也稱為差異差異估計。也就是說,對於每個參與者,研究人員可以創建變化分數(治療後行為\(-\)治療前行為),然後比較治療和控制條件下參與者的變化分數。這種差異差異方法在統計上更有效,這意味著研究人員可以使用更小的樣本獲得相同的統計置信度。

如果沒有原始數據,很難確切地知道差異估計器在這種情況下會有多高效。但我們可以查看其他相關實驗以獲得一個粗略的想法。 Deng et al. (2013)報導,通過使用一種形式的差異差異估計,他們能夠在三個不同的在線實驗中將他們的估計方差減少約50%; Xie and Aurisset (2016)報告了類似的結果。這種50%的方差減少意味著,如果他們使用稍微不同的分析方法,情緒傳染研究人員可能能夠將他們的樣本切成兩半。換句話說,通過分析的微小變化,35萬人可能不會參與實驗。

在這一點上,您可能想知道為什麼研究人員應該關心是否有35萬人不必要地處於情緒傳染。情緒傳染有兩個特點,它們適合過大的尺寸,許多數字現場實驗都有這些特徵:(1)實驗是否會對至少一些參與者造成傷害以及(2)參與是不確定的不是自願的。嘗試保持具有盡可能小的這些特徵的實驗似乎是合理的。

需要明確的是,減少實驗規模的願望並不意味著您不應該進行大量的零可變成本實驗。這只意味著您的實驗不應超過實現科學目標所需的範圍。確保實驗尺寸合適的一個重要方法是進行功率分析 (Cohen 1988) 。在模擬時代,研究人員通常進行功效分析,以確保他們的研究不會太小(即功率不足)。然而,現在,研究人員應該進行功效分析,以確保他們的研究不會太大(即過度供電)。

總之,三個R-替代,改進和減少 - 提供原則,可以幫助研究人員將道德建設成他們的實驗設計。當然,對情緒傳染的這些可能的改變中的每一個都引入了權衡。例如,來自自然實驗的證據並不總是像隨機實驗那樣乾淨,並且提升內容在邏輯上可能比阻止內容更難實現。因此,建議這些變化的目的不是為了猜測其他研究人員的決定。相反,它是為了說明三個R如何在現實情況下應用。事實上,在研究設計中,權衡問題一直存在,而在數字時代,這些權衡將越來越多地涉及道德考慮。稍後,在第6章中,我將提供一些原則和道德框架,可以幫助研究人員理解和討論這些權衡。