[ , Berinsky及其同事(2012)通過複製三個經典實驗來評估MTurk。重複Tversky and Kahneman (1981)的經典亞洲疾病框架實驗。你的結果與Tversky和Kahneman相匹配嗎?你的結果是否與那些Berinsky及其同事相符?無論如何,這教會我們如何使用MTurk進行調查實驗?
[ , 在一篇名為“我們要分手”的文章中,社會心理學家羅伯特·西亞迪尼是Schultz et al. (2007)的作者之一Schultz et al. (2007) ,寫道,他早期從教授的職位退休,部分是因為他在一個主要進行實驗室實驗的學科(心理學)中進行實地試驗所面臨的挑戰(Cialdini 2009) 。閱讀Cialdini的論文,給他寫一封電子郵件,敦促他根據數字實驗的可能性重新考慮他的分手。使用解決他的問題的研究的具體例子。
[ ]為了確定小的初始成功是鎖定還是逐漸消失,van de Rijt和他的同事(2014)介入了四個不同的系統,使隨機選擇的參與者獲得成功,然後測量這種任意成功的長期影響。您能想到其他可以進行類似實驗的系統嗎?根據科學價值,算法混淆(見第2章)和道德問題來評估這些系統。
[ , ]實驗結果可能取決於參與者。創建一個實驗,然後使用兩種不同的招聘策略在MTurk上運行它。嘗試選擇實驗和招募策略,以使結果盡可能不同 。例如,您的招聘策略可能是在早上和晚上招募參與者,或者補償高薪和低薪的參與者。招聘策略中的這些差異可能導致不同的參與者群體和不同的實驗結果。你的結果有多麼不同?這揭示了在MTurk上運行實驗的內容?
[ , , ]想像一下,您正在計劃情緒傳染實驗(Kramer, Guillory, and Hancock 2014) 。使用Kramer (2012)早期觀察性研究的結果來確定每種情況下的參與者數量。這兩項研究並不完全匹配,因此請務必明確列出您所做的所有假設:
[ , , ]再次回答上一個問題,但這次不是使用Kramer (2012)早期的觀察性研究,而是使用Lorenzo Coviello et al. (2014)早期自然實驗的結果Lorenzo Coviello et al. (2014) 。
[ ] Margetts et al. (2011)和van de Rijt等人。 (2014)進行了實驗研究人們簽署請願書的過程。比較和對比這些研究的設計和發現。
[ ] Dwyer, Maki, and Rothman (2015)對社會規範與親環境行為之間的關係進行了兩次實地試驗。這是他們論文的摘要:
“如何利用心理科學來鼓勵環保行為?在兩項研究中,旨在促進公共浴室節能行為的干預措施考察了描述性規範和個人責任的影響。在研究1中,在某人進入未佔用的公共浴室之前操縱了光的狀態(即,打開或關閉),表明該設置的描述性標準。如果參加者在進入時關閉,他們更有可能關燈。在研究2中,還包括一個附加條件,其中關閉燈的規範由聯盟證明,但參與者本身並不負責打開它。個人責任緩和了社會規範對行為的影響;當參與者不負責打開燈時,規範的影響就會減弱。這些結果表明描述性規範和個人責任如何規範環境干預措施的有效性。“
閱讀他們的論文並設計研究的複制1。
[ , ]在前一個問題的基礎上,現在進行您的設計。
[ 關於使用從MTurk招募的參與者的實驗,存在大量爭論。與此同時,關於使用從本科學生群體招募的參與者的實驗也存在大量爭論。寫一份兩頁的備忘錄,比較和對比Turkers和本科生作為研究參與者。您的比較應包括對科學和後勤問題的討論。
[ ] Jim Manzi的書Uncontrolled (2012)是對商業實驗能力的精彩介紹。在書中他轉述了以下故事:
“我曾經與一位真正的商業天才會面,他是一位白手起家的億萬富翁,對實驗的力量有著深刻而直觀的低調。他的公司花費了大量資源,試圖創造出能吸引消費者並增加銷售額的精美商店櫥窗展示,正如傳統智慧所說的那樣。專家們在設計之後對設計進行了仔細測試,並在多年的個別測試評審中不斷顯示每個新的顯示器設計對銷售的重大因果影響。高級營銷和推銷高管會見了首席執行官,以便全面審查這些歷史測試結果。在介紹了所有實驗數據後,他們得出結論認為傳統智慧是錯誤的 - 窗口顯示不會推動銷售。他們建議的行動是減少這方面的成本和努力。這極大地證明了實驗推翻傳統智慧的能力。首席執行官的回答很簡單:“我的結論是你的設計師不是很好。”他的解決方案是增加商店展示設計的努力,並讓新人去做。“ (Manzi 2012, 158–9)
首席執行官關注的是哪種有效性?
[ ]在前一個問題的基礎上,假設您參加了討論實驗結果的會議。您可以提出四個問題 - 每種類型的有效性(統計,構造,內部和外部)?
[ Bernedo, Ferraro, and Price (2014)研究了Ferraro, Miranda, and Price (2011)所描述的節水干預的七年效應(見圖4.11)。在本文中,Bernedo及其同事還試圖通過比較治療結束後有和沒有移動的家庭的行為來了解效果背後的機制。也就是說,粗略地說,他們試圖看待治療是否影響了房屋或房主。
[ ]在Schultz et al. (2007)的後續行動中Schultz et al. (2007) ,Schultz及其同事在兩種情況下(酒店和分時度假公寓)對描述性和禁令性規範對不同環境行為(毛巾再利用)的影響進行了一系列三次實驗(Schultz, Khazian, and Zaleski 2008) 。
[ ]回應Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016)進行了一系列實驗室式實驗來研究電費賬單的設計。以下是他們如何在摘要中描述它:
“在一項基於調查的實驗中,每位參與者都看到了一個電力使用相對較高的家庭的假設電費賬單,其中包括(a)歷史使用情況,(b)與鄰居的比較,以及(c)家電故障的歷史使用情況。參與者以三種格式之一看到所有信息類型,包括(a)表格,(b)條形圖和(c)圖標圖形。我們報告了三個主要發現。首先,當消費者在表格中呈現時,消費者最了解每種類型的用電信息,這可能是因為餐桌便於簡單的點讀。其次,節約電力的偏好和意圖是歷史使用信息最強的,與格式無關。第三,能源素養較低的人更少了解所有信息。“
與其他後續研究不同, Canfield, Bruin, and Wong-Parodi (2016)的主要結果是報告的行為,而不是實際行為。在更廣泛的促進節能研究計劃中,此類研究的優點和缺點是什麼?
[ , Smith and Pell (2003)提出了一項諷刺性的薈萃分析,證明了降落傘的有效性。他們總結道:
“與許多旨在預防疾病的干預措施一樣,降落傘的有效性尚未通過使用隨機對照試驗進行嚴格評估。循證醫學的倡導者批評採用僅使用觀察數據評估的干預措施。我們認為,如果基於證據的醫學最激進的主角組織並參與了降落傘的雙盲,隨機,安慰劑對照,交叉試驗,每個人都可能受益。“
寫一篇適合普通讀者報的專欄,例如紐約時報 ,反對實驗證據的迷信。提供具體的具體例子。提示:另見Deaton (2010)和Bothwell et al. (2016) 。
[ , , ]治療效果的差異差異估計可以比差異均值估計更精確。在一家初創社交媒體公司向負責A / B測試的工程師寫一份備忘錄,解釋運行在線實驗的差異差異方法的價值。備忘錄應該包括一個問題陳述,一些關於差異差異估計器將勝過均值差估計的條件的直覺,以及一個簡單的模擬研究。
[ , ] Gary Loveman在擔任Harrah's的首席執行官之前曾是哈佛商學院的教授,該公司是世界上最大的賭場公司之一。當他搬到Harrah's時,Loveman用頻繁的飛行員式忠誠度計劃改變了公司,該計劃收集了大量有關客戶行為的數據。在這個永遠在線的測量系統之上,該公司開始進行實驗。例如,他們可能會進行一項實驗來評估優惠券對具有特定賭博模式的客戶的免費酒店住宿的影響。以下是Loveman如何描述實驗對Harrah日常業務實踐的重要性:
“這就像你不騷擾女人,你不偷,你必須有一個控制組。這是你可能在Harrah的工作中失去工作的事情之一 - 沒有管理一個控制組。“ (Manzi 2012, 146) 2012,146 (Manzi 2012, 146)
給新員工寫一封電子郵件,解釋為什麼Loveman認為擁有一個控制組是如此重要。你應該嘗試包括一個例子 - 無論是真實的還是彌補的 - 來說明你的觀點。
[ , ]一項新實驗旨在估計接收短信提醒對疫苗接種的影響。 150個診所,每個診所有600名符合條件的患者,願意參加。您希望使用的每個診所的固定費用為100美元,每封發送的短信費用為1美元。此外,您正在與之合作的任何診所都將免費測量結果(是否有人接種疫苗)。假設您的預算為1,000美元。
[ , ]在線課程的一個主要問題是消耗:很多開始課程的學生最終都會退學。想像一下,您正在一個在線學習平台上工作,該平台的設計師創建了一個視覺進度條,她認為這將有助於防止學生退出課程。您想在大型計算社會科學課程中測試進度條對學生的影響。在解決實驗中可能出現的任何道德問題後,您和您的同事會擔心該課程可能沒有足夠的學生可靠地檢測進度條的影響。在下面的計算中,您可以假設有一半的學生將收到進度條而一半不會。此外,您可以假設沒有乾擾。換句話說,您可以假設參與者僅受其接受治療或控制的影響;他們不受其他人是否接受治療或控制的影響(更正式的定義見Gerber and Green (2012)第8章)。跟踪您所做的任何其他假設。
[ , , 想像一下,你是一家科技公司的數據科學家。營銷部門的某位人員要求您幫助評估他們計劃的實驗,以衡量新在線廣告系列的投資回報率(ROI)。投資回報率定義為廣告系列的淨利潤除以廣告系列的費用。例如,對銷售沒有影響的廣告系列的投資回報率為-100%;如果利潤產生的成本與成本相等,則投資回報率為0;如果一項活動產生的利潤是成本的兩倍,那麼投資回報率就會達到200%。
在啟動實驗之前,營銷部門會根據他們之前的研究為您提供以下信息(實際上,這些值是Lewis和Rao (2015)報告的真實在線廣告活動的典型值):
寫一份評估這個提議實驗的備忘錄。您的備忘錄應使用您創建的模擬中的證據,並且應解決兩個主要問題:(1)您是否建議按計劃啟動此實驗?如果是這樣,為什麼?如果沒有,為什麼不呢?務必明確您用於做出此決定的標準。 (2)您為此實驗推薦的樣本量是多少?請務必明白您用於做出此決定的標準。
一份好的備忘錄將解決這一具體案例;一個更好的備忘錄將以一種方式從這個案例中推廣出來(例如,顯示決策如何隨著活動效果的大小而變化);一份好的備忘錄將呈現一個完全普遍的結果。您的備忘錄應使用圖表來幫助說明您的結果。
這裡有兩個提示。首先,營銷部門可能向您提供了一些不必要的信息,但他們可能未能向您提供一些必要的信息。其次,如果你正在使用R,請注意rlnorm()函數不會像許多人期望的那樣工作。
此活動將為您提供功能分析,創建模擬以及使用文字和圖表傳達結果的練習。它應該可以幫助您對任何類型的實驗進行功效分析,而不僅僅是旨在估算ROI的實驗。此活動假定您具有統計測試和功效分析方面的一些經驗。如果您不熟悉功率分析,我建議您閱讀Cohen (1992) “A Power Primer”。
這項活動的靈感來自RA Lewis and Rao (2015)的一篇可愛論文,它生動地說明了即使是大規模實驗的基本統計限制。他們的論文最初具有挑釁性的標題“關於衡量廣告回報的近乎不可能性” - 顯示了衡量在線廣告投資回報的難度,即使涉及數百萬客戶的數字化實驗也是如此。更一般地, RA Lewis and Rao (2015)說明了一個對數字時代實驗特別重要的基本統計事實:在嘈雜的結果數據中很難估計小的治療效果。
[ , ]與上一個問題相同,但是,您應該使用分析結果而不是模擬。
[ , , ]與上一個問題相同,但同時使用模擬和分析結果。
[ , , ]想像一下,您已經編寫了上述備忘錄,營銷部門的某個人提供了一條新信息:他們希望實驗前後的銷售額之間存在0.4的相關性。這如何改變備忘錄中的建議? (提示:有關差異估計器和差異差異估計器的更多信息,請參閱第4.6.2節。)
[ , ]為了評估新的基於網絡的就業援助計劃的有效性,一所大學對進入最後一年的10,000名學生進行了隨機對照試驗。通過向5,000名隨機選擇的學生髮送的獨家電子郵件邀請,發送了具有唯一登錄信息的免費訂閱,而其他5,000名學生則在對照組中,並且沒有訂閱。 12個月後,一項隨訪調查(無無回應)顯示,在治療組和對照組中,70%的學生在所選領域獲得了全職工作(表4.6)。因此,似乎基於網絡的服務沒有任何效果。
然而,該大學的一位聰明的數據科學家更仔細地查看了數據,發現治療組中只有20%的學生在收到電子郵件後登錄了該帳戶。此外,有些令人驚訝的是,在那些登錄網站的人中,只有60%的人在他們選擇的領域獲得了全職工作,這低於沒有登錄的人的比率,低於人們的比率在控制條件下(表4.7)。
提示:這個問題超出了本章所涉及的內容,但解決了實驗中常見的問題。這種類型的實驗設計有時被稱為鼓勵設計,因為鼓勵參與者參與治療。這個問題就是所謂的片面不合規的一個例子(參見Gerber and Green (2012)第5章)。
[ 經過進一步檢查,結果證明前一個問題中描述的實驗更加複雜。事實證明,對照組中有10%的人支付了使用該服務的費用,最終他們的就業率達到了65%(表4.8)。
提示:這個問題超出了本章所涉及的內容,但解決了實驗中常見的問題。這個問題就是所謂的雙邊不合規的一個例子(參見Gerber and Green (2012)第6章)。
組 | 尺寸 | 就業率 |
---|---|---|
授予訪問網站的權限 | 5000 | 70% |
未授予訪問網站的權限 | 5000 | 70% |
組 | 尺寸 | 就業率 |
---|---|---|
授予訪問網站並登錄的權限 | 1000 | 60% |
授予訪問網站的權限,但從未登錄過 | 4000 | 72.5% |
未授予訪問網站的權限 | 5000 | 70% |
組 | 尺寸 | 就業率 |
---|---|---|
授予訪問網站並登錄的權限 | 1000 | 60% |
授予訪問網站的權限,但從未登錄過 | 4000 | 72.5% |
未授權訪問網站並為其付費 | 500 | 65% |
未授予對網站的訪問權限且未支付費用 | 4500 | 70.56% |