活動

鍵:

  • 難度:容易簡單 ,中中硬 , 很難很難
  • 需要數學( 需要數學
  • 需要編碼( 需要進行編碼
  • 數據採集 ( 數據採集
  • 我最喜歡的 ( 我的最愛
  1. [ 中數據採集 ] Berinsky和他的同事(2012)通過複製三款經典的實驗評估的Mechanical Turk部分。複製的經典亞洲取景疾病實驗Tversky and Kahneman (1981) 。做你的結果相吻合Tversky和卡尼曼的?做你的結果相吻合Berinsky和他的同事?什麼 - 如果有的話 - 這是否告訴我們如何使用的Mechanical Turk進行調查實驗?

  2. [ 中我的最愛在題為有點舌頭在臉頰紙“我們要分手,”社會心理學家羅伯特·西奧迪尼的作者之一Schultz et al. (2007)中寫道,他從他的教授工作提前退休,這部分是因為他面臨的一門學科(心理學)認為主要是進行實驗室實驗做現場實驗所面臨的挑戰(Cialdini 2009) 。閱讀西奧迪尼的紙,寫了他一封電子郵件,敦促他重新考慮在數字化實驗的可能性光他分手。使用的研究,解決了他的擔憂具體的例子。

  3. [ 中 ]為了確定小最初的成功是否鎖定或消逝,範·德·Rijt和和他的同事(2014)干預分為四個不同的系統賜予隨機抽取參與者的成功,再測這個任意成功的長期影響。你能想到的其他系統中,你可以運行類似的實驗?評估的科學價值的問題而言這些系統,算法的混雜(見第2章),和道德。

  4. [ 中數據採集 [實驗的結果可依賴於參與者。創建一個實驗,然後用兩種不同的招募策​​略亞馬遜的Mechanical Turk(MTurk)運行。盡量挑選實驗,招募策略,這樣的結果會盡可能不同 。例如,您的招聘策略可能是招收在早晨和晚上參加或補償參與者有高有低工資。這些類型的招聘策略的差異可能會導致參與者和不同的實驗結果的不同池。結果是怎樣的不同轉出?這是什麼揭示上MTurk運行實驗?

  5. [ 很難需要數學需要進行編碼我的最愛 ]想像一下,你正計劃在情緒傳染研究(Kramer, Guillory, and Hancock 2014) 。使用從由較早觀察研究結果Kramer (2012)以決定在每個條件的參與者的數目。這兩項研究不匹配完美,所以一定要明確列出所有你做的假設:

    1. 運行仿真,這將決定有多少參與者將被需要以檢測一樣大的效果的效果Kramer (2012)\(\阿爾法= 0.05 \)\(1 - \測試= 0.8 \)。
    2. 照此計算解析。
    3. 鑑於從結果Kramer (2012)被情緒感染(Kramer, Guillory, and Hancock 2014)在供電(即,它是否比需要更多的參與者)?
    4. 你所做的假設,這對你的計算最大的效果呢?
  6. [ 很難需要數學需要進行編碼我的最愛 ]回答以上問題,但不是使用由早期的觀察研究Kramer (2012)通過使用結果從早期的自然實驗Coviello et al. (2014)

  7. [ 簡單 ]都Rijt et al. (2014)Margetts et al. (2011)都執行該研究的人簽署請願書的過程中實驗。比較和對比的設計,這些研究結果。

  8. [ 簡單 ] Dwyer, Maki, and Rothman (2015)對社會規範和proenvironmental行為之間的關係進行了兩次現場試驗。下面是他們的論文的摘要:

    “怎麼可能心理科學被用來鼓勵proenvironmental行為?在兩項研究,目的是在公共浴室推進節能減排行為干預研究的描述性規範和個人責任的影響。在研究1,之前有人進入未佔用的公共浴室,標誌著該設置的描述性規範的指示燈狀態(即開或關)被操縱。與會者顯著更可能關燈,如果他們離開,當他們進入。在研究2中,一個附加條件被包括在關斷光的範數是由同夥證實,但是參與者本身並不負責將其打開。個人責任放緩對行為的社會規範的影響;當參與者被不負責開燈,規範的影響被削弱。這些結果表明規範和個人的責任如何描述可調節proenvironmental干預措施的有效性。“

    閱讀他們的論文和設計研究1的複製。

  9. [ 中數據採集 ]在前面的問題的基礎上,現在開展你的設計。

    1. 如何比較的結果?
    2. 什麼可能解釋這些差異?
  10. [ 中 ]已經有關於使用了來自亞馬遜的Mechanical Turk招募實驗實質性辯論。與此同時,也出現了有關使用參與者從本科學生群體招募實驗實質性辯論。寫兩頁的備忘錄比較和對比零工和本科生研究人員參加。你的比較應該包括科學和後勤問題進行了討論。

  11. [ 簡單 ]吉姆蠻子的書不受控制的 (2012)是一個奇妙的引入在商業實驗的力量。在這本書中,他轉述這個故事:

    “我在一個真正的商業天才,一個白手起家的億萬富翁誰了實驗的力量的深刻,直觀的低估一個會議是一次。他的公司花了顯著資源,努力創造偉大的櫥窗展示,以吸引消費者,並增加銷售,傳統的智慧說,他們應該。專家仔細測試後設計的設計,並在保持了數年時間顯示在銷售每一個新的展示設計的無顯著因果關係單獨測試審查會議。資深營銷和銷售主管與CEO開會審查全盤這些歷史測試結果。呈現所有的實驗數據後,他們得出的結論是傳統的智慧是錯誤的,該窗口顯示不開車的銷售。他們建議採取的措施是減少在這方面的成本和精力。這極大地證明了實驗顛覆傳統智慧的能力。 CEO的回答很簡單:“我的結論是,你的設計師是不是很好。”他的解決辦法是增加店面展示設計工作,並獲得新的人去做。“ (Manzi 2012, 158–9)

    哪種類型的有效性是CEO的關注?

  12. [ 簡單 ]在前面的問題的基礎上,想像一下你在那裡的實驗結果進行了討論會議。什麼是四個問題,你可以問,每種類型的有效性(統計,建設,內部和外部)?

  13. [ 簡單 ] Bernedo, Ferraro, and Price (2014)研究中所描述的節水干預的七年效果Ferraro, Miranda, and Price (2011)見圖4.10)。在本文中,Bernedo和他的同事還努力通過比較有和治療後交付沒有移動家庭的行為,了解影響背後的機制。即,大致,他們試圖看到治療是否影響了家庭或房主。

    1. 閱讀文章,描述他們的設計,並總結他們的發現。 B)不要他們的研究結果產生影響,你應該如何評估類似干預措施的成本效益?如果是這樣,為什麼?如果不是,為什麼不呢?
  14. [ 簡單在一個後續Schultz et al. (2007) ,舒爾茨和他的同事在兩種情況(一間酒店和分時度假公寓)在不同的環境行為(毛巾再利用)進行了一系列的描述和強制規範的作用三個實驗(Schultz, Khazian, and Zaleski 2008)

    1. 總結這些三個實驗的設計和研究結果。
    2. 如何,如果在所有,難道他們改變你的解釋Schultz et al. (2007)
  15. [ 簡單響應於Schultz et al. (2007)Canfield, Bruin, and Wong-Parodi (2016)進行了一系列的實驗室實驗一樣,研究電費的設計。這裡是他們是如何描述它的摘要:

    “在一個以調查為基礎的實驗中,每個參與者看到了一個假想的電費為家庭具有比較高的用電量,佔地約(一)歷史使用信息,(二)比較,以鄰,(c)與家電擊穿歷史使用。與會者認為在三種格式的所有信息類型,包括(一)表,(B)條形圖,以及(c)圖標圖表。我們在三個主要的調查報告。首先,消費者了解每種類型的電力使用信息的最當它在一個表中提出,也許是因為表方便簡單點讀。其次,喜好和意圖節約用電是最強的歷史使用信息的,獨立的格式。第三,降低能源識字個人了解的所有信息少“。

    不像其他的後續研究,在感興趣的主要成果Canfield, Bruin, and Wong-Parodi (2016)報導的行為沒有實際行為。什麼是更廣泛的研究計劃,促進能源節約這類研究的優勢和劣勢?

  16. [ 中我的最愛 ] Smith and Pell (2003)是研究證明降落傘的有效性諷刺薈萃分析。他們總結說:

    “與許多干預措施旨在防止不健康,降落傘的有效性尚未通過隨機對照試驗進行嚴格的評估。循證醫學的倡導者批評採取只使用觀測數據評估干預措施。我們認為,隨機,安慰劑對照,降落傘的交叉試驗,如果組織和參加了一項雙盲循證醫學的最激進的主角,每個人都可能會受益。“

    寫一個專欄適合普通讀者的報紙,如紐約時報 ,對實驗證據的拜物教爭吵。提供特定的,具體的例子。提示:也見Bothwell et al. (2016)Deaton (2010)

  17. [ 中需要進行編碼我的最愛 ]差分合差異的治療效果估計可以比差 - 在均值估計更精確。在初創社交媒體公司解釋運行的在線實驗的差異,在差異方法的價值寫了一份備忘錄,負責A / B測試工程師。備忘錄應包括對問題的陳述,有關下的差異,在差異估計將會跑贏差異,在平均估計的條件的一些直覺,和一個簡單的模擬研究。

  18. [ 簡單我的最愛 ]加里·拉夫曼在哈佛商學院成為哈拉斯的CEO,最大的賭場公司在世界上的一個前教授。當他搬到哈拉斯,洛夫曼改變了公司與收集的關於客戶行為數據的數量巨大的一個常客般的忠誠度計劃。在這個永遠在線測量系統之上,公司開始運行試驗。例如,他們可能會進行實驗,以評估的優惠券為免費酒店晚上,為客戶提供特定的賭博模式的影響。下面是如何拉夫曼描述Harrah的日常商業實踐實驗的重要性:

    “這就像你不騷擾女人,你不偷,你必須有一個對照組。這是你可以失去你的工作在Harrah's-未運行的對照組的事情之一。“ (Manzi 2012, 146)

    寫電子郵件給新員工解釋為什麼拉夫曼認為它是如此重要的是要有一個對照組。你應該嘗試包括一個例子,無論是實際的組成,來說明你的觀點。

  19. [ 硬需要數學 ]一個新的實驗的目的是評估疫苗接種吸收接收短信提醒的作用。 150診所,每600符合條件的患者,都願意參加。還有就是100塊錢你想使用的每個診所一個固定的成本,它的成本1美元對要互送短信。此外,您正在使用的任何診所將測量結果(是否有人接受了疫苗)是免費的。假設你有1000塊錢的預算。

    1. 在什麼條件下它可能是更好地集中於少數診所,什麼條件下,你的資源可能是更好更廣泛地傳播他們?
    2. 哪些因素將決定影響最小尺寸,你將能夠可靠地與您的預算檢測?
    3. 寫一個備忘錄解釋這些權衡一個潛在的資助者。
  20. [ 硬需要數學 ]與在線課程的主要問題是磨損;該課程開始很多學生最終會脫落出。想像一下,你是在一個在線學習平台的工作,並在平台設計師創造,她認為將有助於防止學生輟學過程的可視化進度條。要測試學生的進度條在一個大的計算社會科學課程的效果。解決在實驗中可能出現的任何道德問題後,您和您的同事感到擔心,該課程可能沒有足夠的學生可靠地檢測進度條的效果。在下面你計算可以假設學生的一半將接收進度條和半沒有。此外,你可以假設沒有干擾。換句話說,你可以假設參與者只受他們是否接受治療或控制;他們沒有被其他人是否接受治療或控制(更正式的定義,請參閱影響Gerber and Green (2012)章8)。請跟踪,你做任何額外的假設。

    1. 假設進度條預計將增加誰1個百分點,完成類的學生比例,什麼是可靠地檢測效果所需的樣本規模?
    2. 假設進度條預計將增加誰了10個百分點完成類的學生比例,什麼是可靠地檢測效果所需的樣本規模?
    3. 現在,假設你已經運行誰已經完成了所有課程材料都採取了期末考試的實驗和學生。當你比較誰收到的進度條到那些沒有,你會發現,這令你吃驚的是,誰沒有收到進度條實際上學生得分較高的學生的期末考試成績。這是否意味著進度條引起學生學習少?你可以從這個結局數據學到什麼呢? (提示:見Gerber and Green (2012)第7章)。
  21. [ 很難需要進行編碼在一個可愛的紙, Lewis and Rao (2015)生動地說明了即使大量實驗的基本統計的限制。紙張原本有挑釁性的標題是“在測量返回廣告的近不可能”-shows是多麼難以衡量在線廣告的投資回報率,甚至與數字實驗,涉及數以百萬計的客戶。更一般地,本文清楚地表明,它是很難估計之中嘈雜結果數據小的處理效果。或diffently指出,文中顯示,預計治療效果將有較大的置信區間當衝擊到標準偏差(\(\壓裂{\三角洲\酒吧{Y}} {\西格瑪} \))的比例是很小的。從本文的重要的一般經驗是,從影響小到標準偏差率的實驗結果(例如,廣告活動的ROI)將是未能如願。你面臨的挑戰將是一份備忘錄寫有人在貴公司的市場部evaluting計劃的實驗來衡量廣告活動的投資回報率。你的備忘錄應與計算機模擬的結果的曲線圖來支持。

    這裡,你可能需要一些背景資料。所有這些數值的典型中報導的實際實驗的Lewis and Rao (2015)

    • 投資回報率,對在線廣告活動的一個關鍵指標,被定義為從競選的費用分為運動(從營銷活動的運動減去成本毛利)的淨利潤。例如,一個運動,對銷售沒有影響將有100%的投資回報和活動的地方產生的利潤等於成本將有0-4的投資回報率。

    • 每個客戶的平均銷售額為$ 7 $ 75的標準偏差。

    • 運動預計將增加相當於增加每個客戶0.175 $利潤每個客戶0.35 $銷售。換句話說,毛利率為50%。

    • 實驗的計劃規模為20萬人,一半的治療組,另一半對照小組。

    • 運動的成本是$ 0.14每名參與者。

    撰寫備忘錄evaluting這個實驗。你會推薦推出這一試驗按計劃進行?如果是這樣,為什麼?如果沒有,你會推薦什麼樣的變化?

    一個好的備忘錄將解決這一具體案例;更好的備忘錄將從該情況下概括在單程(例如,顯示如何決定變化的影響到標準偏差之比的函數);和一個偉大的備忘錄將呈現一個完全概括的結果。

  22. [ 很難需要數學 ]做一樣的前一個問題,但不是模擬,你應該使用分析結果。

  23. [ 很難需要數學需要進行編碼 ]做一樣的前一個問題,但同時使用模擬和分析結果。

  24. [ 很難需要數學需要進行編碼 ]想像一下,你已經寫了上面使用或者模擬,分析結果,還是從市場營銷部門都-有人建議使用的不同,在不同估計,而不是辦法估計的差異說明的備忘錄(見第4.6.2節) 。寫一個新的更短的備忘錄,解釋如何在實驗後的實驗前的銷售量和銷售額之間的相關性0.4將改變你的結論。

  25. [ 硬需要數學 ]為了評估一個新的基於Web的服務事業的有效性,大學職業服務辦公室進行入他們學校的最後一年10,000名學生之間的隨機對照試驗。具有獨特的登錄信息免費訂閱通過獨家電子郵件邀請隨機選擇學生5000發送的,而其他5000名學生都在對照組中,並沒有訂閱。十二個月後,後續的調查(其中沒有非響應)顯示,在這兩個治療組和對照組中,70%的學生已獲得全職工作在自己的領域(見表4.5)。因此,似乎該基於web的服務是沒有效果的。

    然而,在大學一個聰明的科學家的數據看著這個數據有點更加緊密地發現只有20%的學生在治療組有史以來登錄到帳戶收到電子郵件後。此外,和有些奇怪的是,那些誰已登錄到網站中,只有60%已獲得全職工作在自己的領域,這是比那沒有登錄萬人的速度比房價的人越來越低控制條件(見表4.6)。

    1. 為有可能發生的解釋。
    2. 什麼是兩種不同的方法來計算在此實驗治療的效果?
    3. 鑑於這一結果,應在大學生涯的服務提供這種基於Web的服務事業向所有學生?只是要清楚,這不是用簡單的答案的問題。
    4. 他們應該怎麼做?

    提示:這個問題超出了本章討論的材料,但解決了實驗中的常見問題。因為鼓勵參與者參與治療這種類型的實驗設計有時被稱為一種鼓勵設計 。這個問題是所謂片面違規的例子(見Gerber and Green (2012)通道5)

  26. [ 硬 ]進一步檢查後,事實證明,在前面的問題中描述的實驗是更加複雜。事實證明,在對照組中10%的人訪問的服務付費,他們結束了65%(見表4.7)的就業率。

    1. 寫一封電子郵件,總結你的想法正在發生的事情,並建議行動方針。

    提示:這個問題超出了本章討論的材料,但解決了實驗中的常見問題。這個問題是所謂的雙面違規的例子(見Gerber and Green (2012) ,6章)

表4.5:從職業服務實驗數據的簡單視圖。
尺寸 就業率
授權訪問網站 5000 70%
無權訪問網站 5000 70%
表4.6:從職業服務實驗數據的更完整視圖。
尺寸 就業率
獲准進入網站並登錄 1000 60%
獲准進入的網站,並在從未登錄 4000 85%
無權訪問網站 5000 70%
表4.7:從職業服務實驗數據的完整視圖。
尺寸 就業率
獲准進入網站並登錄 1000 60%
獲准進入的網站,並在從未登錄 4000 72.5%
無權訪問的網站,並為此付出了代價 500 65%
無權訪問的網站,並沒有為它付出 4500 70.56%