さらに解説

このセクションでは、物語のように読まれるべきではなく、参照として使用されるように設計されています。

  • はじめに(4.1節)

社会調査における因果関係についての質問は、多くの場合、複雑で入り組んだです。因果グラフに基づいて、因果関係に基礎的なアプローチについては、 Pearl (2009)および潜在的な結果に基づいて、基礎的なアプローチのために、参照Imbens and Rubin (2015)この章の技術的な付録を)。これら2つのアプローチの比較については、以下を参照してくださいMorgan and Winship (2014)交絡因子を定義する正式なアプローチについては、 VanderWeele and Shpitser (2013)

章では、私は実験的および非実験データから因果推定をさせる当社の能力との間に明るい線のように見えたものを作成しました。現実には、私は区別が不鮮明だと思います。例えば、誰もが喫煙は、我々は人々が喫煙を強制的に無作為化比較実験を行ったことがないにもかかわらず、がんを引き起こすことを受け入れます。非実験データから因果推定を行う上で素晴らしい本の長さの治療のために参照してくださいRosenbaum (2002) Rosenbaum (2009) Shadish, Cook, and Campbell (2001)およびDunning (2012)

第1章と第2章Freedman, Pisani, and Purves (2007)の実験では、制御された実験、および無作為化実験の間の違いに明確な導入を提供しています。

Manzi (2012)無作為化対照実験の哲学的および統計的基盤に魅力的な、読み取り可能な導入を提供します。また、ビジネスでの実験のパワーの興味深い実例を提供します。

  • 実験は何ですか? (4.2節)

Casella (2008) Box, Hunter, and Hunter (2005) Athey and Imbens (2016b)実験計画および分析の統計的側面 ​​に優れた紹介を提供しています。経済学:また、さまざまな分野での実験の使用の優れた治療法がある(Bardsley et al. 2009)社会学(Willer and Walker 2007; Jackson and Cox 2013)心理学(Aronson et al. 1989)政治学は、 (Morton and Williams 2010)および社会政策(Glennerster and Takavarasha 2013)

参加者募集(例えば、サンプリング)の重要性は過小感謝実験的研究であることが多いです。治療の効果は集団において不均一である場合には、その後サンプリングが重要である。 Longford (1999) 、彼が行き当たりばったりサンプリングと人口調査として実験を考えて研究者のために提唱したとき、明らかにこの点になります。

  • 実験の二次元:ラボ・フィールドとアナログ-デジタル(4.3節)

私は実験室とフィールド実験間で提示二分法は少し簡略化されます。実際には、他の研究者は、フィールド実験の様々な形態の分離特定のもので、より詳細な類型を提案した(Harrison and List 2004; Charness, Gneezy, and Kuhn 2013)さらに、実験室とフィールドの二分法にきちんと収まらない社会科学者によって行われた実験の他の二つの種類があります:。調査実験や社会実験は、 調査実験は、既存調査のインフラを用いた実験で、の代替バージョンへの応答を比較します同じ質問(いくつかの調査実験は、第3章に示されています)。調査実験の詳細を参照Mutz (2011)治療は政府だけで実現することができるいくつかの社会政策である社会実験が実験です。社会実験は、プログラム評価と密接に関連しています。政策実験の詳細については、 Orr (1998) Glennerster and Takavarasha (2013)およびHeckman and Smith (1995)

論文数は、抽象的で実験室とフィールド実験を比較しました(Falk and Heckman 2009; Cialdini 2009)と政治学の具体的な実験の成果の面で(Coppock and Green 2015)経済(Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013)と心理学(Mitchell 2012) Jerit, Barabas, and Clifford (2013)実験室とフィールド実験からの結果を比較するための素晴らしい研究デザインを提供しています。

彼らは密接に観察されている知っているので、それらの動作を変更する参加者の懸念は、時には需要効果と呼ばれ、彼らは心理学で研究されてきた(Orne 1962)と経済学(Zizzo 2009)主に研究室の実験に関連付けられているが、これらの同じ問題は、同様に、フィールド実験のための問題を引き起こす可能性があります。実際には、 需要の影響も時々 、フィールド実験に由来する用語、ウェスタン・エレクトリック・カンパニーのホーソン工場で1924年に始まった、具体的に有名な照明実験ホーソーン効果と呼ばれています (Adair 1984; Levitt and List 2011)両方の需要の効果ホーソン効果は密接に第2章で論じ反応性測定の考え方に関連している(参照Webb et al. (1966)

フィールド実験の歴史経済学に記載されている(Levitt and List 2009)政治学(Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012)心理学(Shadish 2002)および公共政策(Shadish and Cook 2009)フィールド実験がすぐに顕著になった社会科学の一分野は、国際的な開発です。経済内のその作業の正の総説については、 Banerjee and Duflo (2009)および重要な評価のために参照Deaton (2010)政治学のこの作品のレビューを参照Humphreys and Weinstein (2009)最後に、フィールド実験に関わる倫理的課題は、政治学で検討されている(Humphreys 2015; Desposato 2016b)と開発経済学(Baele 2013)

章では、Iは、前処理情報は、推定治療効果の精度を改善するために使用され得ることを示唆し、このアプローチに関するいくつかの議論がある: Freedman (2008) Lin (2013)およびBerk et al. (2013)参照Bloniarz et al. (2016)詳細については。

  • 簡単な実験を超えて移動する(4.4節)

妥当性、治療効果の不均一性、および機構:私は3の概念に焦点を当てることを選択しました。これらの概念は、さまざまな分野で異なる名前を持っています。例えば、心理学者は、 メディエーターモデレーターを中心に簡単な実験を越えて移動する傾向がある(Baron and Kenny 1986)メディエーターのアイデアは、私はメカニズムを呼ぶものによって捕捉され、モデレーターのアイデアは、私は外的妥当性(それは様々な状況で実行された場合例えば、実験の結果は異なるだろう)と治療効果の不均一性(と呼ぶものによって捕獲されます例えば、他の人よりも何人かの人々)のためのより大きな効果があります。

実験Schultz et al. (2007)効果的な介入を設計することができる方法を社会的理論を示しています。効果的な介入を設計する際の理論の役割に関する一般的な引数は、以下を参照してくださいWalton (2014)

  • 妥当性(4.4.1項)

内部および外部の妥当性の概念が最初に導入されたCampbell (1957)参照してくださいShadish, Cook, and Campbell (2001)より詳細な履歴と統計的結論の妥当性、内部妥当性、有効性を構築し、外的妥当性を慎重に推敲のために。

実験で統計的な結論の妥当性に関連する問題の概要については参照Gerber and Green (2012)社会科学の視点用)とImbens and Rubin (2015)統計的観点のため)。オンラインフィールド実験で特異的に生じる統計的結論の妥当性のいくつかの問題は、このような依存データと信頼区間を作成するための計算上効率的な方法などの問題が含ま(Bakshy and Eckles 2013)

内部妥当性は、複雑なフィールド実験で確保することは困難です。例えば、参照Gerber and Green (2000) Imai (2005)およびGerber and Green (2005)投票に関する複雑なフィールド実験の実施についての議論のために。 Kohavi et al. (2012)Kohavi et al. (2013)オンラインフィールド実験における間隔妥当性の課題への導入を提供します。

内部妥当性の一つの主要な関心事は、無作為に問題があります。潜在的にランダム化の問題を検出する1つの方法は、観察可能な形質に治療群と対照群を比較することです。比較のこの種のバランスチェックと呼ばれています。参照してくださいHansen and Bowers (2008)のチェックのバランスをとる、と見るために統計的アプローチのためにMutz and Pemantle (2015)バランスチェックの懸念のために。例えば、バランス使用して確認してくださいAllcott (2011) (;サイト2、6、8、表2を参照)ランダム化がOPower実験のいくつかで実験の3に正しく実装されていなかったという証拠があることがわかりました。他のアプローチについては、 Imbens and Rubin (2015) 、第21章を。

内部妥当性に関連する他の主要な懸念事項は次のとおりです:1)治療群では誰もが実際に治療を受けた非遵守を、片面2は、治療群では誰もが治療といくつかのを受けて、非遵守を、片面2)対照群の人々は、治療成果が一部の参加のために測定されていない、3)スレ、および治療は対照条件の人々に処理条件の人々から波及4)干渉を受けます。参照Gerber and Green (2012)これらの問題のそれぞれの詳細については章5、6、7、および8。

構成概念妥当性の詳細については、を参照してくださいWesten and Rosenthal (2003)ビッグデータ・ソースに、と構成概念妥当性についての詳細のためのLazer (2015)と本書の第2章。

外的妥当性の一態様は、介入がテストされている設定です。 Allcott (2015)サイトの選択バイアスの慎重な理論的・実証的治療を提供します。この問題は、で説明されてDeaton (2010)多くのサイトに複製されることに加えて、ホームエネルギーレポートの介入も独立して、複数の研究グループによって研究されている(例えば、 Ayres, Raseman, and Shih (2013)

  • 治療効果の不均一性(4.4.2項)

フィールド実験における治療効果の不均一性の優れた概要については、第12章を参照してくださいGerber and Green (2012)医療試験における治療効果の不均一性の紹介については、 Kent and Hayward (2007) Longford (1999) 、およびKravitz, Duan, and Braslow (2004)治療効果の不均一性は、一般に、前処理の特性に基づいて相違に焦点を当てます。あなたは、治療後の成果に基づいて、不均一性に興味がある場合は、より複雑なapproachsは、主要な成層として必要とされている(Frangakis and Rubin 2002)参照Page et al. (2015)レビューのために。

多くの研究者は、線形回帰を使用して、治療効果の不均一性を推定するが、新しい方法は、例えば、機械学習に依存してGreen and Kern (2012) Imai and Ratkovic (2013) Taddy et al. (2016) 、およびAthey and Imbens (2016a)

なぜなら、多重比較の問題と"釣り"多重比較についてのアドレスの懸念を助けることができる統計の様々なアプローチがあるの効果の不均一性の調査結果についてのいくつかの懐疑的な見方がある(Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) 「釣り」への懸念への一つのアプローチは、心理学でますます一般的になってきている事前登録であり、 (Nosek and Lakens 2014)政治学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) 、および経済学(Olken 2015)

研究ではCosta and Kahn (2013)の実験では世帯の約半分は、人口統計学的情報にリンクすることができました。この分析で詳細と可能性のある問題に関心のある読者は、オリジナルの論文を参照してください。

  • メカニズム(4.4.3項)

メカニズムは非常に重要ですが、彼らは勉強するのが非常に困難であることが判明します。密接に心理学のメディエーターの研究に関連するメカニズムについての研究(も参照VanderWeele (2009) 2アイデアの間の正確な比較のために)。このように開発されたアプローチなどのメカニズムを見つけるための統計的アプローチ、 Baron and Kenny (1986) 、非常に一般的です。残念ながら、それはこれらの手続きは、いくつかの強い仮定に依存していることが判明した(Bullock, Green, and Ha 2010) 1は、多くの状況で想像のとおり、複数のメカニズムが存在する場合に苦しむ(Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) Imai et al. (2011)Imai and Yamamoto (2013) 、いくつかの改良された統計的手法を提供します。さらに、 VanderWeele (2015)感度分析への包括的なアプローチを含む重要な結果の数と本の長さの治療を提供しています。

個別のアプローチは、直接メカニズム(例えば、与え船員のビタミンC)を操作しようとした実験に焦点を当てています。残念ながら、多くの社会科学の設定であり、多くの場合、複数のメカニズムであり、他の人を変更することなく1を変更する治療法を設計することは困難です。実験的なメカニズムを変更するには、いくつかのアプローチがに記載されているImai, Tingley, and Yamamoto (2013) Ludwig, Kling, and Mullainathan (2011)およびPirlott and MacKinnon (2016)

記載されているように最後に、メカニズムも ​​、科学の哲学の長い歴史を持っているHedström and Ylikoski (2010)

  • 既存の環境を使用した(セクション4.5.1.1)

差別を測定するための対応調査と監査研究の使用方法の詳細についてを参照してくださいPager (2007)

  • 独自の実験を構築する(セクション4.5.1.2)

あなたが構築した実験に参加者を募集するための最も一般的な方法は、Amazonメカニカルターク(MTurk)です。伝統的なラボの人々が自由多くの研究者が、すでに伝統的なよりも高速かつ安価なデータ収集の結果、ヒト被験者実験の参加者としてTurkers(MTurk上の労働者)を使用し始めているために、彼らはしないだろうタスクを完了するための実験は、賃金のMTurk模倣の側面ので、キャンパス内の実験室実験(Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012)

MTurkから募集参加者との実験の最大の強みは、物流です:彼らは研究者が迅速かつ必要に応じて参加者を募集することができます。ラボ実験を実行するために数週間かかることができ、フィールド実験はセットアップをするために数ヶ月かかることに対し、MTurkから募集参加者との実験は、日中に実行することができます。例えば、 Berinsky, Huber, and Lenz (2012) 8分の実験に参加するために、一日に400被験者を募集することができました。さらに、これらの参加者は(章3と5で説明したように、調査やマスコラボレーションを含む)を実質的にあらゆる目的のために募集することができます。リクルートのこの容易さは、研究者が矢継ぎ早に関連した実験のシーケンスを実行できることを意味します。

独自の実験のためにMTurkからの参加者を募集する前に、知っている4つの重要な事があります。まず、多くの研究者がTurkersを含む実験の非特異的懐疑的な見方を持っています。この懐疑論が固有のものではないので、証拠に対抗するのは難しいです。しかし、Turkersを用いた研究の数年後、私たちは今、この懐疑論が特に必要ではないと結論付けることができます。他の集団と他の集団から得られた結果にTurkersを用いた実験の結果を比較する多くの研究にTurkersの人口統計を比較する多くの研究がなされてきました。このすべての作業を考えると、私はあなたがそれについて考えるするための最良の方法はTurkersは多くの学生のように、合理的な利便性のサンプルですが、わずかにより多様なことであると思う(Berinsky, Huber, and Lenz 2012)したがって、単に学生が全てではないがいくつかの実験的研究のための合理的な集団であるとして、Turkersはいくつかのすべてではなく、研究のための合理的な集団です。あなたはTurkersで作業しようとしている場合は、これらの比較研究の多くを読み、そのニュアンスを理解することが理にかなっています。

第二に、研究者はトルコ実験の内部妥当性を高めるためのベストプラクティスを開発している、とあなたが学び、これらのベストプラクティスに従う必要があります(Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012)例えば、Turkersを使用して、研究者が脇見参加削除するために検査官を使用することが推奨され(Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016)だけでなく、参照のDJ Hauser and Schwarz (2015b)DJ Hauser and Schwarz (2015a) )。あなたは不注意な参加者を削除しない場合、その後の治療のいずれかの効果が脇見参加者から導入されたノイズによって洗い流すことができ、実際には不注意な参加者の数はかなりのことができます。フーバーや同僚の実験では(2012)参加者の約30%は、基本的な注意ふるいに失敗しました。 Turkersと共通のもう一つの問題は、非ナイーブ参加者である(Chandler et al. 2015)

第三に、デジタル実験のいくつかの他の形態と比較して、MTurk実験は拡張性はありません。 Stewart et al. (2015)任意の時点でMTurk上の唯一の約7000人がいると推定しています。

最後に、あなたはMTurkは、独自のルールや規範を持つコミュニティであることを知っている必要があり(Mason and Suri 2012)あなたがあなたの実験を実行するつもりだった国の文化を知るしようとするだろうと同じように、あなたはTurkersの文化や規範についての詳細を調べるようにしてください(Salehi et al. 2015)あなたが不適切または非倫理的な何かを行う場合と、あなたはTurkersがあなたの実験の話をされることを知っている必要があります(Gray et al. 2016)

MTurkは、次のような、彼らは実験室等であるかどうか、あなたの実験に参加者を募集するために非常に便利な方法であるHuber, Hill, and Lenz (2012)のような、またはそれ以上のフィールドのような、 Mason and Watts (2009) Goldstein, McAfee, and Suri (2013) Goldstein et al. (2014)Horton and Zeckhauser (2016)およびMao et al. (2016)

  • 独自の製品を構築する(セクション4.5.1.3)

独自の製品を作成しようと考えている場合、私はあなたがMovieLensグループによって提供されるアドバイスお読みになることをお勧めHarper and Konstan (2015)自分の経験から重要な洞察は、各プロジェクトの成功のために多くの、多くの障害があるということです。例えば、MovieLensグループは、このような完全な失敗だったGopherAnswersとして他の製品を市場に投入しました(Harper and Konstan 2015)製品を構築しようとしたときに失敗した研究者の別の例は、アーデンと呼ばれるオンラインゲームを構築するためのエドワードCastronovaの試みです。資金調達で$ 250,000にもかかわらず、プロジェクトはフロップだった(Baker 2008) GopherAnswersとアーデンのようなプロジェクトは、残念ながらはるかに一般的MovieLensのようなプロジェクトよりも。 1)参加者はので、それは例えば、彼らが支払われていない(それらを提供するものの製品を使用し、そうではありません:私は正常に繰り返される実験のための製品を作っていた他の研究者の知らなかったことを言ったときに最後に、ここで私の基準であります科学を助けるボランティア)と2)製品は、複数の別個の実験(異なる参加者のプール付きすなわち、ない同じ実験を複数回)のために使用されています。あなたは他の例を知っている場合は、私に知らせてください。

  • 強力な(4.5.2)と提携

私は、ハイテク企業で頻繁に議論パスツールのクアドラントのアイデアを聞いた、そしてそれは、Googleでの研究活動を整理するのに役立ちます(Spector, Norvig, and Petrov 2012)

ボンドと同僚の研究(2012)また、それらを受け取った人たちの友人にこれらの治療の効果を検出しようとします。そのため、実験の設計により、これらのスピルオーバーはきれいに検出することは困難です。興味のある読者は見るべきBond et al. (2012)より徹底的な議論のために。この実験は、投票促進するための努力に政治学の実験の長い伝統の一部であり(Green and Gerber 2015)彼らはパスツールのクアドラントにあるため、これらの投票推進運動の実験は、一部に共通しています。つまり、行動変容と社会的影響についてのより一般的な理論をテストするための興味深い挙動することができ、投票や投票を高めるために動機づけられている多くの人々が存在する、です。

他の研究者は、政党やNGO、企業などのパートナー組織でフィールド実験を実行に関するアドバイスを提供してきた(Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002)その他は、組織とのパートナーシップは、研究デザインに影響を与えることができる方法についてのアドバイス提供してきました(Green, Calfano, and Aronow 2014; King et al. 2007)パートナーシップはまた、倫理的な問題につながることができます(Humphreys 2015; Nickerson and Hyde 2016)

  • デザインのアドバイス(4.6節)

あなたの実験を実行する前に、解析計画を作成するつもりなら、私はあなたが報告ガイドラインを読むことから始めていることを示唆しています。 CONSORTガイドライン(試行の連結標準レポート)が医学で開発された(Schulz et al. 2010)や社会調査のために修正された(Mayo-Wilson et al. 2013)ガイドラインの関連する一連の実験政治学のジャーナルの編集者によって開発された(Gerber et al. 2014)参照Mutz and Pemantle (2015)Gerber et al. (2015)最後に、報告ガイドラインは、心理学で開発されている(Group 2008)および参照Simmons, Nelson, and Simonsohn (2011)

あなたは、分析計画を作成する場合は事前登録が他の人があなたの結果を持っている自信が増加しますので、あなたはそれを事前に登録を検討する必要があります。あなたはパートナーと作業している場合はさらに、それは結果を見た後、分析を変更するにはあなたのパートナーの能力を制限します。事前登録は心理学でますます一般的になってきている(Nosek and Lakens 2014)政治学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)経済(Olken 2015)

あなたの事前分析計画を作成するときには、いくつかの研究者はまた、推定治療効果の精度を向上させるために回帰および関連のアプローチを使用して、このアプローチに関するいくつかの議論があることを認識しておく必要がありますFreedman (2008) Lin (2013) 、とBerk et al. (2013)参照Bloniarz et al. (2016)詳細については。

オンラインフィールド実験のための具体的なデザインのアドバイスもに提示されKonstan and Chen (2007)Chen and Konstan (2015)

  • ゼロ変動費データを作成します(4.6.1項)

MusicLab社の実験の詳細については、を参照してくださいSalganik, Dodds, and Watts (2006) Salganik and Watts (2008) Salganik and Watts (2009b) Salganik and Watts (2009a)およびSalganik (2007)勝者がすべての市場の詳細については、 Frank and Cook (1996)より一般的にuntangling運とスキルの詳細については、 Mauboussin (2012) Watts (2012)およびFrank (2016)

徴兵制:研究者は注意して使用する必要があり、参加者の支払いを排除する別のアプローチがあります。多くのオンラインフィールド実験では参加者は基本的に実験に徴兵、決して補償されます。このアプローチの例としては、Restivoとバン・デ・Rijtの含まれる(2012) Wikipediaや債券で報酬と同僚の上で実験(2012)投票する人を奨励する上で実験を。これらの実験は、本当にゼロ変動費を持っていない、彼らは研究者にゼロ変動費を持っています。これらの実験の多くの費用が各参加者に非常に小さいですが、小さな費用は参加者の膨大な数はすぐに追加することができます課しました。大規模なオンライン実験を実行している研究者は、多くの場合、多くの人に適用された場合に、これらの小さな効果が重要になることができると言って、小さな推定治療効果の重要性を正当化します。まったく同じ考え方は、研究者が参加者に課すコストに適用されます。あなたの実験は1分を無駄に1万人が発生した場合、実験は、いかなる特定の人に非常に有害ではないですが、合計で、それは時間のほぼ2年間を無駄にしています。

参加者にゼロ変動費の支払いを作成するための別のアプローチは、宝くじ、また、調査研究に用いられてきたアプローチを使用することです(Halpern et al. 2011)最後に、楽しいユーザー・エクスペリエンスの設計の詳細を参照Toomim et al. (2011)

  • 交換し、絞り込み、および(4.6.2)を削減

ここからの3つのRの元の定義は、あるRussell and Burch (1959)

「交換は、知覚のない材料を意識住む高等動物のための置換を意味します。減少は、所定量と精度の情報を得るために使用される動物の数の減少を意味します。改良は、非人道的な手続の発生率または重症度の低下は、まだ使用されなければならないそれらの動物に適用を意味します。」

私は第6章で説明した倫理原則をオーバーライドしない提案する3つのRのはむしろ、彼らは人体実験の設定のためのこれらの原則-善行特異的に、より精巧なバージョンの一つです。

感情的な伝染を考えるとき、この実験を解釈するときに心に留めておくべき3つの非倫理的な問題があります。まず、実験の実際の詳細は理論上のクレームに接続する方法は明らかではありません。言い換えれば、構成概念妥当性についての質問があります。ことが明らかではありません)1)人々が投稿言葉が自分の感情と2の良好な指標であることは明らかでないため、正と負のワードカウントが実際に参加者の感情の状態の良い指標であることは明らかではありません研究者は、使用される特定の感情分析技術は確実に感情を推測することができます(Beasley and Mason 2015; Panger 2016)つまり、バイアスされた信号の悪い指標があるかもしれません。第二に、実験の設計と解析は、私たちに最も影響を受けた(すなわち、治療効果の不均一性のない分析はありません)機構が何であるかだれについて何も伝えていません。この場合、研究者は、参加者についての情報をたくさん持っていたが、それらは本質的分析のウィジェットのように処理しました。第三に、この実験での効果の大きさは非常に小さかったです。治療と対照条件間の差は約1千の言葉です。彼らの論文では、クレイマーらは何億人もの人々が自分のニュースが毎日フィードにアクセスするので、このサイズの効果は重要であるケースを作ります。言い換えれば、彼らは総計で大きいです一人一人のために小さいことがあっても効果を主張しています。この引数を受け入れたとしても、このサイズの効果は感情的な伝染病に関するより一般的な科学的疑問について重要である場合、それはまだ明らかではありません。小さ ​​な効果が重要である状況の詳細についてを参照してくださいPrentice and Miller (1992)

感情伝染実験比較する最初のR(交換)、という点では(Kramer, Guillory, and Hancock 2014)感情的な伝染病自然実験(Coviello et al. 2014)からの移動に伴うトレードオフに関するいくつかの一般的なレッスンを提供しています自然の実験と実験(非実験データでの実験を近似しようと試みると一致するような他のアプローチ、第2章を参照してください)​​。倫理的な利点に加えて、非実験的研究への実験からの切り替えはまた、彼らはロジスティック展開することができない治療法を研究する研究者を可能にします。これらの倫理的および物流の利点は、しかし、コストで来ます。自然の実験と研究者は少なく、参加者の募集のようなものを制御、無作為化、および治療の性質を持っています。例えば、治療として降雨の制限は、両方が陽性を増加させ、陰性を減少させることです。実験的研究では、しかし、クレイマーらは独立して陽性と陰性を調整することができました。

で使用される特定のアプローチCoviello et al. (2014)においてさらに精緻化されたCoviello, Fowler, and Franceschetti (2014)操作変数の概要については参照Angrist and Pischke (2009)以下、正式な)またはAngrist, Imbens, and Rubin (1996)より正式な)。操作変数の懐疑的な評価を参照Deaton (2010)および弱い機器(雨が弱い楽器です)と操作変数の概要については、以下を参照してくださいMurray (2006)

より一般的には、自然の実験と良い紹介ですDunning (2012)およびRosenbaum (2002) Rosenbaum (2009)およびShadish, Cook, and Campbell (2001)の実験なしに因果効果の推定について良いアイデアを提供しています。

第2のR(リファイン)の面では、記事を後押しする投稿をブロックするから感情伝染の設計変更検討し、科学と物流のトレードオフがあります。例えば、それはニュースフィードの技術的な実装は、記事を後押しして実験するのではなく投稿をブロックして実験を行うために、実質的に容易である作る場合であってもよい(投稿をブロックすると実験は上の層として実装することができることに注意してください基礎となるシステムの変更を必要とせずにニュースフィードシステムのトップ)。科学的には、しかし、実験によって対処理論は明らかに他の上の1つのデザインを示唆しませんでした。

残念ながら、私はニュースフィードのコンテンツをブロックし、ブーストの相対的な利点についての実質的な事前の調査を認識していないです。また、私は彼らが害が少ないようにする治療法を精緻化について多くの研究を見ていません。唯一の例外はあるJones and Feamster (2015)インターネットの検閲の測定の場合と見なし、(私はアンコールの研究との関係では、第6章で議論するトピックを(Burnett and Feamster 2015; Narayanan and Zevenbergen 2015)

第三のR(削減)の観点では、伝統的な電力解析への良好な導入があるCohen (1988)前処理の共変量は、設計段階実験の分析段階に含めることができます。第4章Gerber and Green (2012) 、両方のアプローチの入門を提供し、 Casella (2008)詳細な治療を提供します。ランダム化におけるこの前処理情報を使用する技術は、典型的には、いずれかの実験的なデザインや成層実験計画を(用語は社会全体で一貫して使用されていない)がブロックと呼ば​​れています。これらの技術は、第3章を参照してくださいに議論層化サンプリング技術に深く関連しているHiggins, Sävje, and Sekhon (2016)大規模な実験でこれらのデザインを使用しての詳細については。前処理の共変量はまた、分析段階に含めることができる。 McKenzie (2012)より詳細にフィールド実験を解析する差分イン差アプローチを探ります。参照してくださいCarneiro, Lee, and Wilhelm (2016)治療効果の推定値の精度を高めるために異なるアプローチ間のトレードオフの詳細については。設計や解析段階(あるいはその両方)で前処理共変量を含めるようにしようとするか否かを決定する場合最後に、考慮すべきいくつかの要因があります。研究者は、彼らが「釣り」ではないことを示したい設定で(Humphreys, Sierra, and Windt 2013)設計段階での前処理共変量を使用すると役立つことがあります(Higgins, Sävje, and Sekhon 2016)参加者が順次到着する状況で、特にオンライン分野の実験では、設計段階で前処理情報を用いて、例えば参照、ロジスティック難しいかもしれXie and Aurisset (2016)

それは違い--違いでは差で-手段よりもずっと効果的である理由について直感のビットを追加する価値があります。多くのオンライン結果は非常に高い分散を有する(参照例えば、 Lewis and Rao (2015)Lamb et al. (2015)および時間にわたって比較的安定しています。この場合、変化スコアは統計的検定のパワーを増加させる、実質的に小さい分散を有することになります。これはより頻繁に使用されていない近づい一つの理由は、デジタル時代の前には、前処理の結果を持ってするのが一般的ではなかったということです。それについて考えるために、より具体的な方法は、特定のエクササイズは、体重減少を引き起こすかどうかを測定するための実験を​​想像することです。あなたは違い・イン・手段のアプローチを行う場合は、あなたの推定値は母集団における重みの変動から来る変動性を持つことになります。あなたは違い-で差アプローチを行う場合は、しかし、重みで、天然ばらつきが削除されると、あなたはより簡単に処理による差を検出することができます。

あなたの実験の参加者数を減少させるための1つの重要な方法は、クレイマーらはによって自然実験から観察された効果の大きさに基づいて行っている可能性が電力解析、実施することであるCoviello et al. (2014)やクレイマーによる初期の非実験的研究(2012)実際にはこれらは、この章の最後に活動しています)。電力解析のこの使用は、典型的なよりも少し異なっていることに注意してください。アナログ時代には、研究者は、一般的に彼らの研究では小さすぎではなかったことを確認するために、電力解析を行った(すなわち、アンダーパワード)。しかし、現在では、研究者が自分の研究があまり大きくないことを確認するために、電力解析を行う必要があります(つまり、オーバーパワード)。

再利用:最後に、私は第四のRを追加する考え。つまり、研究者は、彼らが元の研究課題に対処するために必要以上の実験データと自分自身を見つけた場合、彼らは新しい質問をするためにデータを再利用する必要があり、です。例えば、クレイマーらは違い・イン・相違推定器を使用し、その研究課題に対処するために必要以上のデータと自分自身を発見したと想像してみてください。むしろ最大限にデータを使用していない以上、彼らは前処理感情表現の関数としての効果の大きさを研究している可能性があります。同じようSchultz et al. (2007) 、治療の効果は、おそらくニュースフィードの効果はすでに幸せ(または悲しい)メッセージを投稿する傾向にあった人々のために異なっていた、光とヘビーユーザーのために異なっていたことがわかりました。再利用すると、「釣り」につながる可能性(Humphreys, Sierra, and Windt 2013)と「P-ハッキング」 (Simmons, Nelson, and Simonsohn 2011)が、これらは主に正直な報告の組み合わせでアドレス指定されている(Simmons, Nelson, and Simonsohn 2011) 、事前登録(Humphreys, Sierra, and Windt 2013)およびオーバーフィッティングを回避しようとする機械学習法。