社会調査における因果関係についての質問は、しばしば複雑で複雑です。因果関係グラフに基づく因果関係の根本的なアプローチについては、 Pearl (2009)参照し、潜在的な結果に基づく基礎的アプローチについては、 Imbens and Rubin (2015)参照してください。これらの2つのアプローチの比較については、 Morgan and Winship (2014)参照してください。 confounderを定義する正式なアプローチについては、 VanderWeele and Shpitser (2013)参照してください。
この章では、実験データと非実験データから原因推定を行う能力の間に明るい線のように見えるものを作成しました。しかし、私は実際には、その区別がよりぼやけていると思います。たとえば、喫煙を強制する無作為化された制御実験はこれまでに行われていないにもかかわらず、誰もが喫煙によって癌を引き起こすと受け入れています。非実験データから因果推定を行うことで優秀な本の長さの治療のために参照Rosenbaum (2002) ( ??? ) Shadish, Cook, and Campbell (2001)およびDunning (2012)
Freedman, Pisani, and Purves (2007)第1章と第2章では、実験、制御された実験、無作為化された実験の違いを明確に紹介しています。
Manzi (2012)は、ランダム化された制御実験の哲学的および統計的基礎を魅力的で読みやすい形で紹介しています。また、ビジネスにおける実験の力の興味深い現実的な例を提供します。 Issenberg (2012)は、政治運動における実験の使用について魅力的な紹介を提供しています。
Box, Hunter, and Hunter (2005) 、@ casella_statistical_2008、 Athey and Imbens (2016b)は、実験デザインと分析の統計的側面をよく紹介しています。経済学:さらに、さまざまな分野での実験の使用の優れた治療法がある(Bardsley et al. 2009)社会学(Willer and Walker 2007; Jackson and Cox 2013)心理学(Aronson et al. 1989)政治学は、 (Morton and Williams 2010) 、社会政策(Glennerster and Takavarasha 2013) 。
参加者募集(サンプリングなど)の重要性は、しばしば実験的研究では評価されていない。しかし、集団において治療の効果が異質である場合、サンプリングが重要である。 Longford (1999)は、実験を危険なサンプリングを伴う人口調査として考えている研究者を主張するとき、この点を明確にしている。
私は実験室と実地実験の間に連続性があることを示唆しており、他の研究者はより詳細な類型学、特に様々な形式の実地実験を分離するものを提案している(Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) 。
いくつかの論文では、要約(Falk and Heckman 2009; Cialdini 2009)と政治学における特定の実験(Coppock and Green 2015) 、経済学(Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) 、心理学(Mitchell 2012)ます。 Jerit, Barabas, and Clifford (2013)は、実験室や実地実験の結果を比較する素晴らしいリサーチデザインを提供しています。 Parigi, Santana, and Cook (2017)は、オンラインフィールド実験が実験室と現地実験の特性のいくつかをどのように組み合わせることができるかを説明しています。
参加者が厳密に観察されていることを知って行動を変えることに対する懸念は、時には需要効果と呼ばれ、心理学(Orne 1962)と経済学(Zizzo 2010)研究されています。大部分は実験室実験に関連していますが、これらの同じ問題は現場実験にも問題を引き起こす可能性があります。実際、 需要の影響はホーソン効果と呼ばれることもあり、1924年にWestern Electric CompanyのHawthorne Works (Adair 1984; Levitt and List 2011)で始まった有名な照明実験を引き出す用語です。 需要効果とホーソン効果は、第2章で議論された反応性測定の考え方と密接に関連している( Webb et al. (1966)も参照)。
現地実験は経済学(Levitt and List 2009) 、政治学(Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) 、心理学(Shadish 2002) 、および公共政策(Shadish and Cook 2009) 。現場実験が急速に顕著になった社会科学分野の1つは、国際的な発展です。 Banerjee and Duflo (2009) 、批判的評価については、 Deaton (2010)参照してください。政治学におけるこの研究の概説については、 Humphreys and Weinstein (2009) 。最後に、現場実験から生じる倫理的課題は、政治学(Humphreys 2015; Desposato 2016b)と開発経済学(Baele 2013)の文脈で探究されている。
このセクションでは、治療前の情報を用いて、推定される治療効果の精度を向上させることができると示唆したが、このアプローチについてはいくつかの議論がある。 Freedman (2008) 、 W. Lin (2013) 、 Berk et al. (2013) 、 Bloniarz et al. (2016)を参照してください。
最後に、研究室の次元に沿ってうまく適合しない社会科学者の実験には、調査実験と社会実験の2つのタイプがあります。 調査実験は、既存の調査のインフラストラクチャを使用した実験であり、同じ質問の代替バージョンに対する回答を比較しています(いくつかの調査実験は第3章で提示されています)。調査実験の詳細は、 Mutz (2011)参照してください。 社会実験とは、治療が政府によってのみ実現可能な社会政策である実験のことです。社会実験はプログラム評価と密接に関連しています。政策実験の詳細については、 Heckman and Smith (1995) 、 Orr (1998) 、および@ glennerster_running_2013を参照してください。
私は、妥当性、治療効果の異質性、メカニズムという3つの概念に焦点を当てることにしました。これらの概念は、異なるフィールドで異なる名前を持っています。例えば、心理学者は、 仲介者とモデレーターに焦点を当てて簡単な実験を超えて動く傾向がある(Baron and Kenny 1986) 。仲介者のアイデアは、私がメカニズムと呼ぶものによって捕捉され、司会者の考えは、私が外的妥当性と呼ぶもの(例えば、異なる状況で実験した場合の実験の結果が異なる)と治療効果の異質性例えば、ある人にとっては他人よりも大きな効果である)。
Schultz et al. (2007)実験は、 Schultz et al. (2007)は、社会的理論をどのように効果的な介入を設計するために用いることができるかを示している。効果的な介入の設計における理論の役割についてのより一般的な議論については、 Walton (2014)参照のこと。
内的および外的妥当性の概念は、 Campbell (1957)によって最初に導入された。 Shadish, Cook, and Campbell (2001)を参照すると、統計的結論の有効性、内的妥当性、構築の妥当性、外部の妥当性の詳細な歴史と注意深い精緻化が得られる。
実験における統計的結論の妥当性に関する問題の概要は、 Gerber and Green (2012) (社会科学の観点から)およびImbens and Rubin (2015)統計的観点からImbens and Rubin (2015) ( Imbens and Rubin (2015)参照。オンラインフィールド実験で特に発生する統計的結論妥当性のいくつかの問題には、従属データによる信頼区間を作成する計算上効率的な方法(Bakshy and Eckles 2013)などの問題が含まれます。
複雑な現場実験では、内部の妥当性を保証することは困難です。投票に関する複雑なフィールド実験の実施に関する議論については、例えばGerber and Green (2000) 、 Imai (2005) 、およびGerber and Green (2005)をGerber and Green (2005)れたい。 Kohavi et al. (2012)およびKohavi et al. (2013)は、オンラインフィールド実験における区間有効性の課題について紹介しています。
内部の妥当性に対する主な脅威の1つは、ランダム化の失敗の可能性です。ランダム化の問題を検出する1つの可能性のある方法は、観察可能な形質に対する治療群および対照群を比較することである。この種の比較は残高照合と呼ばれます。バランスチェックに関する懸念については、 Hansen and Bowers (2008) Mutz and Pemantle (2015)統計的アプローチについては、たとえば、バランスチェックを使用して、 Allcott (2011)は、Opower実験の3つでランダム化が正しく実装されていないといういくつかの証拠を見つけました(表2、サイト2,6、および8参照)。他のアプローチについては、 Imbens and Rubin (2015)第21章を参照してください。
内的妥当性に関するその他の主な懸念事項は、(1)治療グループの全員が実際に治療を受けていない一方的な非準拠、(2)治療グループの全員が治療を受けていない両側の非準拠、 (3)いくつかの参加者のために結果が測定されない場合の麻痺、および(4)治療状態の人々から制御状態の人々への治療が流出する干渉。これらの問題の詳細については、 Gerber and Green (2012)第5章、第6章、第7章、第8章を参照してください。
構築の妥当性の詳細については、 Westen and Rosenthal (2003) 、および大規模データソースの構築の有効性について、 Lazer (2015)および本書の第2章を参照してください。
外部有効性の1つの側面は、介入がテストされる設定である。 Allcott (2015)は、敷地選択バイアスの慎重な理論的かつ経験的な取り扱いを提供する。この問題は、 Deaton (2010)でも議論されています。外部の妥当性のもう一つの側面は、同じ介入の代替的な運用が同様の効果を有するかどうかである。この場合、 Schultz et al. (2007)およびAllcott Allcott (2011)は、Opult実験がSchultzらの最初の実験よりも治療効果の推定値が小さいことを示しています(1.7%対5%)。 Allcott (2011)は、フォローアップ実験では治療法が異なるため、効果が小さいと推測しています。大量生産された絵文字と比較して、大学が主催する研究の一環として手書きの絵文字電力会社からの報告。
現地実験における治療効果の異質性の優れた概要については、 Gerber and Green (2012)第12章を参照のこと。 Kent and Hayward (2007) 、 Longford (1999) 、 Kravitz, Duan, and Braslow (2004)参照して、医療試験における治療効果の異質性への導入については、治療効果の異質性の考察は、一般に、治療前の特性に基づく差異に焦点を当てている。治療後アウトカムに基づく異質性に興味がある場合は、主要な層別化(Frangakis and Rubin 2002)などのより複雑なアプローチが必要です。 Page et al. (2015)をレビューしました。
多くの研究者が線形回帰を用いて治療効果の異質性を推定しているが、新しい方法は機械学習に依存している。たとえばGreen and Kern (2012) 、 Imai and Ratkovic (2013) 、 Taddy et al. (2016) 、 Athey and Imbens (2016a) 。
複数の比較問題と「釣り」のために、影響の異質性の発見に関する疑念がある。複数の比較に関する懸念に取り組むさまざまな統計的アプローチがある(Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) 。 「釣り」に関する懸念の1つのアプローチは、心理学(Nosek and Lakens 2014) 、政治科学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013)ますます一般的になっている事前登録(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) 、経済学(Olken 2015)ます。
Costa and Kahn (2013)の調査では、実験の世帯の約半数しか人口統計情報にリンクすることができなかった。これらの詳細に興味のある読者は元の論文を参照する必要があります。
メカニズムは非常に重要ですが、研究が非常に難しいと判明しています。メカニズムに関する研究は、心理学におけるメディエーターの研究と密接に関連している(しかし、2つのアイデアの正確な比較についてはVanderWeele (2009)も参照)。 Baron and Kenny (1986)で開発されたアプローチのようなメカニズムを発見するための統計的アプローチは、かなり一般的です。残念なことに、これらの手続きはいくつかの強い仮定(Bullock, Green, and Ha 2010)依存し、多くの状況で期待されるような複数のメカニズムがある場合に苦しんでいることが判明している(Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) 。 Imai et al. (2011) 、 Imai and Yamamoto (2013)はいくつかの統計的手法を改善している。さらに、 VanderWeele (2015)は、感度分析に対する包括的なアプローチを含む、多くの重要な成果を挙げた本の長さの治療法を提供しています。
別のアプローチは、メカニズムを直接操作しようとする実験(例えば、船員にビタミンCを与える)に焦点を当てています。残念なことに、多くの社会科学の場面では、しばしば複数の仕組みがあり、他のものを変えずに変化させる治療法を設計することは難しい。実験的にメカニズムを変更するためのいくつかのアプローチは、 Imai, Tingley, and Yamamoto (2013) 、 Ludwig, Kling, and Mullainathan (2011) 、 Pirlott and MacKinnon (2016)によって記述されています。
完全な階乗実験を行っている研究者は、複数の仮説検定を心配する必要があります。詳細については、 Fink, McConnell, and Vollmer (2014) 、 List, Shaikh, and Xu (2016)を参照してください。
最後に、メカニズムはまた、 Hedström and Ylikoski (2010)によって記述された科学哲学の長い歴史を持っています。
差別を測定するための通信研究と監査調査の使用については、 Pager (2007)参照してください。
あなたが構築する実験に参加者を募集する最も一般的な方法は、Amazon Mechanical Turk(MTurk)です。 MTurkは従来の実験室の実験を模倣しています。つまり、無料ではない作業を完了するために人々に支払うことです。多くの研究者が実験参加者としてTurkers(MTurkの労働者)を使用し始めています。 (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012)
一般に、MTurkから採用された参加者を使用する最大の利点はロジスティックです。ラボ実験には数週間かかりますが、フィールド実験には数カ月かかることがありますが、MTurkから集められた参加者の実験は数日で実行できます。たとえば、 Berinsky, Huber, and Lenz (2012)は、1日に400人の被験者を募集し、8分間の実験に参加することができました。さらに、これらの参加者は、事実上あらゆる目的(第3章および第5章で論じられているように、調査と大規模な共同作業を含む)で募集することができます。採用の容易さは、研究者が一連の関連する実験を迅速に連続して実行できることを意味します。
あなた自身の実験のためにMTurkから参加者を募集する前に、あなたが知る必要がある4つの重要なことがあります。第一に、多くの研究者はTurkersを含む実験の非特異的な懐疑論を持っています。この懐疑論は具体的ではないので、証拠に抗するのは難しい。しかし、Turkersを使った数年の研究の後、我々は今この懐疑主義が特に正当化されていないと結論づけることができる。 Turkersの人口統計を他の人口と比較して多くの研究が行われており、多くの研究がTurkersと他の人口の実験結果を比較しています。このことを考えれば、トルコ人は、学生のように、少しばかり多様性がある(Berinsky, Huber, and Lenz 2012) 、合理的な利便性の標本であるということが、あなたにとって最良の考え方だと思います。したがって、学生はすべての研究ではなく一部の研究の合理的な人口であるように、トルコ人は全部ではないが一部の研究について合理的な人口である。 Turkersと仕事をする場合は、これらの比較研究の多くを読んでニュアンスを理解することが理にかなっています。
第2に、研究者はMTurk実験の内部妥当性を高めるためのベストプラクティスを開発しました。これらのベストプラクティスについて学び、従うべきです(Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) 。たとえば(Berinsky, Margolis, and Sances 2014, 2016)を使用している研究者は、不注意な参加者(Berinsky, Margolis, and Sances 2014, 2016) (ただし、 DJ Hauser and Schwarz (2015b)およびDJ Hauser and Schwarz (2015a)も参照(Berinsky, Margolis, and Sances 2014, 2016)を削除するためにスクリーナを使用することが推奨されます。あなたが不注意な参加者を削除しない場合、治療の効果は、彼らが紹介する騒音によって洗い流され、実際には不注意な参加者の数は相当なものになります。 Huberら(2012)の実験では、参加者の約30%が基本的な注意スクリーナーに失敗しました。トルコ人が使用されるときに一般に生じる他の問題は、非ナイーブな参加者(Chandler et al. 2015)および衰弱(Zhou and Fishbach 2016) 。
第3に、いくつかの他の形式のデジタル実験と比較して、MTurk実験はスケールできません。 Stewart et al. (2015)は、いつでもMTurkに約7,000人しかいないと推定しています。
最後に、MTurkは独自のルールと規範(Mason and Suri 2012)持つコミュニティであることを知っておく必要があります。あなたの実験を行う国の文化について調べるのと同じ方法で、Turkersの文化や規範についてもっと調べてみるべきです(Salehi et al. 2015) al。2015 (Salehi et al. 2015) 。不適切なことや非倫理的なことをすると、トルコ人があなたの実験を話すことになるはずです(Gray et al. 2016) al。2016 (Gray et al. 2016) 。
MTurkはHuber, Hill, and Lenz (2012)ような実験室的なものであろうと、 Mason and Watts (2009)ようなもっとフィールド的なものであろうと、参加者をあなたの実験に募集するのに非常に便利な方法です。 、 Goldstein, McAfee, and Suri (2013) 、 Goldstein et al. (2014) 、 Horton and Zeckhauser (2016) 、およびMao et al. (2016) 。
独自の製品を作成しようと考えている場合は、 Harper and Konstan (2015) MovieLensグループが提供するアドバイスを読むことをお勧めします。彼らの経験からの重要な洞察は、成功したプロジェクトごとに多くの失敗があることです。たとえば、MovieLensグループは、GopherAnswersなどの完全な障害(Harper and Konstan 2015)などの他の製品(Harper and Konstan 2015) 。製品を作りようとしていない研究者のもう一つの例は、アーデンと呼ばれるオンラインゲームを開発しようとしているエドワードカスドロノバの試みです。資金は25万ドルでしたが、プロジェクトはフロップでした(Baker 2008) 。 GopherAnswersやArdenのようなプロジェクトは、残念ながらMovieLensのようなプロジェクトよりはるかに一般的です。
私は、ハイテク企業で頻繁に議論されているPasteur's Quadrantのアイデアを聞いたことがあり、Googleでの研究活動の組織化に役立っています(Spector, Norvig, and Petrov 2012) 。
ボンドと同僚の研究(2012)も、これらの治療法を受けた者の友人に対するこれらの治療の効果を検出しようと試みている。実験の設計のために、これらのスピルオーバーはきれいに検出するのが難しい。興味のある読者はBond et al. (2012)を参照してください。ジョーンズと同僚(2017)も2012年の選挙で非常に似た実験を行った。これらの実験は、投票を促進する努力に関する政治学における実験の長い伝統の一部である(Green and Gerber 2015) 。これらの退場投票実験は、パスツールの四分円にあるため、一部に共通しています。つまり、投票や投票を増やすよう動機付けられている多くの人々が、行動変化や社会的影響についてより一般的な理論をテストするための興味深い行動になることがあります。
政党、NGO、企業などのパートナー組織とのフィールド実験については、 Loewen, Rubenson, and Wantchekon (2010) 、 JA List (2011) 、 Gueron (2002) 。組織とのパートナーシップが研究デザインにどのように影響を与えるかについての考え方については、 King et al. (2007) 、 Green, Calfano, and Aronow (2014)ます。パートナーシップは、 Humphreys (2015)とNickerson and Hyde (2016)議論したように、倫理的な問題につながる可能性もあります。
実験を実行する前に分析プランを作成する場合は、まずレポート作成ガイドラインを読んでおくことをおすすめします。 CONSORT(Consolidated Standard Reporting of Trials)ガイドラインは、医学(Schulz et al. 2010) al。2010)で開発され、社会調査用に修正された(Mayo-Wilson et al. 2013) 。関連する一連のガイドラインは、 Journal of Experimental Political Science (Gerber et al. 2014) Mutz and Pemantle (2015) (Gerber et al. 2014)の編集者によって開発された( Mutz and Pemantle (2015)およびGerber et al. (2015) Mutz and Pemantle (2015)も参照)。最後に、心理学(APA Working Group 2008) 、およびSimmons, Nelson, and Simonsohn (2011)も参照して、報告ガイドラインが作成されました。
分析プランを作成する場合は事前登録を検討する必要があります。事前登録を行うと、結果に他人が持つ信頼性が高まるためです。さらに、パートナーと仕事をしている場合、結果を見た後に分析を変更するパートナーの能力が制限されます。事前登録は、心理学(Nosek and Lakens 2014) 、政治科学(Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) 、経済学(Olken 2015)ますます一般的になりつつあります。
Konstan and Chen (2007)とChen and Konstan (2015)は、オンラインフィールド実験のための特別なアドバイスが掲載されています。
私が「武器戦略」と呼んできたのは、時々 プログラム研究と呼ばれています 。 Wilson, Aronson, and Carlsmith (2010)参照してください。
MusicLab実験の詳細については、 Salganik, Dodds, and Watts (2006) 、 Salganik and Watts (2008) 、 Salganik and Watts (2009b) 、 Salganik and Watts (2009a) 、およびSalganik (2007) 。 Winner-Take-All市場の詳細については、 Frank and Cook (1996)参照してください。もっと一般的には、 Mauboussin (2012) 、 Watts (2012) 、 Frank (2016)参照してください。
研究者が慎重に使用すべき参加者の支払いを排除するもう1つのアプローチがあります:徴収。多くのオンラインフィールド実験では、参加者は基本的に実験にドラフトされ、決して補償されません。このアプローチの例としては、WikipediaとBondの報酬に関するRestivoとvan de Rijtの(2012)実験と、投票を促す同僚の(2012)実験があります。これらの実験は実際には可変コストがゼロではなく、むしろ研究者にとって可変コストがゼロです。このような実験では、各参加者のコストが非常に小さい場合でも、総コストは非常に大きくなる可能性があります。大規模なオンライン実験を行っている研究者は、これらの小さな影響が多くの人々に適用されるときに重要になる可能性があると言って、推定される治療効果の重要性を正当化することがよくあります。研究者が参加者に課すコストには、まったく同じ考え方が適用されます。実験で100万人が1分を浪費した場合、実験は特定の人にあまり有害ではありませんが、総計では2年近くの時間を無駄にしています。
参加者への変動費ゼロの支払いを作成するもう1つの方法は、調査研究でも使用されている方法である宝くじを使用することです(Halpern et al. 2011) 。楽しいユーザーエクスペリエンスの設計の詳細については、 Toomim et al. (2011) 。ボットを使用して変動費ゼロの実験を作成する方法の詳細については、 ( ??? )参照してください。
Russell and Burch (1959)が最初に提案した3つのRは次のとおりです。
「交換は、知覚のない材料を意識住む高等動物のための置換を意味します。減少は、所定量と精度の情報を得るために使用される動物の数の減少を意味します。改良は、非人道的な手続の発生率または重症度の低下は、まだ使用されなければならないそれらの動物に適用を意味します。」
私が提案している3つのRは、第6章で説明されている倫理的な原則を覆すものではありません。むしろ、それらは人間の実験の設定において、特にその恩恵のより精巧なバージョンです。
最初のR(「置換」)に関しては、感情伝染実験(Kramer, Guillory, and Hancock 2014)と感情(Lorenzo Coviello et al. 2014)自然実験(Lorenzo Coviello et al. 2014) )を比較することで、関係するトレードオフについての一般的な教訓が得られます実験から自然実験(および非実験データの実験を近似しようとするマッチングのような他のアプローチ;第2章を参照)。倫理的な利点に加えて、実験的でない実験的な研究に切り替えることで、研究者は論理的に展開できない治療法を研究することができます。しかし、これらの倫理的およびロジスティクス的なメリットはコストがかかります。自然実験では、研究者は参加者の募集、ランダム化、治療の性質などを制御しにくい。例えば、治療として降雨の1つの制限は、陽性を増加させ、陰性を減少させることである。しかし実験的研究では、Kramerらは陽性と陰性を個別に調整することができました。 Lorenzo Coviello et al. (2014)は、 L. Coviello, Fowler, and Franceschetti (2014)によってさらに詳述された。 Lorenzo Coviello et al. (2014)によって使用されている手法である器械的変数の導入については、 Lorenzo Coviello et al. (2014) 、 Angrist and Pischke (2009) (あまりフォーマルでない)、 Angrist, Imbens, and Rubin (1996)機器変数の懐疑的評価については、 Deaton (2010)参照してください。弱い機器(雨は弱い機器)を備えた機器変数の紹介については、 Murray (2006)参照してください。より一般的には、自然の実験との良好な導入はで与えられるDunning (2012)ながら、 Rosenbaum (2002) ( ??? )およびShadish, Cook, and Campbell (2001)の実験なしに因果効果の推定について良いアイデアを提供します。
2番目のR(「洗練」)では、感情伝染のデザインを投稿をブロックすることから投稿を増強することに変更することを検討する際に、科学的およびロジスティックなトレードオフがあります。たとえば、News Feedの技術的実装によって、投稿がブーストされているものよりもブロックされている実験を行うことが実質的に容易になる場合があります(ただし、投稿のブロックを含む実験を実装できる基本システムの変更を必要とせずにNews Feedシステムの上にあるレイヤーとして)しかし科学的には、この実験で扱われた理論は、他の設計よりも明らかに1つの設計を示唆していなかった。残念ながら、ニュースフィードのコンテンツをブロックしたりブーストしたりすることの相対的なメリットに関する先行研究はほとんど知られていません。また、私はそれらをより有害にするためにトリートメントを洗うことに関する多くの研究を見ていませんでした。 1つの例外はインターネット検閲の測定の事例を考慮したB. Jones and Feamster (2015)である(Encoreの研究(Burnett and Feamster 2015; Narayanan and Zevenbergen 2015)関係で第6章で議論するトピック)。
Cohen (1988) (書籍)とCohen (1992) (記事)、 Gelman and Carlin (2014)は若干異なる見通しを提示しているが、第3のR(「縮小」)に関しては、治療前の共変量は、実験の設計および分析段階に含めることができる。 Gerber and Green (2012)第4章では両方のアプローチについての良い紹介が得られ、 Casella (2008)はより詳細な治療法を提供します。ランダム化でこの前処理情報を使用する手法は、通常ブロックされた実験デザインまたは層別実験デザインと呼ばれます(用語はコミュニティ全体で一貫して使用されません)。これらの技術は、第3章で論じた層別サンプリング手法と密接に関連している。大規模な実験でこれらの設計を使用する方法の詳細については、 Higgins, Sävje, and Sekhon (2016)を参照のこと。治療前共変量も分析段階に含めることができる。 McKenzie (2012)は、フィールド実験をより詳細に分析するための差異アプローチを探求しています。治療効果の推定値の精度を上げるための異なるアプローチ間のトレードオフについてはCarneiro, Lee, and Wilhelm (2016)を参照してください。最後に、設計または分析段階(またはその両方)に治療前共変量を含めるかどうかを決定する際には、考慮すべき要素がいくつかあります。研究者が「釣り」 (Humphreys, Sierra, and Windt 2013)ではないことを示すために、設計段階で治療前共変量を使用することが役立ちます(Higgins, Sävje, and Sekhon 2016) 。参加者が連続して到着する状況、特にオンラインフィールド実験では、設計段階で前処理情報を使用することは論理的に困難な場合があります。たとえば、 Xie and Aurisset (2016)参照してください。
差異の差異アプローチが、差異化アプローチよりもはるかに効果的である理由についての直感を少し追加する価値があります。多くのオンラインアウトカムは非常に高い分散を有しており(例えば、 RA Lewis and Rao (2015)およびLamb et al. (2015)参照)、時間の経過と共に比較的安定している。この場合、変化スコアは実質的により小さい分散を有し、統計的検定の威力を増加させる。このアプローチがより頻繁に使用されない理由の1つは、デジタル時代の前に治療前の結果を得ることは一般的ではなかったことです。より具体的な考え方は、特定の運動ルーチンが体重減少を引き起こすかどうかを測定する実験を想像することです。差別化アプローチを採用すると、推定値には集団の重みの変動から生じる変動性があります。しかし、差異差アプローチを行うと、その自然発生的な体重変化がなくなり、治療によって生じる差異をより簡単に検出することができます。
最後に、4番目のRを追加することを検討しました。つまり、研究者が元の研究課題に対処するよりも多くの実験データで自分自身を見つけた場合、新しい質問をするためにデータを再利用するべきです。たとえば、Kramerとその同僚が差異推定ツールを使用していて、研究課題に対処するために必要なデータよりも多くのデータがあることを想像してください。データを最大限に使用するのではなく、治療前の感情表現の関数として効果の大きさを調べることができました。ちょうどSchultz et al. (2007)は、軽い人と重い人の治療効果が異なることを発見しました。おそらくニュースフィードの効果は、すでに幸せな(または悲しい)メッセージを投稿していた人々にとっては多分でした。 Repurposingは「釣り」 (Humphreys, Sierra, and Windt 2013)と「p-hacking」 (Simmons, Nelson, and Simonsohn 2011)に(Simmons, Nelson, and Simonsohn 2011)可能性がありますが、これらは正直な報告(Simmons, Nelson, and Simonsohn 2011) 、事前登録(Humphreys, Sierra, and Windt 2013) 、および過剰適合を回避しようとする機械学習方法が含まれます。