Bit By Bit - ランニング実験

この翻訳は、コンピュータによって作成されました。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

活動

キー：

難易度：簡単、ミディアム、ハード、非常に難しいです
（数学を必要とします $数学を必要とします$ ）
（コーディングが必要です）
データ収集（）
私のお気に入り（）

[ 、 ] Berinskyや同僚(2012) 3古典的な実験を複製することによって部分的にメカニカルタークを評価します。古典的なアジアの病気フレーミング実験で複製Tversky and Kahneman (1981)あなたの結果が一致ドバスキーとカーネマンのはありますか？あなたの結果はBerinskyや同僚と一致していますか？何-場合何が-んこの調査実験用メカニカルタークを使用してについての私達に教えて？
[ 、 ]というタイトルやや冗談の論文で「私たちは別れるする必要があり、「社会心理学者ロバート・チャルディーニ、の著者の一人Schultz et al. (2007) 、彼があるため、彼は主に研究室の実験を行っ規律（心理学）のフィールド実験をやって直面している課題の一部には、早期の教授として彼の仕事から引退したことを書きました(Cialdini 2009) 。チャルディーニの論文を読み、彼にデジタル実験の可能性に照らして、彼のブレークアップを再考するために彼を促すメールを書きます。彼の懸念に対処する研究の具体的な例を使用してください。
[ ]、小さな初期の成功は、インロックまたは消えていくかどうかを判断バン・デ・Rijtと、同僚のために(2014)ランダムに選択された参加者の成功を贈与4の異なるシステムに介入し、この任意の成功の長期的な影響を測定しました。あなたが同様の実験を実行する可能性がある他のシステムを考えることができますか？科学的価値、アルゴリズム的交絡（第2章を参照してください）、および倫理の問題の観点から、これらのシステムを評価します。
[ 、 ]実験の結果は、参加者に依存することができます。実験を作成し、二つの異なる募集戦略を使用して、アマゾンメカニカルターク（MTurk）上で実行します。結果ができるだけ異なるものになりますように、実験や勧誘戦略を選んでみてください。たとえば、あなたの募集戦略は、朝と夕方の参加者を募集したり、高と低賃金を持つ参加者を補償する可能性があります。募集の戦略の違いこれらの種類は、参加者と異なる実験結果の異なるプールにつながる可能性があります。どのように異なる検索結果が判明したのですか？それはMTurk上で実験を実行するについて何を明らかにしますか？
[ 、 $数学を必要とします$ 、、 ]あなたは感情伝染研究計画していたことを想像してみて(Kramer, Guillory, and Hancock 2014)初期の観察研究からの結果を使用しKramer (2012)各条件で参加者の数を決定します。これら二つの研究は完全に一致していないので、明示的にあなたが作るすべての前提条件を列挙してください：
1. 効果と同じ大きさの効果を検出するために必要とされていたであろうどのように多くの参加者を決定しますシミュレーションを実行しKramer (2012) - \β= 0.8 \ 1）\（\α= 0.05 \）と\とします。
2. 解析的に同じ計算を実行してください。
3. 以下からの結果を考えるとKramer (2012)感情的な伝染病であった(Kramer, Guillory, and Hancock 2014)すなわち、それは必要以上の参加者を持っていなかった）オーバーパワード？
4. あなたの計算に最も大きな影響を持っているあなたが作った仮定、の？
[ 、 $数学を必要とします$ 、、 ]上記の質問に回答し、むしろによる初期の観察研究使用するよりもKramer (2012)によって以前の自然実験からの結果を使用しCoviello et al. (2014) 。
[ ]どちらRijt et al. (2014)とMargetts et al. (2011) 、両方の請願書に署名する人々のプロセスを研究する実験を行います。これらの研究の設計と調査結果を比較対照。
[ ] Dwyer, Maki, and Rothman (2015)社会規範と環境保護の行動との関係にある2つのフィールド実験を行いました。ここでは彼らの論文の要約は次のとおりです。

「どのように心理学は、環境保護の行動を奨励するために利用することができますか？二つの研究では、公共のバスルームに省エネ行動を促進することを目的とした介入は、記述的規範と個人の責任の影響を調べました。誰かがその設定の記述ノルムをシグナリング、空いて公衆トイレに入る前に、研究1では、光の状態（すなわち、オンまたはオフ）を操作しました。参加者は、入力されたとき、彼らはオフだった場合はライトをオフにして有意に多かったです。研究2では、追加の条件は、光をオフにするのノルムが南軍によって実証されたに含まれていますが、参加者はそれをオンに責任を自分自身ではなかったました。個人的な責任は、行動上の社会規範の影響を緩和し、参加者は光をオンにするための責任ではなかったとき、ノルムの影響が減少しました。これらの結果は、環境保護の介入の有効性を調節することができる方法を記述規範と個人の責任を示しています。」

彼らの論文を読み、研究1の複製を設計します。
[ 、 ]前の質問を踏まえ、今あなたの設計を行ってください。
1. 結果の違いは何？
2. どのようなこれらの違いを説明するかもしれませんか？
[ ]アマゾン機械トルコ人から募集参加を用いた実験について、実質的な議論がありました。並行して、また、学部学生の集団から募集参加を用いた実験について、実質的な議論がありました。研究者の参加者としてTurkersと大学生を比較し、対照的な2ページのメモを書きます。あなたの比較は、科学と物流の両方の問題の議論を含める必要があります。
[ ]ジム・マンジの本制御されていない (2012) 、ビジネスにおける実験のパワーに素晴らしい紹介です。本の中で彼はこの物語を中継します：

"私は真のビジネスの天才、実験のパワーの深い、直感的な過小を持っていた自作の億万長者との会談に一度でした。彼の会社は、従来の知恵は、彼らが必要と述べたように、消費者や増加の販売を引き付けるだろう偉大な店のウィンドウディスプレイを作成しようとかなりのリソースを費やしました。慎重に年間にわたって設計した後、および個々のテストレビューセッションでデザインをテストした専門家は、販売上の各新しいディスプレイデザインの有意な因果効果を示さない続けました。シニアマーケティングやマーチャンダイジングの幹部は、全体として、これらの過去のテスト結果を確認するには最高経営責任者（CEO）と会談しました。実験データのすべてを提示した後、彼らは社会通念は間違っ-そのウィンドウが表示され販売を促進しないと結論付けました。その推奨されるアクションは、この分野でのコストと労力を削減することでした。これは劇的に常識を覆す実験の能力を実証しました。最高経営責任者（CEO）の応答は簡単だった：「私の結論は、あなたのデザイナーは非常に良好ではないということです。」彼の解決策は、店舗ディスプレイのデザインに努力を高めるために、新しい人々がそれを行うために取得することでした。」 (Manzi 2012, 158–9)

CEOの懸念は正当性のどのタイプですか？
[ ]前の質問を踏まえ、あなたが実験の結果が議論された会議であったことを想像してみてください。あなたが求めることができる四つの質問、有効性の種類ごとに1は（統計的、構築、内部および外部）は何ですか？
[ ] Bernedo, Ferraro, and Price (2014)に記載さ節水介入の7年間の効果研究Ferraro, Miranda, and Price (2011)図4.10を参照）。本論文では、Bernedoや同僚も持っており、治療が送達された後に移動していない世帯の挙動を比較することにより、効果の背後にあるメカニズムを理解しようとしています。つまり、大体、彼らは治療が家庭や住宅所有者に影響を与えたかどうかを確認してみてください。
1. 紙を読んで、自分の設計を記述し、その結果をまとめたものです。あなたが同じような介入の費用対効果を評価する方法b）の調査結果は、影響を与えていますか？もしそうなら、なぜですか？そうでない場合は、なぜでしょうか？
[ ]へのフォローアップではSchultz et al. (2007)シュルツらは2コンテキスト（ホテルとタイムシェアマンション）に異なる環境行動（タオルの再利用）に記述し、差止命令による規範の効果についての3の一連の実験を行う(Schultz, Khazian, and Zaleski 2008) 。
1. これらの3つの実験の設計と調査結果をまとめました。
2. どのように、仮にあったとしても、彼らはあなたの解釈の変更でくださいSchultz et al. (2007) ？
[ ]に対応してSchultz et al. (2007) Canfield, Bruin, and Wong-Parodi (2016)電気代の設計を研究するために実験室のような一連の実験を行いました。ここで彼らは抽象的にそれを記述する方法は次のとおりです。

「調査ベースの実験では、各参加者は、（b）は隣人との比較、およびアプライアンスの内訳と（c）の歴史的な使用、（a）は、過去の使用についての情報をカバーし、比較的高い電力使用と家族のために仮想的な電気代を見ました。参加者は、（a）は、表を含む（b）の棒グラフ、および（c）のアイコングラフの3つの形式ですべての情報の種類を見ました。我々は、3つの主要な調査結果について報告します。まず、消費者はそれが表に提示された場合に最も、テーブルは単純なポイントの読み取りを容易などの理由で電力使用情報の各タイプを理解していました。第二に、好みや電気を節約する意図は、フォーマットの独立した歴史的な利用情報のための最強でした。第三に、より低いエネルギーリテラシーを持つ個人は、より少ない情報をすべて理解していました。」

他のフォローアップ調査とは異なり、への関心の主な成果Canfield, Bruin, and Wong-Parodi (2016)動作しませ実際の動作が報告されています。省エネルギーを推進し、より広い研究プログラムにおける研究のこのタイプの長所と短所は何ですか？
[ 、 ] Smith and Pell (2003)パラシュートの有効性を実証する研究の風刺的なメタアナリシスです。彼らは結論します：

「病気を未然に防止するためのもの、多くの介入と同じように、パラシュートの有効性は、ランダム化比較試験を使用して厳格な評価を行っていません。根拠に基づいた医療の支持者は、唯一の観測データを用いて評価した介入の採用を批判しています。私たちは、誰もが根拠に基づいた医療の最も急進主人公が組織した場合の利益との二重盲検、無作為化、プラセボ対照、パラシュートのクロスオーバー試験に参加したと思われます。」

実験的証拠のfetishizationに対して主張し、そのようなニューヨーク・タイムズなどの一般的な読者の新聞、適した論説を書きます。具体的な、具体的な例を提供します。ヒント：また、参照してください、 Bothwell et al. (2016)とDeaton (2010)
[ 、、 ]治療効果の違い・イン違いの推定量は差における平均推定量よりもより正確にすることができます。オンライン実験を実行するための差で-差異アプローチの価値を説明するスタートアップソーシャルメディア企業でのA / Bテストを担当するエンジニアにメモを書きます。メモは、問題の文の、差で差推定器が差で平均推定器をアウトパフォームする条件についてのいくつかの直感、簡単なシミュレーション研究を含める必要があります。
[ 、 ]ゲイリーLovemanはハラーズの最高経営責任者（CEO）、世界最大のカジノ企業の一つになる前にハーバード・ビジネス・スクールの教授でした。彼はハラーズに移動すると、Lovemanは、顧客の行動に関するデータの膨大な量を収集マイレージサービスのようなロイヤルティ・プログラムで会社を形質転換しました。この常時オンの測定システムの上で、同社は実験を実行する開始しました。例えば、これらは特定のギャンブルのパターンを持つ顧客のための自由なホテルの夜のためのクーポンの効果を評価するための実験を実行することがあります。ここでLovemanはハラーズ日常のビジネス慣行に実験の重要性を説明した方法は次のとおりです。

「それはあなたが女性に嫌がらせをしないように、あなたは盗むしないのです、あなたは対照群を持つようになってきました。これは、あなたがコントロール群を実行しているHarrah's-ないでためにあなたの仕事を失うことができるものの一つです。」 (Manzi 2012, 146)

Lovemanは、対照群を持つことが非常に重要であると考えている理由を説明する新しい従業員に電子メールを書きます。あなたは、例えば、いずれかの実数またはあなたのポイントを説明するためにアップ製を含めるようにしてください。
[ 、 $数学を必要とします$ ]新しい実験は、ワクチン接種の取り込みにテキストメッセージの通知を受信する効果を推定することを目的とします。 150診療所、600適格患者とのそれぞれが、参加して喜んでです。そこ使用したい各診療所のために100ドルの固定費であり、それはあなたが送信する各テキストメッセージに対して1ドルの費用がかかります。さらに、あなたが作業している任意の診療所は、無料で（誰かが予防接種を受けたかどうか）の結果を測定します。あなたは千ドルの予算を持っていることを前提としています。
1. どのような条件の下では、より広く、それらを広めるために良いかもしれない診療所の数が少ない上に、どのような条件の下にリソースを集中した方がよいのでしょうか？
2. どのような要因は、あなたが確実に自分の予算で検出することができます最小の効果の大きさを決定するであろうか？
3. 潜在的な資金提供者にこれらのトレードオフを説明するメモを書きます。
[ 、 $数学を必要とします$ ]オンラインコースでの主要な問題は、スレです。コースを開始し、多くの学生がドロップアウトしてしまいます。あなたはオンライン学習プラットフォームで作業している、とプラットフォームのデザイナーは、彼女はもちろんから脱落する学生を防ぐことができます考えている視覚的なプログレスバーを作成したことを想像してみてください。あなたは大きな計算社会科学コースの学生にプログレスバーの効果をテストしたいです。実験で発生する可能性の倫理的な問題に対処した後、あなたとあなたの同僚はもちろん、確実にプログレスバーの効果を検出するのに十分な学生を持っていないかもしれないことを心配して取得します。あなた以下の計算では、学生の半分がプログレスバーを受け取り、半分ませんと仮定することができます。さらに、あなたは干渉がないと仮定することができます。言い換えれば、あなたは、参加者は彼らだけが治療やコントロールを受けたかどうかによって影響されると仮定することができます。それらが（参照、より正式な定義については、他の人が治療やコントロールを受けたかどうかによって影響されないGerber and Green (2012) Chの。8）。あなたが作る任意の追加の前提条件を追跡してください。
1. プログレスバーが1％ポイントクラスを終える生徒の割合を増加すると予想されているとし、確実に効果を検出するために必要なサンプルサイズは何ですか？
2. プログレスバーが10％ポイントクラスを終える生徒の割合を増加すると予想されているとし、確実に効果を検出するために必要なサンプルサイズは何ですか？
3. 今、あなたは材料が最終試験をとっているすべてのコースを完了している実験や学生を実行したことを想像してみてください。あなたがしなかったものにプログレスバーを受けた学生の最終試験のスコアを比較するときには、プログレスバーを受信しなかった学生が実際に高い得点ことを、あなたの驚きに多くを見つけます。これは、プログレスバーが少ない学ぶために学生を引き起こしたことを意味していますか？あなたはこの結果データから何を学ぶことができますか？（ヒント：参照Gerber and Green (2012)の7）
[ 、 ]素敵な論文では、 Lewis and Rao (2015)鮮やかにさえ大規模な実験の基本的な統計的限界を示しています。紙もともと「広告に戻り測定の近不可能では「挑発的なタイトルを持っていたが、それも数百万の顧客を含むデジタル実験で、オンライン広告の投資収益率を測定することがいかに難しいか-shows。より一般的には、紙は明らかにノイズの多い結果データの中の小さな治療効果を推定することは困難であることを示しています。またはdiffently述べ、論文はインパクト・ツー・標準偏差（\（\ FRAC {\デルタ\バー{Y}} {\シグマ} \））比が小さい場合に推定治療効果が大きい信頼区間を有することを示しています。この論文からの重要な一般的な教訓は、小さな衝撃・ツー・標準偏差の比を用いた実験からの結果は、（例えば、広告キャンペーンのROI）は満足のいかないだろうということです。あなたの課題は、広告キャンペーンのROIを測定するために計画された実験をevalutingあなたの会社のマーケティング部門の誰かにメモを書くことになります。あなたのメモは、コンピュータシミュレーションの結果を示すグラフでサポートされる必要があります。

ここでは、必要がある場合がありますいくつかの背景情報です。これらの数値はすべて、で報告され、実際の実験の典型であるLewis and Rao (2015)
- ROI、オンライン広告キャンペーンのための主要な指標は、キャンペーンの費用で割ったキャンペーン（キャンペーンのキャンペーンマイナスコストから売上総利益）からの純利益であると定義されます。たとえば、売上に影響を与えなかったキャンペーンは-100％のROIを持っているでしょうし、生成された利益は、コストに等しいたキャンペーンが0のROIを持っているでしょう。
- 顧客当たりの平均売上は$ 75の標準偏差は$ 7。
- キャンペーンは、顧客あたり$ 0.175の利益の増加に対応する顧客あたり$ 0.35、売上を増加すると予想されます。つまり、売上総利益率は50％です。
- 実験の計画大きさは20万人、対照群の治療群で半々です。
- キャンペーンの費用は、参加者あたり$ 0.14。
この実験をevalutingメモを書きます。計画通りに、あなたは、この実験を開始勧めますか？もしそうなら、なぜですか？そうでない場合、あなたはどのような変更をお勧めしますか？

良いメモは、この特定のケースに対処します。よりよいメモは（衝撃・ツー・標準偏差比の関数としてどのように意思決定の変化を示し、例えば）一つの方法では、このケースから一般化されます。そして偉大なメモは、完全に一般化された結果を紹介します。
[ 、 $数学を必要とします$ ]あなたは分析結果を使用する必要があります前の質問と同じではなく、むしろよりも、シミュレーションを実行してください。
[ 、 $数学を必要とします$ 、 ]前の質問と同じですが、シミュレーションおよび分析結果の両方を使用します。
[ 、 $数学を必要とします$ 、 ]あなたは上記の-使っ手段推定に差はなく、違い・イン・相違推定器を使用することをお勧めしますシミュレーション、解析の結果、またはマーケティング部門からの両方-、誰かのいずれかを記載したメモを書かれていることを想像してみて（4.6.2項を参照してください）。実験後、実験前に売上高と売上との間に0.4の相関があなたの結論を変更する方法を説明する新しい短いメモを書きます。
[ 、 $数学を必要とします$ ]新しいウェブベースのキャリアのサービスの有効性を評価するために、大学のキャリアサービスオフィスは、学校の彼らの最終年度に入っ万学生の間で無作為化対照試験を実施しました。他の5000の学生が、対照群であり、サブスクリプションを持っていないながら、ユニークなログイン情報を使用して無料購読は、ランダムに選択された学生の5000に排他的な招待メールを介して送信されました。 12ヶ月後に、（無非応答で）フォローアップ調査は、両治療群と対照群では、学生の70％は、自分が選んだフィールド（表4.5）にフルタイムの雇用を確保していることを示しています。これにより、Webベースのサービスに影響を及ぼさなかったようです。

しかし、大学で巧妙なデータ科学者は、もう少し綿密にデータを見て、治療群の学生の20％のみが今までのメールを受信した後、アカウントにログインしていることがわかりました。また、やや驚くべきことに、ウェブサイトにログインした者のうち60％だけが人々のためのレートよりもログインしていなかった人のためのレートよりも低いと低かった自分が選んだ分野でのフルタイムの雇用を確保していました制御条件（表4.6）。
1. 起こっている可能性があります何のために説明を提供します。
2. この実験では、治療の効果を計算するには、2つの異なる方法は何ですか？
3. この結果を考えると、大学のキャリアサービスは、すべての学生にこのWebベースのキャリアのサービスを提供する必要がありますか？ただ明確にするために、これは単純な答えを持つ問題ではありません。
4. 彼らは次に何をすべきか？
ヒント：この質問は、この章で説明する材料を超えたが、実験では、共通の問題に対処します。参加者が治療に従事することが奨励されているため、実験的なデザインのこのタイプは、時には励ましのデザインと呼ばれています。この問題は、 片面非準拠と呼ばれるものの一例である（参照Gerber and Green (2012) 、Chのを。5）
[ ]さらに検討した後、それは前の質問で説明した実験はさらに複雑であったことが判明します。これは、対照群の人々の10％がサービスにアクセスするために支払った、と彼らは65％（表4.7）の就職率になってしまったことが判明します。
1. あなたの考えをまとめた電子メールが起こっているライトとアクションのコースをお勧めします。
ヒント：この質問は、この章で説明する材料を超えたが、実験では、共通の問題に対処します。この問題は、両面非準拠と呼ばれるものの一例である（参照Gerber and Green (2012) 、Chのを。6）

表4.5：キャリアサービスの実験からのデータの単純なビュー。
グループ	サイズ	雇用率
ウェブサイトへのアクセスを許可	5,000	70％
ウェブサイトへのアクセスを許可されていません	5,000	70％

表4.6：キャリアサービスの実験からのデータのより完全なビュー。
グループ	サイズ	雇用率
ウェブサイトへのアクセスを許可し、ログイン	千	60％
ウェブサイトへのアクセスを許可し、ログインしたことがありません	4,000	85％
ウェブサイトへのアクセスを許可されていません	5,000	70％

表4.7：キャリアサービスの実験からのデータの全景。
グループ	サイズ	雇用率
ウェブサイトへのアクセスを許可し、ログイン	千	60％
ウェブサイトへのアクセスを許可し、ログインしたことがありません	4,000	72.5パーセント
ウェブサイトへのアクセスを許可し、それを支払っていません	500	65％
ウェブサイトへのアクセス権を付与されていないし、それのために払っていません	4500	70.56パーセント