マッチング例を離れて剪定することにより、公正な比較を作成します。
フェアな比較は、無作為化対照実験や自然の実験のいずれかから来ることができます。しかし、あなたが理想的な実験を実行することはできませんと自然が自然実験が提供されていない多くの状況があります。これらの設定では、公平な比較を作成するための最良の方法は、 マッチングです。マッチングでは、研究者は、その1が治療を受けている、1つはない持っている除いて類似している人々のペアを作成するために、非実験データを調べます。マッチングの過程で、研究者は、実際に剪定されています。それは明白な比較が存在しない場合を破棄です。したがって、この方法は、より正確にマッチング・アンド・プルーニングと呼ばれることだろうが、私は、伝統的な用語に固執します:マッチング。
大規模な非実験データソースと戦略を一致させるパワーの美しい例はLiran Einavらによる消費者行動の研究から来る(2015) Einavらは、eBayで行わオークションに興味を持っていた、と自分の仕事を説明する際に、私は1つの特定の側面に焦点を当てます。このような販売価格または販売の確率などのオークションの結果、上のオークションの開始価格の影響。
販売価格上の開始価格の影響についての質問に答えるために最も素朴な方法は、単純に異なる開始価格でオークションの最終的な価格を計算することであろう。あなたは、単に与えられた開始価格でeBayで置かれていた特定のアイテムの販売価格を予測したい場合は、このアプローチは大丈夫だと思います。あなたの質問が何であるかである場合、それは公正な比較に基づいていないので、しかし、市場の成果にこのアプローチを開始価格の効果は動作しません。より低い開始価格でオークションは、より高い開始価格とオークションとは全く異なる場合があります(例えば、それらは、商品の種類ごとにあるか、または売り手の異なる種類が含まれる場合があります)。
あなたは既に公正な比較を行うに不安がある場合は、単純なアプローチをスキップして、特定の-言うアイテム、ゴルフクラブでのオークションパラメータ-言うの固定セット、送料無料、オークションを販売するフィールド実験を実行して検討するかもしれません2週間、のためのオープンなど-が、ランダムに開始価格を設定して。その結果、市場の成果を比較することにより、この分野の実験は、販売価格の開始価格の効果の非常に明確な測定を提供するであろう。しかし、この測定は、一つだけ特定の製品やオークションパラメータのセットに適用されます。結果は、例えば、製品の種類ごとに、異なる場合があります。強力な理論がなければ、この単一の実験で実行されている可能性が可能な実験の全範囲から推定することは困難です。また、フィールド実験は、製品やオークションタイプの全パラメータ空間をカバーするために、それらを十分にアップ実行するには実行不可能であることを十分に高価です。
マッチング:素朴なアプローチと実験的アプローチとは対照的に、Einavらは、第三のアプローチを取ります。その戦略の主なトリックは、すでにeBayで起こったフィールド実験に似たものを発見することです。たとえば、図2.6はまったく同じゴルフクラブ - テーラーメイドバーナー09ドライバービーイング全く同じseller-「budgetgolfer」により販売されているため31のリストの一部を示しています。しかし、これらのリストは、わずかに異なる特性を持っています。他の20の異なった終了日でのオークションであるが、それらのうち11は、$ 124.99の固定価格のためのドライバを提供しています。また、リストは、いずれかの$ 7.99、または$ 9.99別の配送料を持っています。 「budgetgolfer」は研究者の実験を実行しているかのように言い換えると、それは。
テーラーメイドバーナー09ドライバのリストは、「budgetgolfer」によって販売されている正確に同じアイテムがまったく同じ売り手によって販売されているリストの一致したセットが、わずかに異なる特性を持つ毎回の一例です。イーベイの大規模なログ内のリストの何百万人を含むマッチしたセットの数十万人は、文字通りあります。したがって、むしろ与えられた開始価格内のすべてのオークションのための最終価格を比較するよりも、Einavらはマッチしたセット内の比較を行います。マッチしたセットの数千のこれらの何百もの中の比較から結果を結合するためには、Einavらは、各項目(例えば、その平均販売価格)の基準値の点で開始価格と最終価格を再発現します。テーラーメイドバーナー09ドライバーは$ 100の基準値を持っている場合たとえば、(その売上高に基づく)は、$ 10の開始価格は0.1のように表現されることになると$ 120の最終的な価格は、1.2のように表現されることになります。
Einavらはオークションの結果のスタート価格の影響に興味を持っていたことを思い出してください。まず、彼らはより高い出発価格は販売の確率を減少させ、より高い開始価格が発生した売却条件、最終的な販売価格を上げることと推定線形回帰を使用して。自分自身では、これらの見積り-すべての製品にわたって平均とされているが、開始価格と最終の直線関係を前提とし、すべてのその面白くない成果を-あります。しかし、Einavらはまた、より微妙な所見のさまざまなを推定するために、データの大規模なサイズを使用します。まず、Einavらは別々に異なる価格のアイテムのためにと線形回帰を使用することなく、これらの推定を行いました。彼らは販売の開始価格と確率との関係が線形であるが、開始価格と売却価格との関係が非線形(図2.7)は、明らかであることがわかりました。具体的には、0.05と0.85の間の価格を開始するため、開始価格は、販売価格、直線的な関係を想定した分析では見逃さ完成した知見にほとんど影響を与えます。
第二に、むしろすべての項目にわたって平均よりも、Einavらはまた、アイテム(例えば、ペット用品、エレクトロニクス、スポーツの記念品)の23の異なるカテゴリ(図2.8)のための開始価格の影響を推定するために、データの大規模なスケールを使用します。これらの推定値は、より特徴的なのためのアイテム、などの記念品スタート価格は販売の確率と最終販売価格に大きく影響に小さい効果を有することを示しています。また、より多くの商品化アイテム-DVDやなどのためのビデオスタート価格が最終価格への影響はほとんどありません。つまり、アイテムの23の異なるカテゴリからの結果を組み合わせた平均値は、これらの項目の違いについての重要な情報を隠します。
あなたがeBayでオークションに特に興味がない場合でも、あなたは2.7と図2.8のオファー線形関係を仮定し、項目の多くの異なる種類を組み合わせて簡単な線形回帰推定値よりもイーベイの豊かな理解を図の方法を賞賛する必要があります。これらのより微妙な推定値は、大量のデータの一致パワーを示す図です。これらの推定値は、法外に高価であったであろうフィールド実験の膨大な数、なしには不可能だったでしょう。
もちろん、我々は同等の実験の結果の場合と比べて、任意の特定のマッチング研究の結果にはあまり自信を持っている必要があります。任意のマッチング研究の結果を評価する場合、二つの重要な懸念があります。まず、我々は唯一のマッチングのために使用されたものに公正な比較を確保することができることを覚えておく必要があります。販売者のID番号、品目カテゴリ、アイテムのタイトル、およびサブタイトル:その主な結果では、Einavらは、正確な4つの特徴に一致しませんでした。アイテムがマッチングに使用されなかった方法で異なっていた場合、それは不公平な比較を作成することができます。 「budgetgolferは「(ゴルフクラブはあまり人気があります)冬のテーラーメイドバーナー09ドライバーの価格を下げた場合、実際には、これは季節のアーティファクトになるとき例えば、より低い開始価格は、最終的な価格低下につながるように見える可能性があり需要の変動。一般的に、この問題に対する最善のアプローチは、マッチングのさまざまな種類を試しているように見えます。例えば、Einavらは、マッチしたセットが同時に1ヶ月以内1年以内に売却のアイテム、などを含む彼らの分析を繰り返します。時間ウィンドウがタイト作ることはマッチしたセットの数を減少するが、季節変動についての懸念を軽減します。幸いなことに、彼らは結果が一致基準でこれらの変更によって変更されないことがわかります。マッチング文献で は、懸念のこのタイプは通常、 観測及びunobservablesで表現が、 キーアイデアは、研究者がのみマッチングにおいて使用される機能の公正な比較を作成していることは本当にです。
マッチング結果を解釈するときに、第2の主要な関心事は、彼らが唯一の一致したデータに適用されることです。彼らは一致させることができなかった場合には適用されません。例えば、複数のリストEinavらは、プロやセミプロの売り手に注力していた項目に自分の研究を制限することもできます。これらの比較を解釈する際にこのように、我々は、彼らが唯一のeBayのこのサブセットに適用されることを覚えておく必要があります。
マッチングは、大規模なデータセットで公正な比較を見つけるための強力な戦略です。多くの社会科学者のために、マッチングは、実験への次善のように感じるが、それは少し、改正すべきであるという信念です。効果1)不均一性が重要であり、2)マッチングのための良好な観測がある:ときに大量データにおけるマッチングは、フィールド実験少数のより良いかもしれません。表2.4は、ビッグデータ・ソースで使用することができます一致する方法のいくつかの他の例を提供します。
実質的な焦点 | ビッグデータ・ソース | 引用 |
---|---|---|
警察の暴力に関する銃撃事件の影響 | レコード・アンド・フリスクの停止 | Legewie (2016) |
家族や隣人に2001年9月11日の影響 | 投票記録や寄付レコード | Hersh (2013) |
社会的感染 | コミュニケーションと製品の採用データ | Aral, Muchnik, and Sundararajan (2009) |
結論として、非実験データから因果効果の推定にナイーブなアプローチは危険です。しかし、最強から最弱の連続に沿って存在する因果推定を行うための戦略、研究者は、非実験データ内の公平な比較を発見することができます。自然の実験と一致する:常時オン、ビッグデータシステムの成長が効果的に2つの既存の方法を使用する当社の能力を向上させます。