2.4.3.2 매칭

일치하는 경우를 깎음에 의해 공정한 비교를 만들 수 있습니다.

공정한 비교는 무작위 실험 또는 자연 실험 중 하나에서 올 수 있습니다. 그러나, 당신은 이상적인 실험을 실행할 수 없습니다과 자연이 자연 실험을 제공 한 사실이 없습니다 많은 경우가 있습니다. 이 설정에서, 가장 좋은 방법은 공정한 비교가 일치한다 만듭니다. 일치에서, 연구원은 그 사람이 치료를받은 것을 제외하고 비슷한 사람들의 쌍을 생성하는 비 실험 데이터를 통해 보이는 하나는 않았습니다. 일치시키는 과정에서, 연구자들은 실제로도 치기된다; 그 명백한 비교가없는 경우를 폐기된다. 따라서,이 방법은보다 정확하게 일치 앤 치기라는 것, 그러나 나는 전통적인 용어를 고수합니다 : 일치를.

대규모 비 실험 데이터 소스와 전략을 일치의 힘의 아름다운 예는 Liran Einav와 동료에 의해 ​​소비자 행동에 관한 연구에서 온 (2015) . Einav와 동료들은 이베이에서 일어나는 경매에 관심이 있었고, 자신의 작품을 설명하기에, 나는 하나의 특정 측면에 초점을 맞출 것이다 : 이러한 판매 가격 또는 판매의 확률로 경매 결과에 경매 시작 가격의 효과.

판매 가격에 시작 가격의 효과에 대한 질문에 대답하는 가장 순진 방법은 단순히 다른 시작 가격으로 경매의 최종 가격을 계산하는 것입니다. 당신은 단순히 주어진 시작 가격에 eBay에 넣어했다 주어진 아이템의 판매 가격을 예측하려는 경우이 방법은 잘 될 것입니다. 그러나, 귀하의 질문에이 공정한 비교를 기반으로하지 않기 때문에 작동하지 않습니다 시장 성과에이 방법을 가격 시작의 효과 어떤 경우는 낮은 시작 가격으로 경매는 높은 시작 가격 (예를 들면, 그들은 제품의 다른 유형의 수 또는 판매자의 다른 유형을 포함 할 수 있습니다)와 경매는 상당히 다를 수 있습니다.

당신이 공정한 비교를 만들기에 대해 이미 우려되는 경우, 당신은 순진한 접근 방법을 건너 뛰고 당신이 경매의 고정 세트 클럽, a는 특정 항목-말 골프 판매 할 필드 실험을 실행 해보십시오 수있는 매개 변수를-말, 무료 배송, 경매 2 주 오픈 등-하지만 무작위로 시작하는 가격을 설정하여. 그 결과 시장 성과를 비교함으로써,이 분야의 실험은 판매 가격에 가격을 시작하는 효과가 매우 명확한 측정을 제공합니다. 그러나,이 측정은 하나의 특정 제품에 적용 경매 매개 변수로 설정합니다. 결과는 제품의 종류, 예를 들어, 상이 할 수있다. 강한 이론 않고,이 한 번의 실험을 실행할 수 있었을 실험의 전체 범위에서 추정하는 것은 곤란하다. 또한, 필드 실험은 제품 및 입찰 유형의 전체 파라미터 공간을 커버하도록 충분히을 실행 불가능하다고 충분히 비싸다.

순진한 접근과 실험적 접근 방식과는 달리, Einav와 동료들은 세 번째 접근 방식을 취 일치합니다. 그들의 전략의 주요 트릭은 이미 이베이에서 일어난 현장 실험과 유사한 물건을 발견하는 것입니다. 예를 들어, 그림 2.6은 정확히 같은 골프 클럽 - 테일러 메이드 버너 드라이버되고 정확히 같은 판매자 - "budgetgolfer"에 의해 09 판매를위한 31 목록의 일부를 보여줍니다. 그러나,이 명부는 약간 다른 특성을 가지고있다. 다른 (20)가 다른 종료 날짜와 경매하는 동안 그들의 일레븐, $ 124.99의 고정 가격에 대한 드라이버를 제공합니다. 또한, 명부는 다른 운송 요금이 중 $ 7.99 또는 $ 9.99. "budgetgolfer"은 연구자의 실험을 실행하는 경우로 말하면,이다.

테일러 메이드 버너 09 드라이버의 목록은 "budgetgolfer"에서 판매되는 동일한 항목이 동일한 판매자에 의해 판매되고 명부의 일치 세트하지만 약간 다른 특성을 가진마다의 한 예입니다. 이베이의 대규모 로그 내에서 명부의 수백만을 포함하는 일치 세트의 수천 수백 그대로있다. 따라서, 오히려 주어진 시작 가격 내의 모든 경매의 최종 가격을 비교하는 것보다, Einav와 동료들은 일치 세트 내에서 비​​교를합니다. 유사한 세트 수십만 내의 비교 결과를 결합하기 위해, Einav 동료 각 항목 (예를 들면, 평균 판매 가격)의 기준값의 관점에서 시작 가격 최종 가격을 다시 표현한다. 테일러 메이드 버너 09 드라이버 $ 100의 기준 값을 갖는 경우, 예를 들어 (매출 기준) 다음 $ (10)의 시작 가격 0.1로 표현 될 것이며, $ 120 최종 가격은 1.2로 표현된다.

그림 2.6 : 일치하는 집합의 예입니다. 이 동일한 사람 (budgetgolfer)에서 판매되는 동일한 골프 클럽 (테일러 메이드 버너 09 드라이버)하지만, 이러한 매출의 일부는 다른 조건 (예를 들어, 다른 시작 가격)을 수행 하였다. Einav 등의 알에서 가져온 그림. (2015).

그림 2.6 : 일치하는 집합의 예입니다. 이 동일한 사람 ( "budgetgolfer")에 의해 판매되는 동일한 골프 클럽 (테일러 메이드 버너 09 드라이버)하지만, 이러한 매출의 일부는 다른 조건 (예를 들어, 다른 시작 가격)을 수행 하였다. 에서 가져온 그림 Einav et al. (2015) .

Einav 및 동료 경매 결과에 시작 가격의 영향에 관심이 있음을 기억하자. 첫째, 선형 회귀를 사용하여 그들은 더 높은 시작 가격이 판매의 확률을 감소하는 것이, 높은 시작 가격이 판매 발생하는 조건으로 최종 판매 가격을 높일 것으로 추정. 자신으로 이러한 추정-모든 제품 평균되고이 시작 가격과 최종 사이에 선형 관계를 가정 모두 흥미없는 결과를-있습니다. 그러나, Einav와 동료는 더 미묘한 결과의 다양성을 추정하기 위해 데이터의 거대한 크기를 사용합니다. 첫째, Einav와 동료들은 개별적으로 서로 다른 가격의 항목에 대한 선형 회귀 분석을 사용하지 않고 이러한 추정을했다. 그들은 판매 시작 가격과 확률 사이의 관계가 선형 동안, 시작 가격과 판매 가격 사이의 관계가 비선형 (그림 2.7) 분명히 것을 발견했다. 특히, 0.05과 0.85 사이에 가격을 시작하는, 시작 가격은 판매 가격, 선형 관계를 가정 한 분석에서 놓친 완성 된 연구 결과에 거의 영향을 미친다.

2.7 그림 : 관계를 판매 (왼쪽 패널) 판매 가격 (오른쪽 패널)의 경매 시작 가격과 확률 사이. 시작 가격 및 판매 확률 사이에 선형 관계가 거의 존재하지만, 시작 가격 및 판매 가격 사이의 비선형 관계가 존재한다; 0.05와 0.85 사이에 가격을 시작하는, 시작 가격은 판매 가격에 거의 영향을 미친다. 두 경우 모두에서, 상기 관계는 항목 값을 기본적으로 독립적이다. 이 그래프는도 4a 및도 4b Einav 등을 재현. (2015).

2.7 그림 : 관계를 판매 (왼쪽 패널) 판매 가격 (오른쪽 패널)의 경매 시작 가격과 확률 사이. 시작 가격 및 판매 확률 사이에 선형 관계가 거의 존재하지만, 시작 가격 및 판매 가격 사이의 비선형 관계가 존재한다; 0.05와 0.85 사이에 가격을 시작하는, 시작 가격은 판매 가격에 거의 영향을 미친다. 두 경우 모두에서, 상기 관계는 항목 값을 기본적으로 독립적이다. 이 그래프는도 4a 및도 4b 재현 Einav et al. (2015) .

둘째, 오히려 모든 항목을 통해 평균보다 Einav 및 동료도 (예를 들어, 애​​완 동물 용품, 전자 제품, 스포츠 기념품) 항목 (그림 2.8)의 23 가지 범주의 시작 가격의 영향을 추정하기 위해 데이터의 대규모을 사용합니다. 이러한 추정치는 더 독특한위한 항목-등의 기념품 시작 가격이 판매의 가능성과 최종 판매 가격에 큰 영향에 작은 효과가 있음을 보여준다. 또한, 더 많은 상품화 항목 예 : DVD와 비디오의 시작 가격으로는 최종 가격에 거의 영향을주지 않습니다. 즉, 항목의 23 가지 카테고리에서 결과를 결합하는 평균이 항목의 차이점에 대한 중요한 정보를 숨 깁니다.

2.8 그림 : 결과는 개별적으로 각 카테고리에서 견적을 보여 주었다; 모든 범주에 대한 추정의 고체 점은 표 11 (Einav 외. 2015, 표 11), 함께 풀링. 이러한 추정치는 더 독특한위한 항목-등의 기념품-시작 가격은 판매 (x 축) 및 최종 판매 가격 (y 축)에 더 큰 효과의 확률에 작은 효과가 있음을 보여준다.

2.8 그림 : 결과는 개별적으로 각 카테고리에서 견적을 보여 주었다; 함께 풀링 모든 범주에 대한 추정의 고체 점 (Einav et al. 2015, Table 11) . 이러한 추정치는 더 독특한위한 항목-등의 기념품-시작 가격은 판매 (x 축) 및 최종 판매 가격 (y 축)에 더 큰 효과의 확률에 작은 효과가 있음을 보여준다.

당신이 이베이에 경매에 관심이없는 경우에도, 당신은 그림 2.7과 2.8을 제공 선형 관계를 가정하고 상품의 많은 다른 종류를 결합 단순 선형 회귀 추정치보다 이베이의 풍부한 이해를 그림 방식을 존경해야합니다. 이러한 미묘한 추정치는 대용량 데이터에 일치의 힘을 보여; 이러한 추정치는 터무니없이 비싼했을 필드 실험의 엄청난 수없이 불가능했을 것입니다.

물론, 우리는 특정 일치하는 연구 결과 덜 확신 우리가 비교 실험 결과에서와 이상이 있어야합니다. 일치하는 연구 결과를 평가할 때, 두 가지 중요한 문제가있다. 첫째, 우리는 우리가 단지 일치에 사용 된 것들에 대한 공정한 비교를 보장 할 수 있음을 기억해야한다. 판매자 ID 번호, 항목 범주, 항목 제목 및 부제 : 그들의 주요 결과에서 Einav와 동료들은 정확한 사 특성에 일치했다. 항목은 불공정 한 비교를 만들 수 일치에 사용되지 않은 방법으로, 다른 있다면. (골프 클럽 덜 인기있는 때) 사실이 계절의 이슈가 될 것입니다 예를 들어, 경우 "budgetgolfer"겨울에 테일러 버너 09 드라이버의 가격을 인하, 낮은 시작 가격이 최종 가격을 낮출 이어질 것으로 나타날 수 수요의 변화. 일반적으로,이 문제에 대한 가장 좋은 방법은 매칭 여러 가지 시도 될 것으로 보인다. 예를 들어, Einav와 동료들은 일치 세트가 동시 적 1 개월 이내 1 년 이내 판매 항목 등을 포함 자신의 분석을 반복합니다. 시간 창은 엄격한 만들기 일치 세트의 수를 감소하지만, 계절의 변화에​​ 대한 우려를 줄일 수 있습니다. 다행히도, 그들은 결과가 일치하는 기준의 변경에 의해 변경되지 않습니다 것을 찾을 수 있습니다. 일치하는 문헌에서, 문제의이 유형은 일반적으로 관찰 가능한관측 불가능 변수로 표현하지만, 핵심 아이디어는 연구자는 매칭에 사용되는 기능에 대한 공정한 비교를 만드는 정말입니다.

매칭 결과를 해석 번째 주요 관심사는 오직 매칭 데이터에 적용이다; 그들은 일치 할 수없는 경우에는 적용되지 않습니다. 예를 들어, Einav와 동료 전문가와 세미 프로 판매에 초점을 맞추고 여러 목록을했다 항목에 자신의 연구를 제한함으로써. 이러한 비교를 해석 할 때 따라서, 우리는 그들이 단지 이베이의이 부분 집합에 적용된다는 것을 기억해야합니다.

매칭은 대규모 데이터 세트에서 공정한 비교를 찾기위한 강력한 전략이다. 많은 사회 과학자에 일치하는 실험에 두 번째로 좋은 느낌,하지만 약간 수정되어야하는 믿음입니다. 효과 1) 이질성이 중요하다, 2) 매칭을위한 좋은 관찰 가능한이 : 때 대용량 데이터의 일치 필드 실험의 작은 수보다 더 좋을 수 있습니다. 표 2.4은 큰 데이터 소스와 함께 사용할 수있는 정합 방법의 다른 예를 제공한다.

표 2.4 : 디지털 트레이스 내에서 공정한 비교를 찾기 위해 검색을 사용하여 연구의 예.
실질적인 초점 빅 데이터 소스 소환
경찰 폭력에 총격 사건의 영향 기록 - 및 - 몸수색을 중지 Legewie (2016)
가족과 이웃에 2001 년 9 월 11 일 효과 투표 기록과 기부 기록 Hersh (2013)
사회 전염 통신 및 제품 채택 데이터 Aral, Muchnik, and Sundararajan (2009)

결론적으로, 비 실험 데이터에서 인과 효과 추정에 순진한 접근은 위험하다. 그러나, 강한에서 약한에 연속을 따라 누워 인과 견적을 만들기위한 전략, 연구자들은 비 실험 데이터 내에서 공정한 비교를 발견 할 수 있습니다. 자연 실험과 일치 : 상시, 빅 데이터 시스템의 성장을 효과적으로 기존의 두 방법을 사용하는 우리의 능력을 증가시킨다.