2.4.3.2 Matching

Matching créer des comparaisons justes par élagage des cas.

comparaisons justes peuvent provenir soit des expériences aléatoires contrôlés ou d'expériences naturelles. Mais, il y a beaucoup de situations où vous ne pouvez pas exécuter l'expérience idéale et la nature n'a pas encore fourni une expérience naturelle. Dans ces paramètres, la meilleure façon de créer une comparaison équitable est correspondant. En correspondance, le chercheur regarde à travers les données non expérimentales pour créer des paires de personnes qui sont semblables, sauf que l'on a reçu le traitement et l'autre n'a pas. Dans le processus d'appariement, les chercheurs sont en fait également l' élagage; qui est, en écartant les cas où il n'y a pas de comparaison évidente. Ainsi, cette méthode serait plus appelé précision correspondant et élagage, mais je vais rester avec le terme traditionnel: correspondance.

Un bel exemple de la puissance des stratégies avec des sources de données non expérimentales massives correspondant proviennent de la recherche sur le comportement des consommateurs par Liran Einav et ses collègues (2015) . Einav et ses collègues se sont intéressés à des ventes aux enchères qui ont lieu sur eBay, et pour décrire leur travail, je vais me concentrer sur un aspect particulier: l'effet de la vente aux enchères prix de départ sur les résultats des enchères, tels que le prix de vente ou la probabilité d'une vente.

La façon la plus naïve de répondre à la question sur l'effet du prix de départ du prix de vente serait de simplement calculer le prix final pour les ventes aux enchères avec différents prix de départ. Cette approche serait bien si vous voulez simplement prédire le prix de vente d'un élément donné qui avait été mis sur eBay avec un prix de départ donné. Mais, si votre question est quel est l'effet des prix de départ sur ​​les résultats du marché cette approche ne fonctionnera pas car elle ne repose pas sur des comparaisons justes; les ventes aux enchères avec des prix de départ inférieurs pourraient être tout à fait différent de ventes aux enchères avec des prix de départ plus élevés (par exemple, ils pourraient être pour différents types de produits ou inclure différents types de vendeurs).

Si vous êtes déjà préoccupé de faire des comparaisons justes, vous pourriez sauter l'approche naïve et d'envisager l'exécution d'une expérience sur le terrain où vous souhaitez vendre un spécifique élément-dire, un club-avec le golf un ensemble fixe de ventes paramètres-dire, la livraison gratuite, vente aux enchères ouvert pendant deux semaines, etc., mais avec mettre au hasard à partir des prix. En comparant les résultats du marché résultant, cette expérience de terrain offrirait une mesure très précise de l'effet du prix à partir du prix de vente. Mais, cette mesure ne ferait appliquer à un produit particulier et un ensemble de paramètres d'enchères. Les résultats peuvent être différents, par exemple, pour différents types de produits. Sans théorie forte, il est difficile d'extrapoler à partir de cette expérience unique de la gamme complète d'expériences possibles qui auraient pu fonctionner. En outre, des expériences sur le terrain sont suffisamment coûteux qu'il serait impossible d'exécuter assez d'eux pour couvrir l'ensemble de l'espace des paramètres de produits et types d'enchères.

Contrairement à l'approche naïve et l'approche expérimentale, Einav et ses collègues prennent une troisième approche: l'appariement. L'astuce principale de leur stratégie est de découvrir des choses semblables à des expériences sur le terrain qui ont déjà eu lieu sur eBay. Par exemple, la figure 2.6 montre quelques-unes des 31 annonces pour exactement le même club de golf-a Taylormade Burner 09 Driver-vendu par exactement les mêmes vendeurs par "budgetgolfer". Cependant, ces listes ont des caractéristiques légèrement différentes. Onze d'entre eux offrent le pilote pour un prix fixe de 124,99 $, tandis que les 20 autres sont des ventes aux enchères avec différentes dates de fin. En outre, les annonces ont des frais d'expédition, soit 7,99 $ ou 9,99 $. En d'autres termes, tout se passe comme si «budgetgolfer» exécute des expériences pour les chercheurs.

Les inscriptions de la Taylormade Burner 09 Pilote vendus par "budgetgolfer" sont un exemple d'un ensemble assorti d'annonces, où exactement le même article est vendu par le même vendeur exact, mais chaque fois avec des caractéristiques légèrement différentes. Dans les journaux massives d'eBay, il y a littéralement des centaines de milliers d'ensembles appariés impliquant des millions d'annonces. Ainsi, plutôt que de comparer le prix final pour toutes les ventes aux enchères dans un prix de départ donné, Einav et ses collègues de faire des comparaisons au sein des ensembles appariés. Afin de combiner les résultats des comparaisons au sein de ces centaines de milliers d'ensembles appariés, Einav et ses collègues re-expriment le prix de départ et le prix final en termes de la valeur de référence de chaque élément (par exemple, son prix de vente moyen). Par exemple, si le TaylorMade Burner 09 Pilote a une valeur de référence de 100 $ (sur la base de son chiffre d'affaires), puis un prix de départ de 10 $ serait exprimée en 0,1 et le prix final de 120 $ serait exprimé en 1.2.

Figure 2.6: Un exemple d'un ensemble assorti. Ceci est le même club de golf exact (un pilote TaylorMade Burner 09) vendus par la même personne exacte (budgetgolfer), mais certains de ces ventes ont été réalisées des conditions différentes (par exemple, le prix de départ différent). Figure extraite de Einav et al. (2015).

Figure 2.6: Un exemple d'un ensemble assorti. Ceci est le même club de golf exact (un pilote TaylorMade Burner 09) vendu par exactement la même personne ( "budgetgolfer"), mais certains de ces ventes ont été effectuées des conditions différentes (par exemple, le prix de départ différent). Figure extraite de Einav et al. (2015) .

Rappelons que Einav et ses collègues se sont intéressés à l'effet du prix de départ sur les résultats des enchères. Tout d'abord, en utilisant la régression linéaire, ils ont estimé que les prix de départ plus élevés diminuent la probabilité d'une vente, et que les prix de départ plus élevées augmentent le prix de vente final, conditionnelle à une vente d'origine. Par eux-mêmes, ces estimations, qui sont en moyenne sur tous les produits et supposent une relation linéaire entre le prix de départ et finales des résultats ne sont pas-tout ce qui intéressant. Mais, Einav et ses collègues utilisent également la taille massive de leurs données pour estimer une variété de résultats plus subtils. Tout d'abord, Einav et ses collègues ont fait ces estimations séparément pour les articles de prix différents et sans utiliser la régression linéaire. Ils ont constaté que, bien que la relation entre le prix de départ et la probabilité d'une vente est linéaire, la relation entre le prix de départ et prix de vente est clairement non-linéaire (Figure 2.7). En particulier, pour le démarrage des prix compris entre 0,05 et 0,85, le prix de départ a très peu d'impact du prix de vente, une constatation qui a été achevé manquée dans l'analyse qui avait pris une relation linéaire.

Figure 2.7: Relation entre le prix de départ de la vente aux enchères et la probabilité d'une vente (panneau de gauche) et prix de vente (à droite). Il est à peu près une relation linéaire entre le prix de départ et la probabilité de la vente, mais il existe une relation non linéaire entre le prix de départ et prix de vente; pour le démarrage des prix compris entre 0,05 et 0,85, le prix de départ a très peu d'impact sur prix de vente. Dans les deux cas, les relations sont fondamentalement indépendante de la valeur de l'article. Ces graphiques reproduisent la figure 4a et 4b Einav et al. (2015).

Figure 2.7: Relation entre le prix de départ de la vente aux enchères et la probabilité d'une vente (panneau de gauche) et prix de vente (à droite). Il est à peu près une relation linéaire entre le prix de départ et la probabilité de la vente, mais il existe une relation non linéaire entre le prix de départ et prix de vente; pour le démarrage des prix compris entre 0,05 et 0,85, le prix de départ a très peu d'impact sur prix de vente. Dans les deux cas, les relations sont fondamentalement indépendante de la valeur de l'article. Ces graphiques reproduisent la figure 4a et 4b Einav et al. (2015) .

Deuxièmement, plutôt que la moyenne sur tous les articles, Einav et ses collègues utilisent également l'échelle de leurs données pour estimer l'impact des prix de départ pour 23 catégories différentes d'objets (par exemple, des fournitures pour animaux de compagnie, de l'électronique, et des souvenirs de sport) (Figure 2.8). Ces estimations montrent que pour les plus distinctifs des articles-souvenirs tels que le prix de démarrage a un effet plus faible sur la probabilité d'une vente et d'un effet plus important sur le prix de vente final. En outre, pour des articles tels que des DVD plus commodifiés et vidéo le prix de départ n'a pratiquement aucun impact sur le prix final. En d'autres termes, une moyenne qui combine les résultats de 23 différentes catégories d'articles cache des informations importantes sur les différences entre ces éléments.

Figure 2.8: Les résultats ont montré des estimations de chaque catégorie individuellement; le point solide dans l'estimation pour toutes les catégories mises en commun, le tableau 11 (Einav et al. 2015, tableau 11). Ces estimations montrent que pour les plus distinctifs des articles tels que les souvenirs-prix de départ a un effet moindre sur la probabilité d'une vente (axe x) et un effet plus important sur le prix de vente final (axe y).

Figure 2.8: Les résultats ont montré des estimations de chaque catégorie individuellement; le point solide dans l'estimation pour toutes les catégories regroupées ensemble (Einav et al. 2015, Table 11) . Ces estimations montrent que pour les plus distinctifs des articles tels que les souvenirs-prix de départ a un effet moindre sur la probabilité d'une vente (axe x) et un effet plus important sur le prix de vente final (axe y).

Même si vous n'êtes pas particulièrement intéressé par des ventes aux enchères sur eBay, vous devez admirer la façon dont la figure 2.7 et la figure 2.8 offre une compréhension plus riche d'eBay que les estimations de régression linéaire simple qui supposent des relations linéaires et combinent différentes catégories d'articles. Ces estimations plus subtiles illustrent la puissance de l'appariement des données massives; ces estimations auraient été impossibles sans un très grand nombre d'expériences sur le terrain, ce qui aurait été prohibitif.

Bien sûr, nous devrions avoir moins confiance dans les résultats de toute étude de correspondance particulière que nous le ferions dans les résultats d'une expérience comparable. Lors de l'évaluation des résultats de toute étude d'adaptation, il y a deux préoccupations importantes. Tout d'abord, nous devons nous rappeler que nous ne pouvons assurer des comparaisons justes sur les choses qui ont été utilisées pour l'appariement. Dans leurs principaux résultats, Einav et ses collègues ont exacte correspondant sur quatre caractéristiques: le vendeur numéro d'identification, la catégorie de l'article, l'article titre et sous-titre. Si les articles étaient différents d'une manière qui ne sont pas utilisés pour la correspondance, qui pourraient créer une comparaison injuste. Par exemple, si "budgetgolfer" baisser les prix pour TaylorMade Burner 09 Pilote en hiver (lorsque les clubs de golf sont moins populaires), alors il pourrait apparaître que les prix de départ plus faibles conduisent à une baisse des prix finaux, alors qu'en fait, ce serait un artefact de saison variation de la demande. En général, la meilleure approche à ce problème semble essayer de nombreux types de correspondance. Par exemple, Einav et ses collègues répètent leur analyse où des ensembles appariés comprennent des éléments en vente dans l'année, dans le mois, et simultanément. Rendre la fenêtre de temps plus serré diminue le nombre d'ensembles appariés, mais réduit les préoccupations au sujet de la variation saisonnière. Heureusement, ils constatent que les résultats sont inchangés par ces changements dans les critères correspondant. Dans la littérature correspondante, ce type de préoccupation est généralement exprimée en termes d'observables et non observables, mais l'idée clé est vraiment que les chercheurs ne font que créer des comparaisons justes sur les caractéristiques utilisées dans l' appariement.

La deuxième préoccupation majeure lors de l'interprétation des résultats correspondant est qu'ils appliquent uniquement aux données appariées; ils ne sont pas applicables aux cas qui ne pouvaient pas être appariés. Par exemple, en limitant leur recherche à des éléments qui avaient de multiples annonces Einav et ses collègues se concentrent sur les vendeurs professionnels et semi-professionnels. Ainsi, l'interprétation de ces comparaisons nous devons nous rappeler qu'ils appliquent uniquement à ce sous-ensemble d'eBay.

Matching est une stratégie efficace pour trouver des comparaisons équitables dans les grands ensembles de données. Pour de nombreux chercheurs en sciences sociales, l'appariement se sent comme deuxième meilleur à des expériences, mais qui est une croyance qui devrait être révisé, légèrement. Matching des données massives pourrait être mieux qu'un petit nombre d'expériences sur le terrain lorsque: 1) l'hétérogénéité des effets est importante et 2) il y a de bonnes observables pour appariement. Le tableau 2.4 présente quelques autres exemples de la façon correspondant peut être utilisé avec des sources de données grandes.

Tableau 2.4: Exemples d'études qui utilisent l'appariement pour trouver des comparaisons justes dans les traces numériques.
orientation de fond source de données Big Citation
Effet des tirs sur la violence policière Stop-and-frisk records Legewie (2016)
Effet du 11 Septembre 2001 sur les familles et les voisins dossiers de vote et les registres de dons Hersh (2013)
contagion sociale Communication et adoption de produits de données Aral, Muchnik, and Sundararajan (2009)

En conclusion, les approches naïves pour estimer les effets de causalité à partir des données non expérimentales sont dangereuses. Cependant, les stratégies pour faire des estimations causales situées le long d'un continuum du plus fort au plus faible, et les chercheurs peuvent découvrir des comparaisons équitables dans les données non-expérimentales. La croissance de toujours-sur, de grands systèmes de données augmente notre capacité à utiliser efficacement les deux méthodes existantes: expériences naturelles et l'appariement.