Abbinamento creare confronto equo con la potatura di distanza casi.
confronti fiera possono provenire sia da esperimenti controllati randomizzati o esperimenti naturali. Ma, ci sono molte situazioni in cui non è possibile eseguire l'esperimento ideale e la natura non ha fornito un esperimento naturale. In queste impostazioni, il modo migliore per creare un confronto equo è la corrispondenza. In corrispondenza, il ricercatore guarda attraverso i dati non sperimentali per creare coppie di persone che sono simili, tranne che uno ha ricevuto il trattamento e uno non ha. Nel processo di corrispondenza, i ricercatori sono in realtà anche potatura; vale a dire, scartando i casi dove non ci sono evidenti confronto. Così, questo metodo potrebbe essere più accuratamente chiamata corrispondente-e-la potatura, ma io bastone con la menzione tradizionale: corrispondenza.
Un bellissimo esempio del potere della corrispondenza strategie con sorgenti di dati non sperimentali massicce provengono dalla ricerca sul comportamento dei consumatori per Liran Einav e colleghi (2015) . Einav e colleghi sono stati interessati ad aste che si svolgono su eBay, e nel descrivere il loro lavoro, mi concentrerò su un aspetto particolare: l'effetto del prezzo d'asta di partenza sui risultati d'aste, come ad esempio il prezzo di vendita o la probabilità di una vendita.
Il modo più ingenuo per rispondere alla domanda circa l'effetto di prezzo di partenza sul prezzo di vendita sarebbe calcolare semplicemente il prezzo finale per le aste con diversi prezzi di partenza. Questo approccio sarebbe bene se si vuole semplicemente prevedere il prezzo di vendita di un determinato elemento che era stato messo su eBay con un dato prezzo di partenza. Ma, se la tua domanda è: qual è l'effetto del prezzo di partenza sui risultati di mercato questo approccio non funziona perché non si basa su un confronto equo; le aste con prezzi di partenza più bassi potrebbero essere molto diverso da aste con prezzi di partenza più elevati (ad esempio, potrebbero essere per i diversi tipi di merci o di includere diversi tipi di venditori).
Se sei già preoccupati per fare confronti equi, si potrebbe saltare l'approccio ingenuo e prendere in considerazione l'esecuzione di un esperimento sul campo in cui si desidera vendere una specifica voce-Say, una mazza da golf, con un insieme fisso di aste parametri-dici, il trasporto libero, l'asta aperto per due settimane, ecc, ma con impostare in modo casuale prezzi a partire. Confrontando i risultati del mercato derivanti, questo esperimento campo offrirebbe una chiara misura dell'effetto di prezzo a partire dal prezzo di vendita. Ma, questa misura si applicherebbe soltanto ad un prodotto particolare e una serie di parametri di aste. I risultati potrebbero essere diverse, ad esempio, per i diversi tipi di prodotti. Senza una forte teoria, è difficile estrapolare da questo singolo esperimento l'intera gamma di possibili esperimenti che avrebbero potuto essere eseguito. Inoltre, esperimenti di campo sono sufficientemente costosi che non sia fattibile per eseguire abbastanza di loro fino a coprire l'intero spazio parametrico di prodotti e tipi di asta.
In contrasto con l'approccio naive e l'approccio sperimentale, Einav e colleghi hanno un terzo approccio: corrispondenza. Il trucco principale della loro strategia è quella di scoprire cose simili a esperimenti sul campo che hanno già accaduto su eBay. Ad esempio, la Figura 2.6 mostra alcuni dei 31 annunci per lo stesso golf club-a Taylormade Burner 09 driver-venduto da esattamente lo stesso seller- "budgetgolfer". Tuttavia, queste liste hanno caratteristiche leggermente diverse. Undici di essi offrono al conducente per un prezzo fisso di $ 124,99, mentre gli altri 20 sono aste con diverse date di fine. Inoltre, le liste sono diverse spese di spedizione, o $ 7,99 o $ 9,99. In altre parole, è come se "budgetgolfer" esegue esperimenti per i ricercatori.
Gli annunci del Taylormade Burner 09 driver venduti da "budgetgolfer" sono un esempio di un unico set di annunci, dove lo stesso esatto oggetto è venduto da esattamente lo stesso venditore, ma ogni volta con caratteristiche leggermente diverse. Entro i massicci tronchi di eBay ci sono letteralmente centinaia di migliaia di set abbinati che coinvolgono milioni di elenchi. Così, invece di confrontare il prezzo finale per tutte le aste in un determinato prezzo di partenza, Einav e colleghi fanno i confronti all'interno set accoppiati. Al fine di combinare i risultati delle comparazioni all'interno di queste centinaia di migliaia di set accoppiati, Einav e colleghi riesprimere il prezzo di partenza e il prezzo finale in termini di valore di riferimento di ogni elemento (ad esempio, il suo prezzo medio di vendita). Ad esempio, se il Taylormade Burner 09 driver ha un valore di riferimento di $ 100 (basato su vendite), quindi un prezzo di partenza di $ 10 sarà espressa come 0,1 e prezzo finale di $ 120 verrebbe espressa come 1.2.
Ricordiamo che Einav e colleghi sono stati interessati l'effetto del prezzo di partenza sui risultati d'aste. In primo luogo, utilizzando la regressione lineare, si stima che i prezzi di partenza più elevato diminuiscono la probabilità di una vendita, e che i prezzi di partenza più elevato aumentare il prezzo di vendita finale, condizione che una vendita che si verificano. Da soli, queste stime-cui media è calcolata su tutti i prodotti e assumono una relazione lineare tra il prezzo di partenza e finali non i risultati a sono tutto ciò che interessante. Ma, Einav e colleghi hanno anche utilizzare la dimensione di massa dei propri dati per stimare una serie di risultati più sottili. In primo luogo, Einav e colleghi hanno fatto queste stime separatamente per elementi di prezzi diversi e senza usare la regressione lineare. Essi hanno scoperto che, mentre il rapporto tra prezzo di partenza e la probabilità di una vendita è lineare, il rapporto tra prezzo di partenza e il prezzo di vendita è chiaramente non lineare (Figura 2.7). In particolare, per l'avvio di prezzi tra 0,05 e 0,85, il prezzo di partenza ha un impatto minimo sul prezzo di vendita, una scoperta che è stata completata mancato nell'analisi che aveva assunto una relazione lineare.
In secondo luogo, piuttosto che una media di oltre tutti gli elementi, Einav e colleghi hanno anche utilizzano la scala dei propri dati per stimare l'impatto del prezzo di partenza per 23 diverse categorie di prodotti (ad esempio, prodotti per animali, elettronica, e cimeli sportivi) (Figura 2.8). Queste stime mostrano che per più caratteristici oggetti-cimeli come il prezzo-start ha un effetto minore sulla probabilità di una vendita e un effetto maggiore sul prezzo finale di vendita. Inoltre, per gli oggetti-come più mercificata come DVD e video il prezzo di partenza non ha quasi alcun impatto sul prezzo finale. In altre parole, una media che combina i risultati da 23 diverse categorie di articoli nasconde informazioni importanti sulle differenze tra questi elementi.
Anche se non siete particolarmente interessati alle aste su eBay, si deve ammirare il modo in cui Figura 2.7 e Figura 2.8 offre una comprensione più ricca di eBay che semplici stime di regressione lineare che assumono relazioni lineari e combinare molte diverse categorie di oggetti. Queste stime più sottili illustrano la potenza di corrispondenza nei dati di massa; queste stime sarebbero state impossibili senza un numero enorme di esperimenti sul campo, che sarebbe stato proibitivo.
Naturalmente, dovremmo avere meno fiducia nei risultati di un particolare studio di corrispondenza di quello che sarebbe nei risultati di un esperimento simile. Nel valutare i risultati di qualsiasi studio di corrispondenza, ci sono due problemi importanti. In primo luogo, dobbiamo ricordare che siamo in grado di garantire solo i confronti equi su cose che sono stati utilizzati per la corrispondenza. Nei loro risultati principali, Einav e colleghi hanno esatto corrispondenza su quattro caratteristiche: numero rivenditore ID, Categoria dell'oggetto, titolo voce, e sottotitoli. Se le voci fossero diverse in modi che non sono stati utilizzati per la corrispondenza, che potrebbero creare un raffronto non equo. Ad esempio, se "budgetgolfer" abbassato i prezzi per Taylormade Burner 09 driver in inverno (quando mazze da golf sono meno popolari), quindi potrebbe sembrare che i prezzi di partenza più bassi portano ad abbassare i prezzi finali, quando in realtà questo sarebbe un artefatto di stagione variazione della domanda. In generale, l'approccio migliore a questo problema sembra essere cercando diversi tipi di corrispondenza. Ad esempio, Einav e colleghi ripetono la loro analisi in cui set accoppiati includono articoli in vendita entro un anno, entro un mese, e contemporaneamente. Rendere la finestra temporale stretto diminuisce il numero di set accoppiati, ma riduce le preoccupazioni circa variazione stagionale. Per fortuna, scoprono che i risultati non sono cambiati da questi cambiamenti di criteri di corrispondenza. Nella letteratura di corrispondenza, questo tipo di preoccupazione è di solito espressa in termini di osservabili e non osservabili, ma l'idea chiave è davvero che i ricercatori stanno creando solo i confronti equi sulle caratteristiche utilizzati in abbinamento.
La seconda preoccupazione principale quando si interpretano i risultati corrispondenti è che si applicano solo ai dati corrispondenti; essi non si applicano ai casi che non possono essere abbinati. Ad esempio, limitando la loro ricerca di elementi che avevano più inserzioni Einav e colleghi stanno concentrando sui venditori professionali e semi-professionali. Così, quando si interpretano questi confronti, dobbiamo ricordare che si applicano solo a questo sottoinsieme di eBay.
Matching è una strategia potente per la ricerca di confronti equi in grandi insiemi di dati. Per molti scienziati sociali, corrispondente sente come secondo migliore agli esperimenti, ma che è una credenza che dovrebbe essere rivisto, un po '. Corrispondenza nei dati di massa potrebbe essere migliore di un piccolo numero di esperimenti di campo quando: 1) l'eterogeneità in effetti è importante e 2) ci sono buone osservabili per la corrispondenza. Tabella 2.4 fornisce alcuni altri esempi di come può essere utilizzato con grandi fonti di dati corrispondenti.
attenzione sostanziale | Grande fonte di dati | Citazione |
---|---|---|
Effetto delle sparatorie sulla violenza della polizia | Stop-and-Frisk record | Legewie (2016) |
Effetto del 11 settembre 2001 sulle famiglie e vicini di casa | record di voto e record di donazione | Hersh (2013) |
contagio sociale | La comunicazione e l'adozione dei dati di prodotto | Aral, Muchnik, and Sundararajan (2009) |
In conclusione, gli approcci ingenuo stimare effetti causali da dati non sperimentali sono pericolosi. Tuttavia, le strategie di stima causali che si trovano lungo un continuum dal più forte al più debole, ei ricercatori possono scoprire i confronti equi all'interno dei dati non sperimentali. La crescita dei grandi sistemi di dati, always-on aumenta la nostra capacità di utilizzare efficacemente due metodi esistenti: esperimenti naturali e di corrispondenza.