2.4.3.2 Matching

Ταιριάζουν δημιουργούν εύλογες συγκρίσεις με το κλάδεμα μακριά περιπτώσεις.

Δίκαιη συγκρίσεις μπορεί να προέλθει είτε από τυχαιοποιημένες ελεγχόμενες πειράματα ή φυσικά πειράματα. Αλλά, υπάρχουν πολλές περιπτώσεις όπου δεν μπορείτε να εκτελέσετε το ιδανικό πείραμα και η φύση δεν έχει προβλέψει ένα φυσικό πείραμα. Σε αυτές τις ρυθμίσεις, ο καλύτερος τρόπος για να δημιουργήσετε μια δίκαιη σύγκριση ταιριάζουν. Στην αντιστοίχιση, ο ερευνητής κοιτάζει μέσα από μη-πειραματικά δεδομένα για να δημιουργήσει ζεύγη των ανθρώπων που είναι παρόμοια με τη διαφορά ότι το ένα έχει λάβει τη θεραπεία και ένα δεν έχει. Κατά τη διαδικασία της αντιστοίχισης, οι ερευνητές είναι στην πραγματικότητα επίσης κλάδεμα? ότι είναι, απορρίπτοντας τις περιπτώσεις όπου δεν υπάρχουν προφανείς σύγκριση. Έτσι, η μέθοδος αυτή θα ακριβέστερα ονομάζεται αντιστοίχιση-και-κλάδεμα, αλλά εγώ θα κολλήσει με την παραδοσιακή ένδειξη: ταιριάζουν.

Ένα όμορφο παράδειγμα της δύναμης του ταιριάζουν στρατηγικών με μαζικές μη πειραματικές πηγές δεδομένων προέρχονται από την έρευνα σχετικά με τη συμπεριφορά των καταναλωτών από Liran Einav και οι συνεργάτες του (2015) . Einav και οι συνεργάτες του έδειξαν ενδιαφέρον για δημοπρασίες που λαμβάνουν χώρα σε eBay, και περιγράφουν τη δουλειά τους, θα επικεντρωθεί σε μια συγκεκριμένη πτυχή: το αποτέλεσμα της δημοπρασίας τιμή εκκίνησης στα αποτελέσματα της δημοπρασίας, όπως η τιμή πώλησης ή την πιθανότητα μιας πώλησης.

Η πιο αφελής τρόπος για να απαντηθεί το ερώτημα σχετικά με την επίδραση της τιμής εκκίνησης για την τιμή πώλησης θα ήταν να υπολογίσει απλά την τελική τιμή για τους πλειστηριασμούς με διαφορετικές τιμές εκκίνησης. Η προσέγγιση αυτή θα ήταν μια χαρά αν απλά θέλετε να προβλεφθεί η τιμή πώλησης ενός συγκεκριμένου στοιχείου που είχε τεθεί σε eBay με μια δεδομένη τιμή εκκίνησης. Αλλά, αν η ερώτησή σας είναι ποια είναι η επίδραση της τιμή εκκίνησης στην απόδοση της αγοράς αυτή την προσέγγιση δεν θα λειτουργήσει, διότι δεν βασίζεται σε δίκαιες συγκρίσεις? οι δημοπρασίες με χαμηλότερες τιμές εκκίνησης μπορεί να είναι αρκετά διαφορετική από τις δημοπρασίες με υψηλότερες τιμές εκκίνησης (π.χ., θα μπορούσε να είναι για τα διάφορα είδη αγαθών ή περιλαμβάνουν διάφορα είδη των πωλητών).

Εάν ανησυχείτε ήδη για την παραγωγή δίκαιη σύγκριση, μπορείτε να παρακάμψετε την αφελή προσέγγιση και να εξετάσει τη λειτουργία μιας πείραμα πεδίο όπου θα πωλήσει ένα συγκεκριμένο στοιχείο-πω, ένα γκολφ κλαμπ με ένα σταθερό σύνολο της δημοπρασίας παραμέτρων-πω, δωρεάν αποστολή, δημοπρασία ανοικτή για δύο εβδομάδες, κ.λπ., αλλά με οριστεί τυχαία αρχικές τιμές. Με τη σύγκριση των επιπτώσεών τους στην αγορά, το πείραμα αυτό το πεδίο θα προσφέρει μια πολύ σαφή μέτρηση της επίδρασης της τιμή εκκίνησης για την τιμή πώλησης. Όμως, η μέτρηση αυτή θα ισχύει μόνο για ένα συγκεκριμένο προϊόν και το σύνολο των παραμέτρων πλειστηριασμού. Τα αποτελέσματα μπορεί να είναι διαφορετικά, για παράδειγμα, για διαφορετικούς τύπους προϊόντων. Χωρίς ισχυρή θεωρία, είναι δύσκολο να γίνει παρέκταση από αυτό το μοναδικό πείραμα το πλήρες φάσμα των πιθανών πειραμάτων που θα μπορούσαν να έχουν τρέξει. Περαιτέρω, τα πειράματα πεδίου είναι αρκετά ακριβά ότι θα ήταν ανέφικτο να τρέξει αρκετά από αυτά μέχρι να καλύψει όλο το χώρο των παραμέτρων των προϊόντων και των τύπων δημοπρασιών.

Σε αντίθεση με την αφελή προσέγγιση και την πειραματική προσέγγιση, Einav και οι συνεργάτες λάβει μια τρίτη προσέγγιση: ταιριάζουν. Το βασικό τέχνασμα της στρατηγικής τους είναι να ανακαλύψουν τα πράγματα παρόμοια με τα πειράματα στον τομέα που έχουν ήδη συμβεί σε eBay. Για παράδειγμα, το Σχήμα 2.6 παρουσιάζει μερικές από τις 31 καταχωρήσεις για τον ίδιο ακριβώς γκολφ κλαμπ-α Taylormade καυστήρα 09 Driver-που πωλούνται από την ίδια ακριβώς Πωλητής- "budgetgolfer". Ωστόσο, αυτές οι καταχωρίσεις έχουν ελαφρώς διαφορετικά χαρακτηριστικά. Έντεκα από αυτά προσφέρουν τον οδηγό για μια σταθερή τιμή των $ 124,99, ενώ το άλλο 20 είναι δημοπρασίες με διαφορετικές ημερομηνίες λήξης. Επίσης, οι καταχωρήσεις έχουν διαφορετικές αμοιβές ναυτιλίας, είτε $ 7.99 ή $ 9,99. Με άλλα λόγια, είναι σαν να "budgetgolfer" τρέχει πειράματα για τους ερευνητές.

Οι καταχωρήσεις του Taylormade καυστήρα 09 οδηγού που πωλούνται από "budgetgolfer" είναι ένα παράδειγμα ενός συμφωνημένα σύνολο των λιστών, όπου το ίδιο ακριβώς στοιχείο πωλείται από την ίδια ακριβώς πωλητή, αλλά κάθε φορά με ελαφρώς διαφορετικά χαρακτηριστικά. Εντός των μαζικών αρχεία καταγραφής του eBay υπάρχουν κυριολεκτικά εκατοντάδες χιλιάδες ταιριάζουν σύνολα που αφορούν εκατομμύρια καταχωρήσεις. Έτσι, αντί να συγκρίνει την τελική τιμή για όλες τις δημοπρασίες μέσα σε μια δεδομένη τιμή εκκίνησης, Einav και οι συνεργάτες του κάνουν συγκρίσεις μέσα σε συμφωνημένα σύνολα. Για να συνδυάσουμε τα αποτελέσματα από τις συγκρίσεις στο πλαίσιο αυτών των εκατοντάδων χιλιάδων συμφωνημένα σύνολα, Einav και οι συνεργάτες του νέου εκφράζουν την τιμή εκκίνησης και την τελική τιμή σε σχέση με την τιμή αναφοράς του κάθε στοιχείου (π.χ., η μέση τιμή πώλησης του). Για παράδειγμα, αν η Taylormade καυστήρα 09 Driver έχει μια τιμή αναφοράς των $ 100 (με βάση τις πωλήσεις του), τότε η τιμή εκκίνησης των $ 10 θα πρέπει να εκφράζεται ως 0,1 και η τελική τιμή των $ 120 θα πρέπει να εκφράζεται ως 1.2.

Σχήμα 2.6: Ένα παράδειγμα μια αντίστοιχη σειρά. Αυτό είναι ακριβώς το ίδιο λέσχη γκολφ (α Driver Taylormade καυστήρα 09) που πωλούνται από το ίδιο ακριβώς πρόσωπο (budgetgolfer), αλλά μερικές από τις πωλήσεις αυτές έγιναν από διαφορετικές συνθήκες (π.χ., διαφορετική τιμή εκκίνησης). Το σχήμα που λαμβάνεται από Einav et al. (2015).

Σχήμα 2.6: Ένα παράδειγμα μια αντίστοιχη σειρά. Αυτό είναι ακριβώς το ίδιο λέσχη γκολφ (α Driver Taylormade καυστήρα 09) που πωλούνται από το ίδιο ακριβώς πρόσωπο ( "budgetgolfer"), αλλά μερικές από τις πωλήσεις αυτές έγιναν από διαφορετικές συνθήκες (π.χ., διαφορετική τιμή εκκίνησης). Το σχήμα που λαμβάνεται από Einav et al. (2015) .

Υπενθυμίζουμε ότι Einav και οι συνεργάτες του ήταν ενδιαφέρονται για την επίδραση της τιμής εκκίνησης για τα αποτελέσματα της δημοπρασίας. Κατ 'αρχάς, με τη χρήση γραμμικής παλινδρόμησης που εκτιμάται ότι οι υψηλότερες τιμές εκκίνησης μειώνουν την πιθανότητα μιας πώλησης, και ότι οι υψηλότερες τιμές εκκίνησης την αύξηση της τελικής τιμής πώλησης, εξαρτάται από μια πώληση που συμβαίνουν. Από μόνες τους, οι εκτιμήσεις αυτές, οι οποίες κατά μέσο όρο για όλα τα προϊόντα και να υιοθετήσει μια γραμμική σχέση μεταξύ της τιμής εκκίνησης και την τελική έκβαση δεν-είναι όλα αυτά ενδιαφέροντα. Αλλά, Einav και οι συνεργάτες του χρησιμοποιούν επίσης το τεράστιο μέγεθος των δεδομένων τους για να εκτιμηθεί μια ποικιλία από πιο λεπτή ευρήματα. Κατ 'αρχάς, Einav και οι συνεργάτες του έκανε αυτές τις εκτιμήσεις ξεχωριστά για τα είδη των διαφορετικών τιμών και χωρίς τη χρήση γραμμικής παλινδρόμησης. Διαπίστωσαν ότι ενώ η σχέση μεταξύ της τιμής εκκίνησης και την πιθανότητα μιας πώλησης είναι γραμμική, η σχέση μεταξύ της τιμής εκκίνησης και η τιμή πώλησης είναι σαφώς μη-γραμμική (Σχήμα 2.7). Ειδικότερα, για την έναρξη των τιμών μεταξύ 0,05 και 0,85, η τιμή εκκίνησης έχει πολύ μικρό αντίκτυπο στην τιμή πώλησης, ένα εύρημα που ολοκληρώθηκε έχασε στην ανάλυση που είχε αναλάβει μια γραμμική σχέση.

Σχήμα 2.7: Σχέση μεταξύ τιμής εκκίνησης της δημοπρασίας και την πιθανότητα μιας πώλησης (αριστερό πάνελ) και τιμή πώλησης (δεξιά πλευρά). Υπάρχει σχεδόν μια γραμμική σχέση μεταξύ της τιμής εκκίνησης και την πιθανότητα πώλησης, αλλά υπάρχει μια μη γραμμική σχέση μεταξύ της τιμής εκκίνησης και τιμής πώλησης? για την έναρξη των τιμών μεταξύ 0,05 και 0,85, η τιμή εκκίνησης έχει πολύ μικρή επίδραση στην τιμή πώλησης. Και στις δύο περιπτώσεις, οι σχέσεις είναι βασικά ανεξάρτητες από τιμή στοιχείου. Αυτά τα γραφήματα αναπαράγουν σχήμα 4α και 4β Einav et al. (2015).

Σχήμα 2.7: Σχέση μεταξύ τιμής εκκίνησης της δημοπρασίας και την πιθανότητα μιας πώλησης (αριστερό πάνελ) και τιμή πώλησης (δεξιά πλευρά). Υπάρχει σχεδόν μια γραμμική σχέση μεταξύ της τιμής εκκίνησης και την πιθανότητα πώλησης, αλλά υπάρχει μια μη γραμμική σχέση μεταξύ της τιμής εκκίνησης και τιμής πώλησης? για την έναρξη των τιμών μεταξύ 0,05 και 0,85, η τιμή εκκίνησης έχει πολύ μικρή επίδραση στην τιμή πώλησης. Και στις δύο περιπτώσεις, οι σχέσεις είναι βασικά ανεξάρτητες από τιμή στοιχείου. Αυτά τα γραφήματα αναπαράγουν σχήμα 4α και 4β Einav et al. (2015) .

Δεύτερον, παρά μέσο όρο πάνω από όλα τα στοιχεία, Einav και οι συνεργάτες του χρησιμοποιούν επίσης τη μαζική κλίμακα των δεδομένων τους για την εκτίμηση των επιπτώσεων της τιμή εκκίνησης για 23 διαφορετικές κατηγορίες αντικειμένων (π.χ., τις προμήθειες κατοικίδιων ζώων, τα ηλεκτρονικά και αθλητικά αναμνηστικά) (Εικόνα 2.8). Αυτές οι εκτιμήσεις δείχνουν ότι για περισσότερα διακριτικά στοιχεία, όπως η τιμή αναμνηστικά εκκίνησης έχει μικρότερη επίδραση στην πιθανότητα μιας πώλησης και μια μεγαλύτερη επίδραση στην τελική τιμή πώλησης. Περαιτέρω, για την πιο εμπορευματοποιημένο στοιχεία, όπως τα DVD και βίντεο-τιμής εκκίνησης δεν έχει σχεδόν καμία επίπτωση στην τελική τιμή. Με άλλα λόγια, ένα μέσο που συνδυάζει τα αποτελέσματα από 23 διαφορετικές κατηγορίες αντικειμένων κρύβει σημαντικές πληροφορίες σχετικά με τις διαφορές μεταξύ αυτών των στοιχείων.

Σχήμα 2.8: Τα αποτελέσματα έδειξαν εκτιμήσεις από κάθε κατηγορία ξεχωριστά? Το στερεό τελεία στην εκτίμηση για όλες τις κατηγορίες συγκεντρωθούν, Πίνακας 11 (Einav et al. 2015, Πίνακας 11). Αυτές οι εκτιμήσεις δείχνουν ότι για περισσότερα διακριτικά στοιχεία, όπως αναμνηστικά, η τιμή εκκίνησης έχει μικρότερη επίδραση στην πιθανότητα μιας πώλησης (άξονας x) και μια μεγαλύτερη επίδραση επί της τελικής τιμής πώλησης (άξονας y).

Σχήμα 2.8: Τα αποτελέσματα έδειξαν εκτιμήσεις από κάθε κατηγορία ξεχωριστά? Το στερεό τελεία στην εκτίμηση για όλες τις κατηγορίες συγκεντρωθούν (Einav et al. 2015, Table 11) . Αυτές οι εκτιμήσεις δείχνουν ότι για περισσότερα διακριτικά στοιχεία, όπως αναμνηστικά, η τιμή εκκίνησης έχει μικρότερη επίδραση στην πιθανότητα μιας πώλησης (άξονας x) και μια μεγαλύτερη επίδραση επί της τελικής τιμής πώλησης (άξονας y).

Ακόμα κι αν δεν ενδιαφέρονται ιδιαίτερα για τις δημοπρασίες στο eBay, μπορείτε να θαυμάσετε τον τρόπο που Εικόνα 2.7 και Εικόνα 2.8 προσφέρουν μια βαθύτερη κατανόηση του eBay από την απλή γραμμική παλινδρόμηση εκτιμήσεις που αναλαμβάνουν γραμμικές σχέσεις και συνδυάζουν πολλές διαφορετικές κατηγορίες αντικειμένων. Αυτές οι πιο λεπτές εκτιμήσεις απεικονίζουν τη δύναμη του ταιριάζουν σε μαζικές δεδομένων? Οι εκτιμήσεις αυτές θα ήταν αδύνατη χωρίς ένα τεράστιο αριθμό των πειραμάτων πεδίο, το οποίο θα ήταν απαγορευτικά δαπανηρή.

Φυσικά, θα πρέπει να έχουμε λιγότερη εμπιστοσύνη στα αποτελέσματα οποιασδήποτε συγκεκριμένης μελέτης ταιριάζουν από ό, τι κάνατε στα αποτελέσματα της συγκρίσιμης πειράματος. Κατά την αξιολόγηση των αποτελεσμάτων από οποιαδήποτε μελέτη που ταιριάζουν, υπάρχουν δύο σημαντικές ανησυχίες. Κατ 'αρχάς, πρέπει να θυμόμαστε ότι μπορούμε να διασφαλίσουμε μόνο δίκαιη συγκρίσεις για πράγματα που χρησιμοποιήθηκαν για να ταιριάζουν. Στην κύρια αποτελέσματά τους, Einav και οι συνεργάτες του είχαν την ακριβή αντιστοιχία σε τέσσερα χαρακτηριστικά: αριθμός πωλητή ID, την κατηγορία στοιχείο, τίτλος στοιχείου, και υπότιτλος. Αν τα στοιχεία ήταν διαφορετικά, με τρόπους που δεν είχαν χρησιμοποιηθεί για το ταίριασμα, που θα μπορούσε να δημιουργήσει μια άδικη σύγκριση. Για παράδειγμα, αν το "budgetgolfer" μείωσε τις τιμές για Taylormade καυστήρα 09 οδήγησης το χειμώνα (όταν τα γκολφ κλαμπ είναι λιγότερο δημοφιλή), τότε θα μπορούσε να φαίνεται ότι οι χαμηλότερες τιμές εκκίνησης να οδηγήσει σε μείωση των τελικών τιμών, όταν στην πραγματικότητα αυτό θα ήταν ένα κατασκεύασμα της εποχιακής διακύμανση της ζήτησης. Σε γενικές γραμμές, η καλύτερη προσέγγιση σε αυτό το πρόβλημα φαίνεται να προσπαθεί πολλά διαφορετικά είδη να ταιριάζουν. Για παράδειγμα, Einav και οι συνεργάτες του επαναλαμβάνουν την ανάλυσή τους, όπου συνδυάζεται σύνολα περιλαμβάνουν στοιχεία για την πώληση μέσα σε ένα χρόνο, μέσα σε ένα μήνα, και ταυτόχρονα. Κάνοντας το χρονικό παράθυρο αυστηρότερο μειώνει τον αριθμό των ταιριάζουν σύνολα, αλλά μειώνει τις ανησυχίες για εποχιακή διακύμανση. Ευτυχώς, βρίσκουν ότι τα αποτελέσματα είναι αμετάβλητες από αυτές τις αλλαγές στο συμφωνούν με τα κριτήρια. Στην αντίστοιχη λογοτεχνία, αυτός ο τύπος ανησυχία εκφράζεται συνήθως σε όρους παρατηρήσιμων και μη- παρατηρήσιμες μεταβλητές, αλλά η βασική ιδέα είναι πραγματικά ότι οι ερευνητές δημιουργούν μόνο δίκαιη συγκρίσεις με τα χαρακτηριστικά που χρησιμοποιούνται στην αντιστοίχιση.

Η δεύτερη σημαντική ανησυχία κατά την ερμηνεία που ταιριάζουν αποτελέσματα είναι ότι ισχύει μόνο για προσαρμοσμένα δεδομένα? δεν εφαρμόζεται στις περιπτώσεις που δεν μπορούσε να ταιριάζουν. Για παράδειγμα, περιορίζοντας την έρευνά τους σε στοιχεία που είχαν πολλαπλές καταχωρήσεις Einav και οι συνεργάτες του επικεντρώνονται στην επαγγελματική και ημι-επαγγελματίες πωλητές. Έτσι, κατά την ερμηνεία αυτών των συγκρίσεων πρέπει να θυμόμαστε ότι εφαρμόζονται μόνο σε αυτό το υποσύνολο του eBay.

Αντιστοίχιση είναι μια ισχυρή στρατηγική για την εξεύρεση δίκαιης συγκρίσεις σε μεγάλα σύνολα δεδομένων. Για πολλούς κοινωνικούς επιστήμονες, που ταιριάζουν αισθάνεται σαν δεύτερη καλύτερη στα πειράματα, αλλά αυτό είναι μια πεποίθηση που θα πρέπει να αναθεωρηθεί, ελαφρά. Ταιριάζουν σε μαζική δεδομένων θα μπορούσε να είναι καλύτερο από ένα μικρό αριθμό των πειραμάτων πεδίου, όταν: 1) η ανομοιογένεια των αποτελεσμάτων είναι σημαντική και 2) υπάρχουν καλές παρατηρήσιμα για να ταιριάζουν. Πίνακας 2.4 παρέχει μερικά άλλα παραδείγματα για το πώς ταιριάζουν μπορεί να χρησιμοποιηθεί με μεγάλα πηγές δεδομένων.

Πίνακας 2.4: Παραδείγματα μελετών που χρησιμοποιούν ταιριάζουν για να βρει δίκαιη συγκρίσεις μέσα ψηφιακή ίχνη.
ουσιαστικές εστίαση Big πηγή δεδομένων Παραπομπή
Επίδραση των γυρισμάτων για την αστυνομική βία Stop-and-σκίρτημα εγγραφές Legewie (2016)
Επίδραση της 11ης Σεπτεμβρίου 2001, για τις οικογένειες και τους γείτονές αρχεία ψήφου και τα αρχεία δωρεά Hersh (2013)
κοινωνική μετάδοσης Ανακοίνωση και έγκριση των προϊόντων δεδομένων Aral, Muchnik, and Sundararajan (2009)

Εν κατακλείδι, αφελείς προσεγγίσεις για την εκτίμηση αιτιώδεις επιδράσεις από μη-πειραματικά δεδομένα είναι επικίνδυνα. Ωστόσο, οι στρατηγικές για την πραγματοποίηση αιτιώδη εκτιμήσεις που βρίσκονται κατά μήκος ενός συνεχούς από την ισχυρότερη προς την ασθενέστερη, και οι ερευνητές μπορούν να ανακαλύψουν δίκαιες συγκρίσεις εντός μη-πειραματικά δεδομένα. Η ανάπτυξη της πάντα-on, μεγάλα συστήματα δεδομένων αυξάνει την ικανότητά μας να χρησιμοποιούν αποτελεσματικά δύο υπάρχουσες μεθόδους: φυσικό πειράματα και να ταιριάζουν.