Νομίζω ότι ο καλύτερος τρόπος για να κατανοήσετε τα πειράματα είναι το πιθανό πλαίσιο αποτελεσμάτων (το οποίο αναφέρθηκε στις μαθηματικές σημειώσεις στο κεφάλαιο 2). Το πλαίσιο των πιθανών αποτελεσμάτων έχει στενή σχέση με τις ιδέες από τη δειγματοληψία με βάση το σχεδιασμό που περιέγραψα στο κεφάλαιο 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Αυτό το παράρτημα έχει γραφτεί κατά τέτοιο τρόπο ώστε να τονίζεται αυτή η σύνδεση. Αυτή η έμφαση είναι λίγο μη παραδοσιακή, αλλά νομίζω ότι η σχέση ανάμεσα στη δειγματοληψία και τα πειράματα είναι χρήσιμη: σημαίνει ότι αν ξέρετε κάτι για τη δειγματοληψία τότε ξέρετε κάτι για τα πειράματα και αντίστροφα. Όπως θα δείξω σε αυτές τις σημειώσεις, το πλαίσιο των πιθανών αποτελεσμάτων αποκαλύπτει τη δύναμη τυχαιοποιημένων ελεγχόμενων πειραμάτων για την εκτίμηση των αιτιωδών επιπτώσεων και δείχνει τους περιορισμούς του τι μπορεί να γίνει με ακόμη και τέλεια εκτελεσμένα πειράματα.
Σε αυτό το παράρτημα, θα περιγράψω το πλαίσιο των δυνητικών αποτελεσμάτων, διπλασιάζοντας ένα μέρος του υλικού από τις μαθηματικές σημειώσεις στο κεφάλαιο 2, για να καταστήσω αυτές τις σημειώσεις πιο αυτοτελείς. Στη συνέχεια, θα περιγράψω κάποια χρήσιμα αποτελέσματα σχετικά με την ακρίβεια των εκτιμήσεων των μέσων επιδράσεων της θεραπείας, συμπεριλαμβανομένης της συζήτησης των βέλτιστων εκτιμήσεων κατανομής και διαφορών στις διαφορές. Αυτό το παράρτημα προσελκύει σε μεγάλο βαθμό το Gerber and Green (2012) .
Πλαίσιο δυνητικών αποτελεσμάτων
Προκειμένου να επεξηγήσουμε το πλαίσιο των πιθανών αποτελεσμάτων, επιστρέψουμε στο πείραμα του Restivo και του van de Rijt για να εκτιμήσουμε το αποτέλεσμα της λήψης ενός barnstar στις μελλοντικές συνεισφορές στη Wikipedia. Το πλαίσιο δυνητικών αποτελεσμάτων έχει τρία βασικά στοιχεία: μονάδες , θεραπείες και δυνητικά αποτελέσματα . Στην περίπτωση των Restivo και van de Rijt, οι μονάδες άξιζαν τους συντάκτες - εκείνους στο κορυφαίο 1% των συνεισφερόντων - οι οποίοι δεν είχαν λάβει ακόμα barnstar. Μπορούμε να δείξουμε αυτούς τους επεξεργαστές με \(i = 1 \ldots N\) . Οι επεξεργασίες στο πείραμά τους ήταν "barnstar" ή "no barnstar" και θα γράψω \(W_i = 1\) εάν το άτομο \(i\) βρίσκεται στην κατάσταση θεραπείας και \(W_i = 0\) διαφορετικά. Το τρίτο στοιχείο του πλαισίου δυνητικών αποτελεσμάτων είναι το πιο σημαντικό: τα πιθανά αποτελέσματα . Αυτά είναι λίγο πιο εννοιολογικά δύσκολα, επειδή περιλαμβάνουν "δυνητικά" αποτελέσματα - πράγματα που θα μπορούσαν να συμβούν. Για κάθε επεξεργαστή της Wikipedia, μπορεί κανείς να φανταστεί τον αριθμό των επεξεργασιών που θα έκανε στην κατάσταση θεραπείας ( \(Y_i(1)\) ) και τον αριθμό που θα έκανε στην κατάσταση ελέγχου ( \(Y_i(0)\) ).
Σημειώστε ότι αυτή η επιλογή μονάδων, θεραπειών και αποτελεσμάτων καθορίζει τι μπορεί να μάθει από αυτό το πείραμα. Για παράδειγμα, χωρίς πρόσθετες υποθέσεις, οι Restivo και van de Rijt δεν μπορούν να πουν τίποτα για τις επιπτώσεις των barnstars σε όλους τους συντάκτες της Wikipedia ή για αποτελέσματα όπως η ποιότητα επεξεργασίας. Γενικά, η επιλογή των μονάδων, των θεραπειών και των αποτελεσμάτων πρέπει να βασίζεται στους στόχους της μελέτης.
Λαμβάνοντας υπόψη αυτά τα πιθανά αποτελέσματα - τα οποία συνοψίζονται στον Πίνακα 4.5 - μπορεί κανείς να καθορίσει την αιτιώδη επίδραση της θεραπείας για το άτομο \(i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Για μένα, αυτή η εξίσωση είναι ο σαφέστερος τρόπος για τον ορισμό μιας αιτιακής επίδρασης και, αν και εξαιρετικά απλό, το πλαίσιο αυτό αποδεικνύεται γενικεύσιμο με πολλούς σημαντικούς και ενδιαφέροντες τρόπους (Imbens and Rubin 2015) .
Πρόσωπο | Επεξεργασίες σε κατάσταση θεραπείας | Επεξεργασίες σε κατάσταση ελέγχου | Επεξεργασία |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
Ν | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
σημαίνω | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Αν ορίζουμε την αιτιώδη συνάφεια με αυτόν τον τρόπο, ωστόσο, αντιμετωπίζουμε ένα πρόβλημα. Σε όλες σχεδόν τις περιπτώσεις, δεν παρατηρούμε και τα δυο πιθανά αποτελέσματα. Δηλαδή, ένας συγκεκριμένος συντάκτης της Βικιπαίδειας είτε έλαβε ένα barnstar είτε όχι. Επομένως, παρατηρούμε ένα από τα πιθανά αποτελέσματα - \(Y_i(1)\) ή \(Y_i(0)\) - αλλά όχι και τα δύο. Η αδυναμία να παρατηρηθούν και τα δύο δυνητικά αποτελέσματα είναι ένα τόσο μεγάλο πρόβλημα που ο Holland (1986) χαρακτήρισε ως το Θεμελιώδες Πρόβλημα της Αιτιώδους Συναγωγής .
Ευτυχώς, όταν διεξάγουμε έρευνα, δεν έχουμε μόνο ένα άτομο, έχουμε πολλούς ανθρώπους και αυτό προσφέρει ένα τρόπο γύρω από το Θεμελιώδες Πρόβλημα της Αιτιώδους Συναγωγής. Αντί να προσπαθήσουμε να εκτιμήσουμε το αποτέλεσμα ατομικής θεραπείας, μπορούμε να εκτιμήσουμε το μέσο αποτέλεσμα της θεραπείας:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Αυτό εξακολουθεί να εκφράζεται με όρους \(\tau_i\) που δεν είναι \(\tau_i\) , αλλά με κάποια άλγεβρα (Eq 2.8 του Gerber and Green (2012) ) παίρνουμε
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Εξίσωση 4.3 δείχνει ότι αν μπορούμε να εκτιμήσουμε το πληθυσμό μέσος έκβαση υπό θεραπεία ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) και ο πληθυσμός μέσος αποτέλεσμα υπό έλεγχο ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), τότε μπορούμε να υπολογίσουμε το μέσο αποτέλεσμα θεραπείας, ακόμη και χωρίς να υπολογίσουμε το αποτέλεσμα της θεραπείας για κάποιο συγκεκριμένο άτομο.
Τώρα που έχω καθορίσει την εκτίμηση μας - το πράγμα που προσπαθούμε να εκτιμήσουμε - θα στραφώ στον τρόπο με τον οποίο μπορούμε πραγματικά να το υπολογίσουμε με δεδομένα. Μου αρέσει να σκέφτομαι αυτήν την πρόκληση της εκτίμησης ως πρόβλημα δειγματοληψίας (σκεφτείτε τις μαθηματικές σημειώσεις στο κεφάλαιο 3). Φανταστείτε ότι επιλέγουμε τυχαία μερικούς ανθρώπους για να παρατηρήσουμε στην κατάσταση της θεραπείας και επιλέγουμε τυχαία μερικούς ανθρώπους για να παρατηρήσουμε στην κατάσταση ελέγχου, τότε μπορούμε να υπολογίσουμε το μέσο αποτέλεσμα σε κάθε κατάσταση:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
όπου \(N_t\) και \(N_c\) είναι οι αριθμοί των ανθρώπων στις συνθήκες θεραπείας και ελέγχου. Η εξίσωση 4.4 είναι ένας εκτιμητής διαφοράς μέσου. Λόγω του σχεδιασμού δειγματοληψίας, γνωρίζουμε ότι ο πρώτος όρος είναι ένας αμερόληπτος εκτιμητής για το μέσο αποτέλεσμα υπό θεραπεία και ο δεύτερος όρος είναι ένας αμερόληπτος εκτιμητής υπό έλεγχο.
Ένας άλλος τρόπος να σκεφτούμε τι επιτρέπει η τυχαιοποίηση είναι ότι εξασφαλίζει ότι η σύγκριση μεταξύ ομάδων θεραπείας και ελέγχου είναι δίκαιη, διότι η τυχαιοποίηση εξασφαλίζει ότι οι δύο ομάδες θα μοιάζουν μεταξύ τους. Αυτή η ομοιότητα ισχύει για τα πράγματα που μετρήσαμε (πχ ο αριθμός των τροποποιήσεων στις 30 ημέρες πριν από το πείραμα) και τα πράγματα που δεν έχουμε μετρήσει (πχ το φύλο). Αυτή η ικανότητα εξασφάλισης ισορροπίας τόσο στους παρατηρούμενους όσο και στους μη παρατηρημένους παράγοντες είναι κρίσιμη. Για να δούμε τη δύναμη της αυτόματης εξισορρόπησης σε παρατήρητους παράγοντες, ας φανταστούμε ότι η μελλοντική έρευνα διαπιστώνει ότι οι άνδρες ανταποκρίνονται περισσότερο στα βραβεία από ό, τι οι γυναίκες. Θα ακυρώσει τα αποτελέσματα των πειραμάτων του Restivo και του van de Rijt; Όχι. Με τυχαιοποίηση, εξασφάλιζαν ότι όλα τα μη παρατηρητικά θα ήταν ισορροπημένα, αναμένοντας. Αυτή η προστασία έναντι του άγνωστου είναι πολύ ισχυρή και είναι ένας σημαντικός τρόπος που τα πειράματα είναι διαφορετικά από τις μη πειραματικές τεχνικές που περιγράφονται στο κεφάλαιο 2.
Εκτός από τον ορισμό του αποτελέσματος της θεραπείας για ολόκληρο τον πληθυσμό, είναι δυνατόν να ορίσουμε ένα αποτέλεσμα θεραπείας για ένα υποσύνολο ανθρώπων. Αυτό συνήθως ονομάζεται μέση εδαφική επίδραση θεραπείας (CATE). Για παράδειγμα, στη μελέτη των Restivo και van de Rijt, ας φανταστούμε ότι \(X_i\) είναι αν ο επεξεργαστής ήταν πάνω ή κάτω από τον διάμεσο αριθμό των επεξεργασιών κατά τη διάρκεια των 90 ημερών πριν από το πείραμα. Κάποιος θα μπορούσε να υπολογίσει το αποτέλεσμα της θεραπείας ξεχωριστά για αυτούς τους ελαφρούς και βαρύς συντάκτες.
Το πιθανό πλαίσιο αποτελεσμάτων είναι ένας ισχυρός τρόπος σκέψης για αιτιώδεις συμπεράσματα και πειράματα. Ωστόσο, υπάρχουν δύο επιπλέον περιπλοκές που πρέπει να έχετε κατά νου. Αυτές οι δύο περιπλοκές συχνά συσσωματώνονται μαζί με τον όρο Σταθερή Μονάδα Αξίας Θεραπείας Μονάδων (SUTVA). Το πρώτο μέρος της SUTVA είναι η παραδοχή ότι το μόνο πράγμα που έχει σημασία για το άτομο \(i\) αποτέλεσμα «s είναι το αν το πρόσωπο αυτό ήταν στην κατάσταση θεραπεία ή έλεγχο. Με άλλα λόγια, θεωρείται ότι το άτομο \(i\) δεν επηρεάζεται από τη θεραπεία που δίνεται σε άλλους ανθρώπους. Αυτό ονομάζεται μερικές φορές "καμία παρέμβαση" ή "καμία διαχωρισμός" και μπορεί να γραφτεί ως εξής:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
όπου \(\mathbf{W_{-i}}\) είναι ένας φορέας καταστάσεων θεραπείας για όλους εκτός από το άτομο \(i\) . Ένας τρόπος με τον οποίο μπορεί να παραβιαστεί αυτό είναι αν η θεραπεία από ένα άτομο μεταδίδεται σε άλλο άτομο, είτε θετικά είτε αρνητικά. Επιστρέφοντας στο πείραμα του Restivo και του van de Rijt, φανταστείτε δύο φίλους \(i\) και \(j\) και αυτό το άτομο \(i\) λαμβάνει ένα barnstar και \(j\) δεν το κάνει. Εάν \(i\) λαμβάνει το barnstar προκαλεί \(j\) για να επεξεργαστεί περισσότερο (από μια αίσθηση ανταγωνισμού) ή να επεξεργαστεί λιγότερο (από μια αίσθηση απελπισίας), τότε SUTVA έχει παραβιαστεί. Μπορεί επίσης να παραβιαστεί εάν η επίδραση της θεραπείας εξαρτάται από το συνολικό αριθμό άλλων ατόμων που λαμβάνουν τη θεραπεία. Για παράδειγμα, εάν οι Restivo και van de Rijt είχαν δώσει 1.000 ή 10.000 barnstars αντί 100, αυτό θα μπορούσε να έχει επηρεάσει το αποτέλεσμα της λήψης ενός barnstar.
Το δεύτερο ζήτημα που συγκεντρώνεται σε SUTVA είναι η υπόθεση ότι η μόνη σχετική θεραπεία είναι αυτή που παρέχει ο ερευνητής. αυτή η υπόθεση αποκαλείται μερικές φορές χωρίς κρυφές θεραπείες ή αποκλεισμό . Για παράδειγμα, στο Restivo και το van de Rijt, ίσως συνέβη το γεγονός ότι, δίνοντας ένα barnstar, οι ερευνητές προκάλεσαν τους συντάκτες να εμφανίζονται σε μια σελίδα δημοφιλών εκδοτών και ότι ήταν στη σελίδα δημοφιλών εκδοτών - αντί να λαμβάνουν ένα barnstar- που προκάλεσε την αλλαγή στη συμπεριφορά επεξεργασίας. Εάν αυτό είναι αληθινό, τότε το αποτέλεσμα του barnstar δεν διακρίνεται από το αποτέλεσμα της ύπαρξης στη σελίδα δημοφιλών εκδοτών. Φυσικά, δεν είναι σαφές εάν, από επιστημονική άποψη, αυτό πρέπει να θεωρείται ελκυστικό ή μη ελκυστικό. Δηλαδή, θα μπορούσατε να φανταστείτε έναν ερευνητή λέγοντας ότι το αποτέλεσμα της λήψης ενός barnstar περιλαμβάνει όλες τις επακόλουθες θεραπείες που ενεργοποιεί το barnstar. Ή θα μπορούσατε να φανταστείτε μια κατάσταση όπου μια έρευνα θα ήθελε να απομονώσει την επίδραση των barnstars από όλα αυτά τα άλλα πράγματα. Ένας τρόπος για να το σκεφτούμε είναι να ρωτήσουμε αν υπάρχει κάτι που οδηγεί σε αυτό που ο Gerber and Green (2012) (σελ. 41) αποκαλούν μια "κατανομή της συμμετρίας"; Με άλλα λόγια, υπάρχει κάτι διαφορετικό από τη θεραπεία που προκαλεί διαφορετική μεταχείριση των ανθρώπων στις συνθήκες θεραπείας και ελέγχου; Οι ανησυχίες για το σπάσιμο συμμετρίας είναι αυτό που οδηγεί τους ασθενείς στην ομάδα ελέγχου σε ιατρικές δοκιμές να πάρουν ένα χάπι placebo. Με αυτόν τον τρόπο, οι ερευνητές μπορούν να είναι βέβαιοι ότι η μόνη διαφορά μεταξύ των δύο συνθηκών είναι το πραγματικό φάρμακο και όχι η εμπειρία λήψης του χαπιού.
Για περισσότερες πληροφορίες σχετικά με το SUTVA, βλ. Παράγραφο 2.7 του Gerber and Green (2012) , τμήμα 2.5 του Morgan and Winship (2014) και το τμήμα 1.6 των Imbens and Rubin (2015) .
Ακρίβεια
Στην προηγούμενη ενότητα, έχω περιγράψει τον τρόπο εκτίμησης του μέσου αποτελέσματος της θεραπείας. Σε αυτή την ενότητα, θα σας δώσω ορισμένες ιδέες σχετικά με τη μεταβλητότητα αυτών των εκτιμήσεων.
Εάν σκέφτεστε να υπολογίσετε το μέσο όρο της θεραπευτικής επίδρασης ως εκτίμηση της διαφοράς μεταξύ δύο μέσων δειγματοληψίας, τότε είναι δυνατόν να δείξετε ότι το τυπικό σφάλμα του μέσου αποτελέσματος θεραπείας είναι:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
όπου \(m\) άτομα που έχουν αναλάβει τη θεραπεία και \(Nm\) για έλεγχο (βλέπε Gerber and Green (2012) , eq. 3.4). Έτσι, όταν σκεφτόμαστε πόσα άτομα να εκχωρήσουν στη θεραπεία και πόσοι να εκχωρήσουν στον έλεγχο, μπορείτε να δείτε ότι εάν \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , τότε θέλετε \(m \approx N / 2\) , εφόσον το κόστος της θεραπείας και του ελέγχου είναι το ίδιο. Η εξίσωση 4.6 διευκρινίζει γιατί ο σχεδιασμός του πειράματος του Bond και των συναδέλφων (2012) σχετικά με τις επιπτώσεις των κοινωνικών πληροφοριών στην ψηφοφορία (σχήμα 4.18) ήταν αναποτελεσματική στατιστικά. Θυμηθείτε ότι είχε το 98% των συμμετεχόντων στη θεραπεία. Αυτό σήμαινε ότι η μέση συμπεριφορά στην κατάσταση ελέγχου δεν εκτιμήθηκε με ακρίβεια όπως θα μπορούσε να ήταν, πράγμα που με τη σειρά του σήμαινε ότι η εκτιμώμενη διαφορά μεταξύ της θεραπείας και της καταστάσεως ελέγχου δεν εκτιμήθηκε όπως ακριβώς θα μπορούσε να γίνει. Για περισσότερες πληροφορίες σχετικά με τη βέλτιστη κατανομή των συμμετεχόντων σε συνθήκες, συμπεριλαμβανομένου του κόστους που διαφέρει μεταξύ των συνθηκών, βλ. List, Sadoff, and Wagner (2011) .
Τέλος, στο κύριο κείμενο, περιέγραψα τον τρόπο με τον οποίο ένας εκτιμητής διαφοράς στις διαφορές, ο οποίος χρησιμοποιείται συνήθως σε ένα μικτό σχέδιο, μπορεί να οδηγήσει σε μικρότερη διακύμανση από τον εκτιμητή διαφοράς-μέσου, ο οποίος συνήθως χρησιμοποιείται σε μια μεταξύ των θεμάτων σχέδιο. Αν η \(X_i\) είναι η τιμή του αποτελέσματος πριν από τη θεραπεία, τότε η ποσότητα που προσπαθούμε να υπολογίσουμε με την προσέγγιση διαφοράς-διαφορών είναι:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Το τυπικό σφάλμα αυτής της ποσότητας είναι (βλ. Gerber and Green (2012) , εξίσωση 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Μια σύγκριση του ισοδ. 4.6 και ισοδ. 4.8 αποκαλύπτει ότι η προσέγγιση της διαφοράς στις διαφορές θα έχει μικρότερο τυπικό σφάλμα όταν (βλ. Gerber and Green (2012) , π. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Κατά προσέγγιση, όταν το \(X_i\) είναι πολύ προγνωστικό για το \(Y_i(1)\) και \(Y_i(0)\) , τότε μπορείτε να πάρετε ακριβέστερες εκτιμήσεις από μια προσέγγιση διαφοράς διαφορετικών από μια διαφορά- of-means ένα. Ένας τρόπος να σκεφτούμε αυτό στο πλαίσιο του πειράματος του Restivo και του van de Rijt είναι ότι υπάρχουν πολλές φυσικές διακυμάνσεις στο ποσό που επεξεργάζονται οι άνθρωποι, επομένως αυτό καθιστά δύσκολη τη σύγκριση των συνθηκών θεραπείας και ελέγχου: είναι δύσκολο να εντοπιστεί ένας συγγενής μικρή επίδραση στα δεδομένα θορυβώδους αποτελέσματος. Αν όμως διαχωρίσετε αυτή τη φυσική μεταβλητότητα, τότε υπάρχει πολύ μικρότερη μεταβλητότητα και αυτό καθιστά ευκολότερο τον εντοπισμό ενός μικρού αποτελέσματος.
Βλ. Frison and Pocock (1992) για μια ακριβή σύγκριση των προσεγγίσεων με διαφορά μέσων, διαφοράς διαφορών και ANCOVA στη γενικότερη ρύθμιση όπου υπάρχουν πολλαπλές μετρήσεις πριν και μετά τη θεραπεία. Συγκεκριμένα, συστήνουν έντονα την ANCOVA, την οποία δεν έχω καλύψει εδώ. Περαιτέρω, βλ. McKenzie (2012) για μια συζήτηση σχετικά με τη σημασία των πολλαπλών μέτρων για την έκβαση μετά τη θεραπεία.