मुझे लगता है कि प्रयोगों को समझने का सबसे अच्छा तरीका संभावित परिणाम ढांचा है (जिसे मैंने अध्याय 2 में गणितीय नोट्स में चर्चा की थी)। संभाव्य परिणामों के ढांचे के डिजाइन-आधारित नमूने के विचारों के साथ घनिष्ठ संबंध हैं जिन्हें मैंने अध्याय 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) में वर्णित किया है। इस परिशिष्ट को इस तरह के संबंध में जोर देने के लिए लिखा गया है। यह जोर थोड़ा गैर पारंपरिक है, लेकिन मुझे लगता है कि नमूनाकरण और प्रयोगों के बीच संबंध उपयोगी है: इसका मतलब है कि यदि आप नमूनाकरण के बारे में कुछ जानते हैं तो आप प्रयोगों के बारे में कुछ और इसके विपरीत जानते हैं। जैसा कि मैं इन नोट्स में दिखाऊंगा, संभावित परिणाम ढांचे में कारण प्रभावों का अनुमान लगाने के लिए यादृच्छिक नियंत्रित प्रयोगों की ताकत का पता चलता है, और यह पूरी तरह निष्पादित प्रयोगों के साथ क्या किया जा सकता है इसकी सीमाएं दिखाता है।
इस परिशिष्ट में, मैं संभावित परिणामों के ढांचे का वर्णन करूंगा, इन नोट्स को अधिक आत्मनिर्भर बनाने के लिए अध्याय 2 में गणितीय नोट्स से कुछ सामग्री को डुप्लिकेट कर रहा हूं। फिर मैं औसत उपचार प्रभावों के अनुमानों की सटीकता के बारे में कुछ सहायक परिणामों का वर्णन करूंगा, जिसमें इष्टतम आवंटन और अंतर-अंतर-अंतर अनुमानों की चर्चा शामिल है। यह परिशिष्ट Gerber and Green (2012) पर भारी खींचता है।
संभावित परिणाम ढांचे
संभावित परिणामों के ढांचे को चित्रित करने के लिए, आइए विकिपीडिया में भावी योगदानों पर बर्नस्टार प्राप्त करने के प्रभाव का अनुमान लगाने के लिए रेस्टिवो और वैन डी रिजेट के प्रयोग पर वापस आएं। संभावित परिणामों के ढांचे में तीन मुख्य तत्व हैं: इकाइयों , उपचार , और संभावित परिणाम । रेस्टिवो और वैन डी रिजेट के मामले में, इकाइयां योग्य संपादकों थीं- वे योगदानकर्ताओं के शीर्ष 1% में थे- जिन्हें अभी तक बार्नस्टार नहीं मिला था। हम इन संपादकों को \(i = 1 \ldots N\) द्वारा इंडेक्स कर सकते हैं। उनके प्रयोग में उपचार "बार्नस्टार" या "नो बर्नस्टार" थे और मैं \(W_i = 1\) यदि व्यक्ति \(i\) उपचार की स्थिति में है और \(W_i = 0\) अन्यथा है। संभावित परिणाम ढांचे का तीसरा तत्व सबसे महत्वपूर्ण है: संभावित परिणाम । ये थोड़ा अधिक अवधारणात्मक रूप से कठिन हैं क्योंकि उनमें "संभावित" परिणाम शामिल होते हैं-जो चीजें हो सकती हैं। प्रत्येक विकिपीडिया संपादक के लिए, कोई भी इलाज की स्थिति ( \(Y_i(1)\) में किए गए संपादन की संख्या की कल्पना कर सकता है) और वह संख्या जो वह नियंत्रण स्थिति में करेगी ( \(Y_i(0)\) )।
ध्यान दें कि इकाइयों, उपचारों और परिणामों की यह पसंद परिभाषित करती है कि इस प्रयोग से क्या सीखा जा सकता है। उदाहरण के लिए, बिना किसी अतिरिक्त धारणा के, रेस्टिवो और वैन डी रिजट सभी विकिपीडिया संपादकों या संपादन गुणवत्ता जैसे परिणामों पर बर्नस्टार के प्रभावों के बारे में कुछ नहीं कह सकते हैं। आम तौर पर, इकाइयों, उपचार, और परिणामों की पसंद अध्ययन के लक्ष्यों पर आधारित होना चाहिए।
इन संभावित परिणामों को देखते हुए- जिन्हें तालिका 4.5 में सारांशित किया गया है- एक व्यक्ति के इलाज के कारण प्रभाव को परिभाषित कर सकता है \(i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
मेरे लिए, यह समीकरण एक कारण प्रभाव को परिभाषित करने का सबसे स्पष्ट तरीका है, और, हालांकि, बेहद सरल, यह ढांचा कई महत्वपूर्ण और रोचक तरीकों (Imbens and Rubin 2015) में सामान्यीकृत करने के लिए निकला है।
व्यक्ति | उपचार की स्थिति में संपादन | नियंत्रण की स्थिति में संपादन | उपचार प्रभाव |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
एन | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
मतलब | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
अगर हम इस तरह से कारकता को परिभाषित करते हैं, हालांकि, हम एक समस्या में भाग लेते हैं। लगभग सभी मामलों में, हमें संभावित परिणामों दोनों का पालन नहीं करना पड़ता है। यही है, एक विशिष्ट विकिपीडिया संपादक या तो एक बार्नस्टार प्राप्त हुआ या नहीं। इसलिए, हम संभावित परिणामों में से एक का निरीक्षण करते \(Y_i(1)\) या \(Y_i(0)\) दोनों नहीं। संभावित परिणामों दोनों का निरीक्षण करने में असमर्थता ऐसी बड़ी समस्या है कि Holland (1986) ने इसे मौलिक अनुमान की मौलिक समस्या कहा।
सौभाग्य से, जब हम शोध कर रहे हैं, हमारे पास सिर्फ एक व्यक्ति नहीं है, हमारे पास बहुत से लोग हैं, और यह मौलिक अनुमान की मौलिक समस्या के आसपास एक तरीका प्रदान करता है। व्यक्तिगत स्तर के उपचार प्रभाव का अनुमान लगाने की कोशिश करने के बजाय, हम औसत उपचार प्रभाव का अनुमान लगा सकते हैं:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
यह अभी भी \(\tau_i\) संदर्भ में व्यक्त किया गया है जो \(\tau_i\) हैं, लेकिन कुछ बीजगणित ( Gerber and Green (2012) Eq 2.8 के साथ) हमें मिलता है
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
समीकरण 4.3 से पता चलता है कि यदि हम उपचार के तहत जनसंख्या औसत परिणाम का अनुमान लगा सकते हैं ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) और जनसंख्या औसत परिणाम नियंत्रण में ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), तो हम औसत उपचार प्रभाव का अनुमान लगा सकते हैं, यहां तक कि किसी भी विशेष व्यक्ति के उपचार प्रभाव का आकलन किए बिना।
अब जब मैंने अपने अनुमान को परिभाषित किया है- जिस चीज का हम अनुमान लगाने की कोशिश कर रहे हैं-मैं इस बात की ओर रुख करूंगा कि हम वास्तव में डेटा के साथ इसका आकलन कैसे कर सकते हैं। मुझे नमूना समस्या के रूप में इस अनुमान चुनौती के बारे में सोचना पसंद है (अध्याय 3 में गणितीय नोट्स पर वापस सोचें)। कल्पना कीजिए कि हम उपचार की स्थिति में कुछ लोगों को यादृच्छिक रूप से चुनते हैं और हम यादृच्छिक रूप से कुछ लोगों को नियंत्रण की स्थिति में देखने के लिए चुनते हैं, तो हम प्रत्येक शर्त में औसत परिणाम अनुमान लगा सकते हैं:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
जहां \(N_t\) और \(N_c\) उपचार और नियंत्रण स्थितियों में लोगों की संख्या हैं। समीकरण 4.4 एक अंतर-का मतलब अनुमानक है। नमूना डिजाइन के कारण, हम जानते हैं कि पहला कार्य उपचार के तहत औसत परिणाम के लिए निष्पक्ष अनुमानक है और दूसरा कार्य नियंत्रण में निष्पक्ष अनुमानक है।
यादृच्छिकरण सक्षम करने के बारे में सोचने का एक और तरीका यह है कि यह सुनिश्चित करता है कि उपचार और नियंत्रण समूहों के बीच तुलना निष्पक्ष है क्योंकि यादृच्छिकता सुनिश्चित करता है कि दोनों समूह एक-दूसरे के समान होंगे। यह समानता उन चीजों के लिए रखती है जिन्हें हमने मापा है (प्रयोग से 30 दिन पहले संपादन की संख्या कहें) और जिन चीजों को हमने नहीं मापा है (लिंग कहें)। मनाए गए और अप्रयुक्त कारकों दोनों पर संतुलन सुनिश्चित करने की यह क्षमता महत्वपूर्ण है। अवांछित कारकों पर स्वचालित संतुलन की शक्ति को देखने के लिए, आइए कल्पना करें कि भविष्य के शोध से पता चलता है कि पुरुष महिलाओं की तुलना में पुरस्कारों के प्रति अधिक प्रतिक्रियाशील हैं। क्या यह रेस्टिवो और वैन डी रिजेट के प्रयोग के परिणामों को अमान्य कर देगा? नहीं। यादृच्छिक रूप से, उन्होंने यह सुनिश्चित किया कि उम्मीदवारों में सभी असहनीय संतुलित होंगे। अज्ञात के खिलाफ यह सुरक्षा बहुत शक्तिशाली है, और यह एक महत्वपूर्ण तरीका है कि प्रयोग अध्याय 2 में वर्णित गैर-प्रयोगात्मक तकनीकों से अलग हैं।
पूरी आबादी के लिए उपचार प्रभाव को परिभाषित करने के अलावा, लोगों के उप-समूह के लिए उपचार प्रभाव को परिभाषित करना संभव है। इसे आमतौर पर एक सशर्त औसत उपचार प्रभाव (सीएटी) कहा जाता है। उदाहरण के लिए, रेस्टिवो और वैन डी रिजट के अध्ययन में, आइए कल्पना करें कि \(X_i\) यह है कि क्या प्रयोग प्रयोग से 90 दिन पहले संपादकीय औसत संख्या से ऊपर या नीचे था। इन प्रकाश और भारी संपादकों के लिए अलग-अलग उपचार प्रभाव की गणना कर सकती है।
संभावित परिणाम ढांचा कारण अनुमान और प्रयोगों के बारे में सोचने का एक शक्तिशाली तरीका है। हालांकि, दो अतिरिक्त जटिलताओं हैं जिन्हें आपको ध्यान में रखना चाहिए। ये दो जटिलताओं को अक्सर स्थिर यूनिट ट्रीटमेंट वैल्यू अनुमान (एसयूटीवीए) शब्द के तहत एक साथ लाया जाता है। सुट्टा का पहला भाग यह धारणा है कि एकमात्र चीज जो व्यक्ति के लिए मायने रखती है \(i\) का नतीजा यह है कि वह व्यक्ति उपचार या नियंत्रण की स्थिति में था या नहीं। दूसरे शब्दों में, यह माना जाता है कि व्यक्ति \(i\) अन्य लोगों को दिए गए उपचार से प्रभावित नहीं होता है। इसे कभी-कभी "हस्तक्षेप नहीं" या "कोई स्पिलोवर" नहीं कहा जाता है, और इसे इस प्रकार लिखा जा सकता है:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
जहां \(\mathbf{W_{-i}}\) व्यक्ति को छोड़कर हर किसी के लिए उपचार की स्थिति का एक वेक्टर है \(i\) । एक तरीका यह है कि इसका उल्लंघन किया जा सकता है यदि एक व्यक्ति का उपचार किसी अन्य व्यक्ति पर या तो सकारात्मक या नकारात्मक रूप से फैलता है। रेस्टिवो और वैन डी रिजेट के प्रयोग पर लौटने, दो दोस्तों की कल्पना करें \(i\) और \(j\) और वह व्यक्ति \(i\) एक बार्नस्टार प्राप्त करता है और \(j\) नहीं करता है। यदि \(i\) बर्नस्टार प्राप्त करने के कारण \(j\) को और अधिक (प्रतिस्पर्धा की भावना से बाहर) या कम संपादित (निराशा की भावना से बाहर) का कारण बनता है, तो सुट्टा का उल्लंघन किया गया है। उपचार का प्रभाव उपचार प्राप्त करने वाले अन्य लोगों की कुल संख्या पर निर्भर करता है तो इसका भी उल्लंघन किया जा सकता है। उदाहरण के लिए, यदि रेस्टिवो और वैन डी रिजट ने 100 के बजाय 1,000 या 10,000 बर्नस्टार दिए थे, तो इससे बार्नस्टार प्राप्त करने के प्रभाव पर असर पड़ा होगा।
सुट्टा में लम्बी दूसरी समस्या यह धारणा है कि एकमात्र प्रासंगिक उपचार वह है जिसे शोधकर्ता प्रदान करता है; इस धारणा को कभी-कभी कोई छुपा उपचार या बहिष्कार नहीं कहा जाता है। उदाहरण के लिए, रेस्टिवो और वैन डी रिजेट में, शायद यह मामला हो सकता है कि एक बार्नस्टार देकर शोधकर्ताओं ने संपादकों को एक लोकप्रिय संपादकों के पृष्ठ पर दिखाया और यह कि लोकप्रिय संपादकों के पृष्ठ पर था - बर्नस्टार- जिससे संपादन व्यवहार में बदलाव आया। यदि यह सत्य है, तो बार्नस्टार का प्रभाव लोकप्रिय संपादकों के पृष्ठ पर होने के प्रभाव से अलग नहीं है। बेशक, यह स्पष्ट नहीं है कि, एक वैज्ञानिक परिप्रेक्ष्य से, इसे आकर्षक या अवांछित माना जाना चाहिए। यही है, आप एक शोधकर्ता की कल्पना कर सकते हैं कि बर्नस्टार प्राप्त करने के प्रभाव में बाद के सभी उपचार शामिल हैं जो बरनस्टार ट्रिगर करता है। या आप ऐसी परिस्थिति की कल्पना कर सकते हैं जहां एक शोध अन्य सभी चीजों से बर्नस्टार के प्रभाव को अलग करना चाहता है। इसके बारे में सोचने का एक तरीका यह पूछना है कि क्या कुछ ऐसा है जो Gerber and Green (2012) (पृष्ठ 41) को "समरूपता में टूटना" कहता है? दूसरे शब्दों में, क्या इलाज के अलावा कुछ और है जो उपचार और नियंत्रण स्थितियों में लोगों को अलग-अलग इलाज का कारण बनता है? समरूपता तोड़ने के बारे में चिंताएं चिकित्सकीय परीक्षणों में नियंत्रण समूह में मरीजों को प्लेसबो गोली लेने के लिए प्रेरित करती हैं। इस तरह, शोधकर्ता यह सुनिश्चित कर सकते हैं कि दोनों स्थितियों के बीच एकमात्र अंतर वास्तविक दवा है और गोली लेने का अनुभव नहीं है।
सुट्टा पर अधिक जानकारी के लिए, Gerber and Green (2012) की धारा 2.7, Morgan and Winship (2014) की धारा 2.5, और Imbens and Rubin (2015) की धारा 1.6 देखें।
शुद्धता
पिछले खंड में, मैंने वर्णन किया है कि औसत उपचार प्रभाव का आकलन कैसे करें। इस खंड में, मैं उन अनुमानों की विविधता के बारे में कुछ विचार प्रदान करूंगा।
यदि आप दो नमूना साधनों के बीच अंतर का अनुमान लगाने के रूप में औसत उपचार प्रभाव का अनुमान लगाने के बारे में सोचते हैं, तो यह दिखाया जा सकता है कि औसत उपचार प्रभाव की मानक त्रुटि यह है:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
जहां \(m\) लोगों को इलाज के लिए सौंपा गया है और \(Nm\) को नियंत्रित करने के लिए ( Gerber and Green (2012) , eq। 3.4 देखें)। इस प्रकार, इस बारे में सोचते हुए कि कितने लोगों को इलाज के लिए असाइन करना है और कितने नियंत्रण को असाइन करना है, आप देख सकते हैं कि यदि \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , तो आप \(m \approx N / 2\) , जब तक उपचार और नियंत्रण की लागत समान हो। समीकरण 4.6 स्पष्ट करता है कि वोटिंग (आंकड़ा 4.18) पर सामाजिक जानकारी के प्रभावों के बारे में बॉन्ड और सहयोगियों (2012) प्रयोग का आंकड़ा सांख्यिकीय रूप से अक्षम क्यों था। याद रखें कि इलाज की स्थिति में 98% प्रतिभागी थे। इसका मतलब था कि नियंत्रण की स्थिति में औसत व्यवहार अनुमानित रूप से अनुमानित नहीं किया गया था, जिसका अर्थ यह था कि उपचार और नियंत्रण की स्थिति के बीच अनुमानित अंतर सटीक रूप से अनुमानित नहीं किया गया था। प्रतिभागियों के परिस्थितियों के इष्टतम आवंटन पर अधिक स्थितियों के लिए, जब शर्तों के बीच लागत भिन्न होती है, तो List, Sadoff, and Wagner (2011) ।
आखिरकार, मुख्य पाठ में, मैंने वर्णन किया कि अंतर-अंतर-अंतर अनुमानक, जिसे आम तौर पर मिश्रित डिज़ाइन में उपयोग किया जाता है, अंतर-में-साधन अनुमानक की तुलना में छोटे भिन्नता का कारण बन सकता है, जिसका आमतौर पर बीच के विषयों में उपयोग किया जाता है डिज़ाइन। यदि \(X_i\) उपचार से पहले परिणाम का मूल्य है, तो उस अंतर को जिसे हम अंतर-अंतर-अंतर दृष्टिकोण के साथ अनुमान लगाने का प्रयास कर रहे हैं:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
उस मात्रा की मानक त्रुटि है (देखें Gerber and Green (2012) , eq 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
ईक की तुलना 4.6 और ईक। 4.8 बताता है कि अंतर-अंतर-अंतर दृष्टिकोण में एक छोटी मानक त्रुटि होगी (जब Gerber and Green (2012) , eq 4.6 देखें)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
लगभग, जब \(X_i\) \(Y_i(1)\) और \(Y_i(0)\) \(X_i\) का बहुत पूर्वानुमानित होता है, तो आप अंतर से भिन्न अंतर के अंतर से अधिक सटीक अनुमान प्राप्त कर सकते हैं- का मतलब है एक। रेस्टिवो और वैन डी रिजेट के प्रयोग के संदर्भ में इसके बारे में सोचने का एक तरीका यह है कि लोगों द्वारा संपादित की गई राशि में बहुत सारी प्राकृतिक भिन्नता है, इसलिए इससे उपचार और नियंत्रण की स्थितियों की तुलना मुश्किल हो जाती है: एक रिश्तेदार का पता लगाना मुश्किल है शोर परिणाम डेटा में छोटा प्रभाव। लेकिन यदि आप इस स्वाभाविक रूप से होने वाली भिन्नता को अलग करते हैं, तो बहुत कम परिवर्तनशीलता होती है, और इससे छोटे प्रभाव का पता लगाना आसान हो जाता है।
Frison and Pocock (1992) को अंतर-के-साधनों, अंतर-भिन्नता, और अधिक सामान्य सेटिंग में एएनसीवीवीए-आधारित दृष्टिकोणों की सटीक तुलना के लिए देखें जहां कई माप प्री-ट्रीटमेंट और पोस्ट-ट्रीटमेंट हैं। विशेष रूप से, वे दृढ़ता से एन्कोवा की सिफारिश करते हैं, जिसे मैंने यहां शामिल नहीं किया है। इसके अलावा, McKenzie (2012) को कई पोस्ट-ट्रीटमेंट परिणाम उपायों के महत्व की चर्चा के लिए देखें।