मुझे लगता है कि प्रयोगों को समझने का सबसे अच्छा तरीका संभावित परिणाम ढांचा है (जिसे मैंने अध्याय 2 में गणितीय नोट्स में चर्चा की थी)। संभाव्य परिणामों के ढांचे के डिजाइन-आधारित नमूने के विचारों के साथ घनिष्ठ संबंध हैं जिन्हें मैंने अध्याय 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) में वर्णित किया है। इस परिशिष्ट को इस तरह के संबंध में जोर देने के लिए लिखा गया है। यह जोर थोड़ा गैर पारंपरिक है, लेकिन मुझे लगता है कि नमूनाकरण और प्रयोगों के बीच संबंध उपयोगी है: इसका मतलब है कि यदि आप नमूनाकरण के बारे में कुछ जानते हैं तो आप प्रयोगों के बारे में कुछ और इसके विपरीत जानते हैं। जैसा कि मैं इन नोट्स में दिखाऊंगा, संभावित परिणाम ढांचे में कारण प्रभावों का अनुमान लगाने के लिए यादृच्छिक नियंत्रित प्रयोगों की ताकत का पता चलता है, और यह पूरी तरह निष्पादित प्रयोगों के साथ क्या किया जा सकता है इसकी सीमाएं दिखाता है।
इस परिशिष्ट में, मैं संभावित परिणामों के ढांचे का वर्णन करूंगा, इन नोट्स को अधिक आत्मनिर्भर बनाने के लिए अध्याय 2 में गणितीय नोट्स से कुछ सामग्री को डुप्लिकेट कर रहा हूं। फिर मैं औसत उपचार प्रभावों के अनुमानों की सटीकता के बारे में कुछ सहायक परिणामों का वर्णन करूंगा, जिसमें इष्टतम आवंटन और अंतर-अंतर-अंतर अनुमानों की चर्चा शामिल है। यह परिशिष्ट Gerber and Green (2012) पर भारी खींचता है।
संभावित परिणाम ढांचे
संभावित परिणामों के ढांचे को चित्रित करने के लिए, आइए विकिपीडिया में भावी योगदानों पर बर्नस्टार प्राप्त करने के प्रभाव का अनुमान लगाने के लिए रेस्टिवो और वैन डी रिजेट के प्रयोग पर वापस आएं। संभावित परिणामों के ढांचे में तीन मुख्य तत्व हैं: इकाइयों , उपचार , और संभावित परिणाम । रेस्टिवो और वैन डी रिजेट के मामले में, इकाइयां योग्य संपादकों थीं- वे योगदानकर्ताओं के शीर्ष 1% में थे- जिन्हें अभी तक बार्नस्टार नहीं मिला था। हम इन संपादकों को i=1…Ni=1…N द्वारा इंडेक्स कर सकते हैं। उनके प्रयोग में उपचार "बार्नस्टार" या "नो बर्नस्टार" थे और मैं Wi=1Wi=1 यदि व्यक्ति ii उपचार की स्थिति में है और Wi=0Wi=0 अन्यथा है। संभावित परिणाम ढांचे का तीसरा तत्व सबसे महत्वपूर्ण है: संभावित परिणाम । ये थोड़ा अधिक अवधारणात्मक रूप से कठिन हैं क्योंकि उनमें "संभावित" परिणाम शामिल होते हैं-जो चीजें हो सकती हैं। प्रत्येक विकिपीडिया संपादक के लिए, कोई भी इलाज की स्थिति ( Yi(1)Yi(1) में किए गए संपादन की संख्या की कल्पना कर सकता है) और वह संख्या जो वह नियंत्रण स्थिति में करेगी ( Yi(0)Yi(0) )।
ध्यान दें कि इकाइयों, उपचारों और परिणामों की यह पसंद परिभाषित करती है कि इस प्रयोग से क्या सीखा जा सकता है। उदाहरण के लिए, बिना किसी अतिरिक्त धारणा के, रेस्टिवो और वैन डी रिजट सभी विकिपीडिया संपादकों या संपादन गुणवत्ता जैसे परिणामों पर बर्नस्टार के प्रभावों के बारे में कुछ नहीं कह सकते हैं। आम तौर पर, इकाइयों, उपचार, और परिणामों की पसंद अध्ययन के लक्ष्यों पर आधारित होना चाहिए।
इन संभावित परिणामों को देखते हुए- जिन्हें तालिका 4.5 में सारांशित किया गया है- एक व्यक्ति के इलाज के कारण प्रभाव को परिभाषित कर सकता है ii
τi=Yi(1)−Yi(0)(4.1)τi=Yi(1)−Yi(0)(4.1)
मेरे लिए, यह समीकरण एक कारण प्रभाव को परिभाषित करने का सबसे स्पष्ट तरीका है, और, हालांकि, बेहद सरल, यह ढांचा कई महत्वपूर्ण और रोचक तरीकों (Imbens and Rubin 2015) में सामान्यीकृत करने के लिए निकला है।
व्यक्ति | उपचार की स्थिति में संपादन | नियंत्रण की स्थिति में संपादन | उपचार प्रभाव |
---|---|---|---|
1 | Y1(1)Y1(1) | Y1(0)Y1(0) | τ1τ1 |
2 | Y2(1)Y2(1) | Y2(0)Y2(0) | τ2τ2 |
⋮⋮ | ⋮⋮ | ⋮⋮ | ⋮⋮ |
एन | YN(1)YN(1) | YN(0)YN(0) | τNτN |
मतलब | ˉY(1)¯Y(1) | ˉY(0)¯Y(0) | ˉτ¯τ |
अगर हम इस तरह से कारकता को परिभाषित करते हैं, हालांकि, हम एक समस्या में भाग लेते हैं। लगभग सभी मामलों में, हमें संभावित परिणामों दोनों का पालन नहीं करना पड़ता है। यही है, एक विशिष्ट विकिपीडिया संपादक या तो एक बार्नस्टार प्राप्त हुआ या नहीं। इसलिए, हम संभावित परिणामों में से एक का निरीक्षण करते Yi(1)Yi(1) या Yi(0)Yi(0) दोनों नहीं। संभावित परिणामों दोनों का निरीक्षण करने में असमर्थता ऐसी बड़ी समस्या है कि Holland (1986) ने इसे मौलिक अनुमान की मौलिक समस्या कहा।
सौभाग्य से, जब हम शोध कर रहे हैं, हमारे पास सिर्फ एक व्यक्ति नहीं है, हमारे पास बहुत से लोग हैं, और यह मौलिक अनुमान की मौलिक समस्या के आसपास एक तरीका प्रदान करता है। व्यक्तिगत स्तर के उपचार प्रभाव का अनुमान लगाने की कोशिश करने के बजाय, हम औसत उपचार प्रभाव का अनुमान लगा सकते हैं:
ATE=1NN∑i=1τi(4.2)ATE=1NN∑i=1τi(4.2)
यह अभी भी τi संदर्भ में व्यक्त किया गया है जो τi हैं, लेकिन कुछ बीजगणित ( Gerber and Green (2012) Eq 2.8 के साथ) हमें मिलता है
ATE=1NN∑i=1Yi(1)−1NN∑i=1Yi(0)(4.3)
समीकरण 4.3 से पता चलता है कि यदि हम उपचार के तहत जनसंख्या औसत परिणाम का अनुमान लगा सकते हैं ( N−1∑Ni=1Yi(1) ) और जनसंख्या औसत परिणाम नियंत्रण में ( N−1∑Ni=1Yi(1) ), तो हम औसत उपचार प्रभाव का अनुमान लगा सकते हैं, यहां तक कि किसी भी विशेष व्यक्ति के उपचार प्रभाव का आकलन किए बिना।
अब जब मैंने अपने अनुमान को परिभाषित किया है- जिस चीज का हम अनुमान लगाने की कोशिश कर रहे हैं-मैं इस बात की ओर रुख करूंगा कि हम वास्तव में डेटा के साथ इसका आकलन कैसे कर सकते हैं। मुझे नमूना समस्या के रूप में इस अनुमान चुनौती के बारे में सोचना पसंद है (अध्याय 3 में गणितीय नोट्स पर वापस सोचें)। कल्पना कीजिए कि हम उपचार की स्थिति में कुछ लोगों को यादृच्छिक रूप से चुनते हैं और हम यादृच्छिक रूप से कुछ लोगों को नियंत्रण की स्थिति में देखने के लिए चुनते हैं, तो हम प्रत्येक शर्त में औसत परिणाम अनुमान लगा सकते हैं:
^ATE=1Nt∑i:Wi=1Yi(1)⏟average edits, treatment−1Nc∑i:Wi=0Yi(0)⏟average edits, control(4.4)
जहां Nt और Nc उपचार और नियंत्रण स्थितियों में लोगों की संख्या हैं। समीकरण 4.4 एक अंतर-का मतलब अनुमानक है। नमूना डिजाइन के कारण, हम जानते हैं कि पहला कार्य उपचार के तहत औसत परिणाम के लिए निष्पक्ष अनुमानक है और दूसरा कार्य नियंत्रण में निष्पक्ष अनुमानक है।
यादृच्छिकरण सक्षम करने के बारे में सोचने का एक और तरीका यह है कि यह सुनिश्चित करता है कि उपचार और नियंत्रण समूहों के बीच तुलना निष्पक्ष है क्योंकि यादृच्छिकता सुनिश्चित करता है कि दोनों समूह एक-दूसरे के समान होंगे। यह समानता उन चीजों के लिए रखती है जिन्हें हमने मापा है (प्रयोग से 30 दिन पहले संपादन की संख्या कहें) और जिन चीजों को हमने नहीं मापा है (लिंग कहें)। मनाए गए और अप्रयुक्त कारकों दोनों पर संतुलन सुनिश्चित करने की यह क्षमता महत्वपूर्ण है। अवांछित कारकों पर स्वचालित संतुलन की शक्ति को देखने के लिए, आइए कल्पना करें कि भविष्य के शोध से पता चलता है कि पुरुष महिलाओं की तुलना में पुरस्कारों के प्रति अधिक प्रतिक्रियाशील हैं। क्या यह रेस्टिवो और वैन डी रिजेट के प्रयोग के परिणामों को अमान्य कर देगा? नहीं। यादृच्छिक रूप से, उन्होंने यह सुनिश्चित किया कि उम्मीदवारों में सभी असहनीय संतुलित होंगे। अज्ञात के खिलाफ यह सुरक्षा बहुत शक्तिशाली है, और यह एक महत्वपूर्ण तरीका है कि प्रयोग अध्याय 2 में वर्णित गैर-प्रयोगात्मक तकनीकों से अलग हैं।
पूरी आबादी के लिए उपचार प्रभाव को परिभाषित करने के अलावा, लोगों के उप-समूह के लिए उपचार प्रभाव को परिभाषित करना संभव है। इसे आमतौर पर एक सशर्त औसत उपचार प्रभाव (सीएटी) कहा जाता है। उदाहरण के लिए, रेस्टिवो और वैन डी रिजट के अध्ययन में, आइए कल्पना करें कि Xi यह है कि क्या प्रयोग प्रयोग से 90 दिन पहले संपादकीय औसत संख्या से ऊपर या नीचे था। इन प्रकाश और भारी संपादकों के लिए अलग-अलग उपचार प्रभाव की गणना कर सकती है।
संभावित परिणाम ढांचा कारण अनुमान और प्रयोगों के बारे में सोचने का एक शक्तिशाली तरीका है। हालांकि, दो अतिरिक्त जटिलताओं हैं जिन्हें आपको ध्यान में रखना चाहिए। ये दो जटिलताओं को अक्सर स्थिर यूनिट ट्रीटमेंट वैल्यू अनुमान (एसयूटीवीए) शब्द के तहत एक साथ लाया जाता है। सुट्टा का पहला भाग यह धारणा है कि एकमात्र चीज जो व्यक्ति के लिए मायने रखती है i का नतीजा यह है कि वह व्यक्ति उपचार या नियंत्रण की स्थिति में था या नहीं। दूसरे शब्दों में, यह माना जाता है कि व्यक्ति i अन्य लोगों को दिए गए उपचार से प्रभावित नहीं होता है। इसे कभी-कभी "हस्तक्षेप नहीं" या "कोई स्पिलोवर" नहीं कहा जाता है, और इसे इस प्रकार लिखा जा सकता है:
Yi(Wi,W−i)=Yi(Wi)∀W−i(4.5)
जहां W−i व्यक्ति को छोड़कर हर किसी के लिए उपचार की स्थिति का एक वेक्टर है i । एक तरीका यह है कि इसका उल्लंघन किया जा सकता है यदि एक व्यक्ति का उपचार किसी अन्य व्यक्ति पर या तो सकारात्मक या नकारात्मक रूप से फैलता है। रेस्टिवो और वैन डी रिजेट के प्रयोग पर लौटने, दो दोस्तों की कल्पना करें i और j और वह व्यक्ति i एक बार्नस्टार प्राप्त करता है और j नहीं करता है। यदि i बर्नस्टार प्राप्त करने के कारण j को और अधिक (प्रतिस्पर्धा की भावना से बाहर) या कम संपादित (निराशा की भावना से बाहर) का कारण बनता है, तो सुट्टा का उल्लंघन किया गया है। उपचार का प्रभाव उपचार प्राप्त करने वाले अन्य लोगों की कुल संख्या पर निर्भर करता है तो इसका भी उल्लंघन किया जा सकता है। उदाहरण के लिए, यदि रेस्टिवो और वैन डी रिजट ने 100 के बजाय 1,000 या 10,000 बर्नस्टार दिए थे, तो इससे बार्नस्टार प्राप्त करने के प्रभाव पर असर पड़ा होगा।
सुट्टा में लम्बी दूसरी समस्या यह धारणा है कि एकमात्र प्रासंगिक उपचार वह है जिसे शोधकर्ता प्रदान करता है; इस धारणा को कभी-कभी कोई छुपा उपचार या बहिष्कार नहीं कहा जाता है। उदाहरण के लिए, रेस्टिवो और वैन डी रिजेट में, शायद यह मामला हो सकता है कि एक बार्नस्टार देकर शोधकर्ताओं ने संपादकों को एक लोकप्रिय संपादकों के पृष्ठ पर दिखाया और यह कि लोकप्रिय संपादकों के पृष्ठ पर था - बर्नस्टार- जिससे संपादन व्यवहार में बदलाव आया। यदि यह सत्य है, तो बार्नस्टार का प्रभाव लोकप्रिय संपादकों के पृष्ठ पर होने के प्रभाव से अलग नहीं है। बेशक, यह स्पष्ट नहीं है कि, एक वैज्ञानिक परिप्रेक्ष्य से, इसे आकर्षक या अवांछित माना जाना चाहिए। यही है, आप एक शोधकर्ता की कल्पना कर सकते हैं कि बर्नस्टार प्राप्त करने के प्रभाव में बाद के सभी उपचार शामिल हैं जो बरनस्टार ट्रिगर करता है। या आप ऐसी परिस्थिति की कल्पना कर सकते हैं जहां एक शोध अन्य सभी चीजों से बर्नस्टार के प्रभाव को अलग करना चाहता है। इसके बारे में सोचने का एक तरीका यह पूछना है कि क्या कुछ ऐसा है जो Gerber and Green (2012) (पृष्ठ 41) को "समरूपता में टूटना" कहता है? दूसरे शब्दों में, क्या इलाज के अलावा कुछ और है जो उपचार और नियंत्रण स्थितियों में लोगों को अलग-अलग इलाज का कारण बनता है? समरूपता तोड़ने के बारे में चिंताएं चिकित्सकीय परीक्षणों में नियंत्रण समूह में मरीजों को प्लेसबो गोली लेने के लिए प्रेरित करती हैं। इस तरह, शोधकर्ता यह सुनिश्चित कर सकते हैं कि दोनों स्थितियों के बीच एकमात्र अंतर वास्तविक दवा है और गोली लेने का अनुभव नहीं है।
सुट्टा पर अधिक जानकारी के लिए, Gerber and Green (2012) की धारा 2.7, Morgan and Winship (2014) की धारा 2.5, और Imbens and Rubin (2015) की धारा 1.6 देखें।
शुद्धता
पिछले खंड में, मैंने वर्णन किया है कि औसत उपचार प्रभाव का आकलन कैसे करें। इस खंड में, मैं उन अनुमानों की विविधता के बारे में कुछ विचार प्रदान करूंगा।
यदि आप दो नमूना साधनों के बीच अंतर का अनुमान लगाने के रूप में औसत उपचार प्रभाव का अनुमान लगाने के बारे में सोचते हैं, तो यह दिखाया जा सकता है कि औसत उपचार प्रभाव की मानक त्रुटि यह है:
SE(^ATE)=√1N−1(mVar(Yi(0))N−m+(N−m)Var(Yi(1))m+2Cov(Yi(0),Yi(1)))(4.6)
जहां m लोगों को इलाज के लिए सौंपा गया है और Nm को नियंत्रित करने के लिए ( Gerber and Green (2012) , eq। 3.4 देखें)। इस प्रकार, इस बारे में सोचते हुए कि कितने लोगों को इलाज के लिए असाइन करना है और कितने नियंत्रण को असाइन करना है, आप देख सकते हैं कि यदि Var(Yi(0))≈Var(Yi(1)) , तो आप m≈N/2 , जब तक उपचार और नियंत्रण की लागत समान हो। समीकरण 4.6 स्पष्ट करता है कि वोटिंग (आंकड़ा 4.18) पर सामाजिक जानकारी के प्रभावों के बारे में बॉन्ड और सहयोगियों (2012) प्रयोग का आंकड़ा सांख्यिकीय रूप से अक्षम क्यों था। याद रखें कि इलाज की स्थिति में 98% प्रतिभागी थे। इसका मतलब था कि नियंत्रण की स्थिति में औसत व्यवहार अनुमानित रूप से अनुमानित नहीं किया गया था, जिसका अर्थ यह था कि उपचार और नियंत्रण की स्थिति के बीच अनुमानित अंतर सटीक रूप से अनुमानित नहीं किया गया था। प्रतिभागियों के परिस्थितियों के इष्टतम आवंटन पर अधिक स्थितियों के लिए, जब शर्तों के बीच लागत भिन्न होती है, तो List, Sadoff, and Wagner (2011) ।
आखिरकार, मुख्य पाठ में, मैंने वर्णन किया कि अंतर-अंतर-अंतर अनुमानक, जिसे आम तौर पर मिश्रित डिज़ाइन में उपयोग किया जाता है, अंतर-में-साधन अनुमानक की तुलना में छोटे भिन्नता का कारण बन सकता है, जिसका आमतौर पर बीच के विषयों में उपयोग किया जाता है डिज़ाइन। यदि Xi उपचार से पहले परिणाम का मूल्य है, तो उस अंतर को जिसे हम अंतर-अंतर-अंतर दृष्टिकोण के साथ अनुमान लगाने का प्रयास कर रहे हैं:
ATE′=1NN∑i=1((Yi(1)−Xi)−(Yi(0)−Xi))(4.7)
उस मात्रा की मानक त्रुटि है (देखें Gerber and Green (2012) , eq 4.4)
SE(^ATE′)=√1N−1(Var(Yi(0)−Xi)+Var(Yi(1)−Xi)+2Cov(Yi(0)−Xi,Yi(1)−Xi))(4.8)
ईक की तुलना 4.6 और ईक। 4.8 बताता है कि अंतर-अंतर-अंतर दृष्टिकोण में एक छोटी मानक त्रुटि होगी (जब Gerber and Green (2012) , eq 4.6 देखें)
Cov(Yi(0),Xi)Var(Xi)+Cov(Yi(1),Xi)Var(Xi)>1(4.9)
लगभग, जब Xi Yi(1) और Yi(0) Xi का बहुत पूर्वानुमानित होता है, तो आप अंतर से भिन्न अंतर के अंतर से अधिक सटीक अनुमान प्राप्त कर सकते हैं- का मतलब है एक। रेस्टिवो और वैन डी रिजेट के प्रयोग के संदर्भ में इसके बारे में सोचने का एक तरीका यह है कि लोगों द्वारा संपादित की गई राशि में बहुत सारी प्राकृतिक भिन्नता है, इसलिए इससे उपचार और नियंत्रण की स्थितियों की तुलना मुश्किल हो जाती है: एक रिश्तेदार का पता लगाना मुश्किल है शोर परिणाम डेटा में छोटा प्रभाव। लेकिन यदि आप इस स्वाभाविक रूप से होने वाली भिन्नता को अलग करते हैं, तो बहुत कम परिवर्तनशीलता होती है, और इससे छोटे प्रभाव का पता लगाना आसान हो जाता है।
Frison and Pocock (1992) को अंतर-के-साधनों, अंतर-भिन्नता, और अधिक सामान्य सेटिंग में एएनसीवीवीए-आधारित दृष्टिकोणों की सटीक तुलना के लिए देखें जहां कई माप प्री-ट्रीटमेंट और पोस्ट-ट्रीटमेंट हैं। विशेष रूप से, वे दृढ़ता से एन्कोवा की सिफारिश करते हैं, जिसे मैंने यहां शामिल नहीं किया है। इसके अलावा, McKenzie (2012) को कई पोस्ट-ट्रीटमेंट परिणाम उपायों के महत्व की चर्चा के लिए देखें।