गणितीय नोट्स

मला असे वाटते की प्रयोग समजून घेण्याचा सर्वोत्तम मार्ग संभाव्य परिणाम फ्रेमवर्क आहे (मी धडा 2 मध्ये गवणती नोट्स मध्ये चर्चा केली आहे). धडा 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) वर्णन केलेल्या डिझाइन-आधारित (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) कल्पनांसह संभाव्य परिणाम फ्रेमवर्कचा जवळचा संबंध आहे. हे परिशिष्ट अशा प्रकारे लिहीले गेले आहे की त्या कनेक्शनवर भर. हा भर थोडा अप्रवर्तिक आहे, परंतु मला वाटते की नमूने आणि प्रयोगांमधील संबंध उपयुक्त ठरतात: याचा अर्थ जर आपण नमूनाबद्दल काहीतरी माहिती घेतली तर आपण प्रयोगांबद्दल आणि त्याउलट काहीतरी जाणून घेता. मी या नोट्स मध्ये दाखवल्याप्रमाणे, संभाव्य परिणाम फ्रेमवर्कमुळे प्रभावात्मक प्रभावाचा अंदाज लावण्यासाठी यादृच्छित नियंत्रित प्रयोगांची ताकद आढळते आणि हे अगदी पूर्ण अंमलात आणलेल्या प्रयोगांसह काय केले जाऊ शकते याची मर्यादा देखील दर्शविते.

या परिशिष्टात, मी संभाव्य परिणाम फ्रेमवर्कचे वर्णन करू, ज्यायोगे या नोट्स अधिक आत्मनिर्धारित करण्यासाठी त्यांना धडा 2 मधील गवणती नोट्समधील काही सामग्रीची नक्कल करता येईल. नंतर मी सर्वोत्तम अॅलोकेशनच्या चर्चे आणि फरक-इन-फरक अंमलबजावणीसह, सरासरी उपचारांच्या प्रभावांच्या अंदाजाच्या काही उपयुक्त परिणामांचे वर्णन करू. हे परिशिष्ट Gerber and Green (2012) वर मोठ्या प्रमाणात आकर्षित करते.

संभाव्य परिणाम फ्रेमवर्क

संभाव्य परिणाम फ्रेमवर्क स्पष्ट करण्यासाठी, चला विकिपीडियावर भावी योगदानाबद्दल बार्नस्टार प्राप्त करण्याच्या प्रभावाचा अंदाज घेण्यासाठी रेस्टिव्हियो आणि व्हान डी रिजट च्या प्रयोगावर परत येऊया. संभाव्य परिणाम फ्रेमवर्क तीन मुख्य घटक आहे: युनिट्स , उपचार , आणि संभाव्य परिणाम . रेस्टिस्टो आणि व्हॅन दे रिजटच्या बाबतीत, या युनिट्स संपादकास पात्र होते- जे शीर्ष 1% योगदानकर्ते आहेत- ज्यांना अद्याप बार्नस्टार मिळाले नव्हते आम्ही या संपादकांना \(i = 1 \ldots N\) द्वारे निर्देशित करू शकतो. त्यांच्या प्रयोगांमधील उपचारांचा "बार्मार्कस्टार" किंवा "नो \(W_i = 1\) " होता आणि मी \(W_i = 1\) लिहू करीन जर व्यक्ति \(i\) \(W_i = 0\) उपचार स्थितीत असेल आणि \(W_i = 0\) अन्यथा. संभाव्य परिणाम फ्रेमवर्कचा तिसरा घटक सर्वात महत्त्वाचा आहे: संभाव्य परिणाम हे अधिकच संकल्पनात्मक अवघड आहेत कारण त्यामध्ये "संभाव्य" परिणामांचा समावेश होतो- होऊ शकतील अशी गोष्टी. प्रत्येक विकिपीडियाच्या संपादकासाठी, ती तिच्या उपचार \(Y_i(1)\) संपादनांची संख्या आणि नियंत्रण स्थितीत ती करणार्या संख्याची कल्पना करू शकते ( \(Y_i(0)\) ).

लक्षात घ्या की युनिट्स, उपचार आणि परिणामांची ही निवड या प्रयोगातून काय शिकता येईल हे निश्चित करते. उदाहरणार्थ, रेसिव्हो आणि व्हॅन डी रिजट कोणत्याही अतिरिक्त गृहीतकाविना, सर्व विकिपीडिया संपादकावरील बार्नस्टारच्या परिणामांविषयी किंवा संपादन गुणवत्ता सारख्या परिणामांबद्दल काहीही सांगू शकत नाही. साधारणतया, युनिट्स, उपचार आणि परिणामांची निवड अभ्यासाच्या उद्दिष्टांवर आधारित असणे आवश्यक आहे.

या संभाव्य निष्कर्षांना दिलेला आहे-जे टेबल 4.5 मध्ये सारांशित केले आहे - एखाद्या व्यक्तीस \(i\)

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

माझ्यासाठी, हे समीकरण एक प्रभावी प्रभाव परिभाषित करण्याचा सर्वात स्पष्ट मार्ग आहे, आणि अत्यंत सोपा असूनही, हे फ्रेमवर्क अनेक महत्वाच्या आणि मनोरंजक पद्धती (Imbens and Rubin 2015) मध्ये सामान्यीकरण (Imbens and Rubin 2015) .

तक्ता 4.5: संभाव्य परीणामांची संख्या
व्यक्ती उपचार स्थितीमध्ये संपादने नियंत्रण स्थितीमधील संपादने उपचारांचा परिणाम
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
याचा अर्थ \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

जर आपण याप्रकारे कार्यकारणणाची व्याख्या केली तर आपण समस्या निर्माण करतो. जवळजवळ सर्वच बाबतीत, आम्ही दोन्ही संभाव्य निष्कर्ष बघू नये. म्हणजेच विशिष्ट विकिपीडियावरील एक संपादकांना बार्नस्टार मिळाले किंवा नाही. म्हणूनच, आपण संभाव्य परिणामांपैकी एक \(Y_i(1)\) किंवा \(Y_i(0)\) -परंतु दोन्हीकडे नाही. दोन्ही संभाव्य निष्कर्ष बघणे अशक्य अशी एक मोठी समस्या आहे की Holland (1986) हे त्यास " फॉरमॅन्टल प्रॉब्लेम ऑफ कॉसल इनफॉरमेशन" म्हटले आहे .

सुदैवाने, जेव्हा आपण संशोधन करीत असतो, आपल्याकडे फक्त एक व्यक्ती नाही, आपल्याकडे बरेच लोक आहेत आणि यामुळे कौशल्याच्या मूलभूत समस्येचा अभ्यास होतो. वैयक्तिक पातळीवरील उपचारांच्या प्रभावाचा अंदाज घेण्याऐवजी, आम्ही सरासरी उपचारांच्या प्रभावाचा अनुमान काढू शकतो:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

हे अजूनही \(\tau_i\) च्या दृष्टीने व्यक्त केले आहे जे अप्रकाशित आहेत, परंतु काही बीजगणित (एबा 2.8 Gerber and Green (2012) ) आपल्याला मिळतात

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

समीकरण 4.3 असे दर्शविते की आपण उपचारानुसार लोकसंख्येचा सरासरी निकाल अंदाज लावू शकता ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) आणि लोकसंख्या सरासरी परिणाम नियंत्रणाखाली ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), नंतर कोणत्याही विशिष्ट व्यक्तीसाठी उपचारांच्या प्रभावाचा अंदाज न करता, आम्ही सरासरी उपचारांचा प्रभाव अंदाज घेऊ शकतो.

आता मी माझ्या अंदाजानुसार परिभाषित केलेली आहे- ज्या गोष्टीचा आपण अंदाज लावण्याचा प्रयत्न करीत आहोत- मी डेटासह त्याचा प्रत्यक्ष अंदाज कसा करू शकतो ते पाहू. मला या अंदाजपत्रकाबद्दल एक नमूना समस्या म्हणून विचार करणे आवडते (अध्याय 3 मध्ये गणिती नोटवर परत विचार करा). अशी कल्पना करा की आपण उपचार करण्याच्या स्थितीत काही लोकांना सहजगत्या निवडून घेतो आणि काही लोक नियंत्रित स्थितीत लक्ष ठेवण्यासाठी आपण यादृच्छिकपणे निवडतात, तर प्रत्येक स्थितीत आपण सरासरी निकालाचा अनुमान काढू शकतो:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

जेथे \(N_t\) आणि \(N_c\) हे उपचार आणि नियंत्रण परिस्थितीतील लोकांची संख्या आहेत समीकरण 4.4 हा फरक-ऑफ-एक्स्पेक्टर आहे. नमुन्याच्या डिझाईनमुळे, आम्हाला माहित आहे की पहिल्या टर्म उपचारांनुसार सरासरी निकालासाठी निःपक्षपाती अंदाज आहे आणि दुसरा मुदत नियंत्रणाधीन निष्पक्ष अंदाज आहे.

रँडमायझेशन कशा प्रकारे सक्षम करते याबद्दल विचार करण्याचा एक दुसरा मार्ग म्हणजे उपचार आणि नियंत्रण गटांमधील तुलना योग्य असल्याचे सुनिश्चित करणे कारण रँडिडिजेशन हे सुनिश्चित करते की दोन समूह एकमेकांच्या समान असतात. हे साम्य वस्तू आम्ही मोजले आहे (प्रयोग करण्यापूर्वी 30 दिवसांत संपादनांची संख्या) आणि ज्या गोष्टी आम्ही मोजल्या नाहीत (लिंग म्हणा) असे मानतो. निरीक्षण आणि अप्रभावित दोन्ही घटकांवर संतुलन सुनिश्चित करण्याची ही क्षमता अत्यंत महत्त्वाची आहे. अप्रभावित घटकांवर आपोआप समतोल शक्ती पाहण्यासाठी, भविष्यातील शोधाने असे लक्षात येते की पुरुष महिलांपेक्षा सन्मानासाठी अधिक प्रतिसाद देणारे आहेत. रेसिस्टो आणि व्हान डी रिजतच्या प्रयोगांमुळे होणार्या परिणामास अमान्य होईल का? नाही. यादृच्छिकपणे, त्यांनी आशा केली की सर्व असुरक्षित गोष्टी संतुलित असतील, अपेक्षेप्रमाणे. अज्ञानाविरुद्धचे हे संरक्षण अतिशय शक्तिशाली आहे आणि हे प्रकरण 2 मध्ये वर्णन केलेल्या गैर-प्रायोगिक तंत्रांपेक्षा वेगळे वेगळे आहे.

संपूर्ण लोकसंख्येसाठी उपचारांच्या प्रभावाची व्याख्या करण्याव्यतिरिक्त, लोकसंख्येच्या उपक्रमासाठी उपचारांचा प्रभाव परिभाषित करणे शक्य आहे. याला विशेषतः सशर्त सरासरी उपचार प्रभाव (सीएटी) म्हणतात. उदाहरणार्थ, रेस्टिव्हो आणि व्हॅन दे रिजटच्या अभ्यासात, आपण कल्पना करूया की \(X_i\) प्रयोगापेक्षा 9 0 दिवसांपूर्वी संपादकाच्या मध्यवर्ती संख्येपेक्षा किंवा त्यापेक्षा कमी असलेल्या संपादकांपेक्षा \(X_i\) हा आहे की नाही. या प्रकाश आणि जड संपादकासाठी एखादा उपचार उपचार वेगळे काढला जाऊ शकतो.

संभाव्य परिणाम फ्रेमवर्क कारण अनुमान आणि प्रयोग बद्दल विचार करण्याचा एक शक्तिशाली मार्ग आहे. तथापि, आपण लक्षात ठेवाव्यात दोन अतिरिक्त जटिलता आहेत. या दोन जटिलता वारंवार स्टेबल युनिट ट्रिटमेंट व्हॅल्यू एसेम्प्शन (एसयूटीव्हीए) या टर्म अंतर्गत एकत्रितपणे जोडली जातात. SUTVA चा पहिला भाग असा समज आहे की व्यक्तीसाठी महत्त्वाची गोष्ट म्हणजे \(i\) निष्कर्ष हे आहे की त्या व्यक्तीचा उपचार किंवा नियंत्रण स्थितीमध्ये आहे का. दुस-या शब्दात, असे गृहित धरले जाते की इतर व्यक्तींना दिल्या जाणार्या उपचारांमुळे व्यक्ती \(i\) वर प्रभाव पडत नाही. याला कधीकधी "हस्तक्षेप नाही" किंवा "स्पिलव्हर्स" असे म्हटले जाते, आणि म्हणून असे लिहिले जाऊ शकते:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

जिथे \(\mathbf{W_{-i}}\) हा प्रत्येकासाठी उपचाराच्या स्थितीचे एक सदिश आहे \(i\) याचा भंग होऊ शकतो याचा एक मार्ग म्हणजे एखाद्या व्यक्तीचा उपचार दुसर्या व्यक्तीच्या वर पसरतो, तो एकतर सकारात्मक किंवा नकारात्मक रेस्टिव्हिओ आणि व्हान डी रिजटच्या प्रयोगाकडे परतणे, दोन मित्रांना \(i\) आणि \(j\) आणि त्या व्यक्तीला \(i\) बाई \(i\) एक बार्नस्टार आणि \(j\) नाही असे म्हणता येईल. तर \(i\) barnstar प्राप्त कारणीभूत \(j\) अधिक संपादित करण्यासाठी (स्पर्धा एक अर्थाने बाहेर) किंवा त्यापेक्षा कमी (निराशा एक अर्थ बाहेर) संपादित करा आणि त्यानंतर SUTVA उल्लंघन केले आहे. उपचाराचा प्रभाव इतर व्यक्तींच्या एकूण संख्येवर अवलंबून असेल तर त्याचाही भंग होऊ शकतो. उदाहरणार्थ, जर रेस्टिव्हो आणि व्हॅन दे रिजटने 100 च्या ऐवजी 1,000 किंवा 10,000 बार्स्टरसची तरतूद केली होती, तर कदाचित बार्नस्टार प्राप्त झाल्याचा परिणाम असा झाला असेल.

SUTVA मध्ये विस्कळीत असलेला दुसरा मुद्दा ही अशीच एक संकल्पना आहे की संशोधनाद्वारे वितरित केलेल्याच संबंधित उपचार एकमेव आहेत; या गृहितकांना काहीवेळा लपविलेले उपचार किंवा वगळता म्हटले जात नाही उदाहरणार्थ, रेस्टिव्हो आणि व्हॅन दे रिजतमध्ये कदाचित असे झाले असावे की संशोधकांनी लोकप्रिय संपादक पृष्ठावरील संपादकास वैशिष्ट्यीकृत केले आणि हे लोकप्रिय संपादक पृष्ठावर होते-बार्स्टोस्टार प्राप्त करण्याऐवजी- यामुळे संपादन वर्तन मध्ये बदल झाल्याने जर हे खरे असेल तर, बार्नस्टारचा प्रभाव लोकप्रिय संपादकाच्या पृष्ठावर असण्यापासून वेगळा नाही. अर्थात, वैज्ञानिक दृष्टीकोनातून, हे आकर्षक किंवा अनैतिक म्हणून मानले जावे, हे स्पष्ट नाही. याचा अर्थ असा की आपण एक संशोधक अशी कल्पना करू शकता की बार्नस्टार प्राप्त करण्याच्या परिणामात बार्नस्टार ट्रिगर केल्या जाणार्या पुढील सर्व उपचारांचा समावेश होतो. किंवा आपण त्या परिस्थितीची कल्पना करू शकता जिथे संशोधन या सर्व गोष्टींपासून बार्नस्टारचा प्रभाव दूर करू इच्छितो. याबद्दल विचार करण्याचा एक मार्ग आहे की Gerber and Green (2012) (पी. 41) जे काही "समपातळीसाठी मोडकळीस" म्हणतात त्याकडे काय आहे? दुस-या शब्दात, उपचारांव्यतिरिक्त इतर काही आहे ज्यामुळे उपचार आणि नियंत्रणाच्या वेगवेगळ्या स्थितीत लोकांना वेगळे वागणूक मिळते? वैद्यकीय चाचण्यात नियंत्रण गटातील प्रमुख रुग्णांना प्लाजेलो गोळी घेण्याबाबत समप्रमाणात ब्रेकिंगची समस्या आहे. त्याप्रमाणे, संशोधक हे सुनिश्चित करू शकतात की दोन स्थितीमध्ये फरक प्रत्यक्ष औषध आहे आणि गोळी घेण्याचा अनुभव नाही.

SUTVA वर अधिक माहितीसाठी, Gerber and Green (2012) सेक्शन 2.7, Morgan and Winship (2014) सेक्शन 2.5, Imbens and Rubin (2015) कलम 1.6 पहा.

प्रिसिजन

मागील विभागात, मी सरासरी उपचारांच्या प्रभावाचा अंदाज कसा लावायचा हे वर्णन केले आहे. या विभागात, मी त्या अंदाजांमधील परिवर्तनशीलतेबद्दल काही कल्पना प्रदान करू.

दोन सॅम्पल अर्थांमधील फरकाचा अंदाज लावण्याबद्दल आपण सरासरी उपचारांचा अंदाज लावण्याबद्दल विचार करत असल्यास, हे दर्शविणे शक्य आहे की सरासरी उपचारांचा मानक मानक त्रुटी आहे:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

जेथे \(m\) लोकांना उपचारासाठी नियुक्त केले आणि \(Nm\) नियंत्रित करण्यासाठी ( Gerber and Green (2012) , eq. 3.4) पहा. म्हणून, किती लोकांना उपचारांना नियुक्त करण्यासाठी किती जणांना नियुक्त करावे आणि किती लोकांना नियुक्त करण्यास सांगितले याबद्दल विचार करता तेव्हा आपण पाहू शकता की जर \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , नंतर आपल्याला उपचार आणि नियंत्रणाचे खर्च समान आहेत तोपर्यंत \(m \approx N / 2\) . मतदानाबाबत सामाजिक माहितीचे परिणाम (2012) बॉडी आणि सहकाऱ्यांचे डिझाइन (2012) प्रयोगांचा तर्क (आकृती 4.18) अभिप्राय 4.6 विश्लेषित होते. आठवतं की उपचार पध्दतीमध्ये 9 8 टक्के सहभागी होते. याचा अर्थ असा होतो की कंट्रोल अट मधील सरासरी वागणूक अचूकपणे अंदाज लावत नाही कारण ती असू शकते, ज्याचा अर्थ असा होता की उपचार आणि नियंत्रण स्थितीमधील अंदाजे अंतर हे शक्य तितके अचूकपणे अंदाजे ठरत नव्हते. अटींमधील खर्च भिन्न List, Sadoff, and Wagner (2011) समावेशासह भागधारकांच्या चांगल्या List, Sadoff, and Wagner (2011) माहितीसाठी List, Sadoff, and Wagner (2011) .

शेवटी, मुख्य मजकूरात, मी वर्णन केले आहे की फरक-इन-फरक अंदाजपत्रकास, जो सामान्यतः मिश्रित डिझाइनमध्ये वापरला जातो, फरक-इन-अर्थ अंदाजपत्रापेक्षा लहान फरकांपर्यंत पोहचू शकतो, जे सामान्यत: दरम्यान-विषयात वापरले जाते डिझाइन जर उपचारापूर्वीच्या परिणामाचा \(X_i\) हा मूल्य असेल, तर फरक-अंतर-फरक दृष्टिकोणासह अंदाज लावण्याचा आम्ही प्रयत्न करीत आहोत:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

त्या प्रमाणित मानक त्रुटीमध्ये आहे ( Gerber and Green (2012) , इको. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

ईक ची तुलना 4.6 आणि eq. 4.8 मध्ये असे आढळून आले की फरक-मधील मतभेद दृष्टिकोनामध्ये एक लहान मानक त्रुटी असेल (जेव्हा Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

साधारणपणे जेव्हा \(X_i\) \(Y_i(1)\) आणि \(Y_i(0)\) \(X_i\) ची फारच भविष्यवाणी केली जाते, तर फरक पेक्षा भिन्न मतभेदांपेक्षा आपण अधिक अचूक अंदाज मिळवू \(Y_i(0)\) अर्थ एक रेसिविओ आणि व्हॅन डी रिजट यांच्या प्रयोगांच्या संदर्भात याबद्दल विचार करण्याचा एक मार्ग म्हणजे लोक जे संपादित करतात त्या प्रमाणात बरेच नैसर्गिक फरक आहेत, त्यामुळे यामुळे उपचार आणि नियंत्रण अटींची तुलना करणे अवघड आहे: नातेवाईक शोधणे कठिण आहे ध्वनी परिणाम डेटा मध्ये लहान परिणाम. परंतु जर आपणास हे नैसर्गिकरित्या येणार्या परिवर्तनातील फरक असेल, तर तेथे खूप कमी परिवर्तनीयता आहे आणि यामुळे छोट्या प्रभावाचा शोध घेणे सोपे होते.

फरक-ऑफ-मासेस, फरक-फरक आणि एएनसीओव्हीए-आधारित पध्दतींमध्ये अधिक सामान्य सेटिंगमध्ये जेथे एकाधिक मापे पूर्व-उपचार आणि पोस्ट-उपचार असतात, त्यांच्या अचूक तुलनासाठी Frison and Pocock (1992) पहा. विशेषतः, ते अत्यंत शिफारस ANCOVA, मी येथे संरक्षित नाही जे. पुढे, McKenzie (2012) मल्टि पोस्ट-उपचार परिणामाच्या उपायांचे महत्व जाणून घेण्यासाठी