მათემატიკური შენიშვნები

მე ვფიქრობ, რომ ექსპერიმენტების გასაგებად საუკეთესო საშუალება არის პოტენციური შედეგების ჩარჩო (რომელიც მე -2 განყოფილებაში მათემატიკურ შენიშვნებში ვსწავლობდი). პოტენციური შედეგების ჩარჩოს აქვს მჭიდრო ურთიერთობები იდეების დიზაინის საფუძველზე, რომელიც აღწერილია მე -3 თავში (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . ეს დანართი არის ისე, რომ ხაზგასმით აღინიშნოს ეს კავშირი. ეს აქცენტი ცოტა არატრადიციულია, მაგრამ მე ვფიქრობ, რომ შერჩევისა და ექსპერიმენტების კავშირი სასარგებლოა: ეს იმას ნიშნავს, რომ თუ რამე გაეცნობა სინჯს, მოგეხსენებათ რაიმე ექსპერიმენტი და პირიქით. როგორც მე აღვნიშნავ ამ აღნიშვნებში, პოტენციური შედეგების ჩარჩო გამოვლინდება რანდომიზებული კონტროლირებადი ექსპერიმენტის ძალა, რომელიც ეფუძნება მიზეზობრივ ეფექტებს და ის გვიჩვენებს, თუ რა შეიძლება გაკეთდეს კიდეც, თუ რა მოხდება ექსპერიმენტებისთვის.

ამ დანართში მე აღწერს პოტენციური შედეგების ჩარჩოებს, მე -2 თავის მათემატიკურ შენიშვნებში ზოგიერთი მასალის დუბლირებას, რათა ეს შენიშვნები უფრო მეტად იყოს გათვალისწინებული. შემდეგ მე აღვწერ რამდენიმე გამოსადეგი შედეგების სიზუსტით შეფასების საშუალო მკურნალობის ეფექტი, მათ შორის დისკუსია ოპტიმალური განაწილება და განსხვავება- in- განსხვავებები შეფასებით. ეს დანართი Gerber and Green (2012) ძლიერდება.

პოტენციური შედეგების ჩარჩო

იმისათვის, რომ დავანახოთ პოტენციური შედეგების ჩარჩოს, დავუბრუნდეთ რესტევოსა და ვან დე რიჯის ექსპერიმენტს, ვიზუალურად ვიმსჯელოთ ბარნსტერის მიღებაზე. პოტენციური შედეგების ჩარჩო სამი ძირითადი ელემენტია: ერთეული , მკურნალობა და პოტენციური შედეგები . Restivo- ს და van de Rijt- ს შემთხვევაში, ერთეულები იმსახურებდნენ რედაქტორებს - ავტორების ავტორების პირველ 1% -ს, რომლებსაც ჯერ კიდევ არ მიუღიათ barnstar. ჩვენ შეგვიძლია მიუთითოთ ეს რედაქტორები \(i = 1 \ldots N\) . მკურნალობა ექსპერიმენტში იყო "barnstar" ან "no barnstar" და მე დავწერ \(W_i = 1\) თუ პირი \(i\) მკურნალობის მდგომარეობაშია და \(W_i = 0\) . პოტენციური შედეგების ჩარჩოს მესამე ელემენტია ყველაზე მნიშვნელოვანი: პოტენციური შედეგები . ეს უფრო კონცეპტუალურად რთულია, რადგან ისინი "პოტენციურ" შედეგებს - რაც შეიძლება მოხდეს. თითოეული ვიკიპედიის რედაქტორისთვის შეიძლება წარმოიდგინოს იმ რაოდენობის რედაქტირება, რომლითაც მკურნალობდა მკურნალობის მდგომარეობაში ( \(Y_i(1)\) ) და ის ნომერი, რომელსაც ის ექნებოდა კონტროლის პირობებში ( \(Y_i(0)\) ).

გაითვალისწინეთ, რომ ეს არჩევანი ერთეული, მკურნალობა და შედეგები განსაზღვრავს, თუ რა შეიძლება შეიტყო ამ ექსპერიმენტიდან. მაგალითად, ყოველგვარი დამატებითი დაშვებების გარეშე, Restivo და van de Rijt ვერ ვიტყვი, რომ ყველა ვიკიპედიის რედაქტორთა ან შედეგების შესახებ, როგორიცაა რედაქტირების ხარისხი. ზოგადად, ერთეულების შერჩევა, მკურნალობა და შედეგები უნდა ეფუძნებოდეს კვლევის მიზნებს.

ამ პოტენციური შედეგების გათვალისწინებით, რომლებიც შეჯამებულია ცხრილი 4.5-ში, შეიძლება განისაზღვროს პიროვნების მკურნალობის მიზეზობრივი ეფექტი \(i\)

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

ჩემთვის ეს განტოლება არის ნათელი გზა, რომ განსაზღვროს მიზეზობრივი ეფექტი, და, თუმცა ძალიან მარტივია, ეს ჩარჩო გამოდის განზოგადება ბევრ მნიშვნელოვან და საინტერესო გზებით (Imbens and Rubin 2015) .

ცხრილი 4.5: პოტენციური შედეგების ცხრილი
პირი მოქმედება მკურნალობის მდგომარეობაში რედაქტირება საკონტროლო მდგომარეობაში მკურნალობის ეფექტი
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
\(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
ნიშნავს \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

თუ ამგვარად ვხვდებით მიზეზს, ჩვენ პრობლემის გადასაჭრელად მივდივართ. თითქმის ყველა შემთხვევაში, ჩვენ არ მივიღებთ ორივე პოტენციური შედეგების დაცვას. ანუ კონკრეტული ვიკიპედიის რედაქტორიც მიიღო, ან ვერ მიიღო. აქედან გამომდინარე, ჩვენ ვიცავთ ერთ პოტენციურ შედეგებს- \(Y_i(1)\) ან \(Y_i(0)\) მაგრამ არა ორივე. პოტენციური შედეგების დაკმაყოფილების უუნარობა ისეთი მნიშვნელოვანი პრობლემაა, რომ Holland (1986) მას საფუძვლად უდევს კასოლალური ინფრასტრუქტურის ფუნდამენტური პრობლემა .

საბედნიეროდ, როდესაც ჩვენ ვაკეთებთ კვლევას, ჩვენ არ გვაქვს მხოლოდ ერთი ადამიანი, ჩვენ გვყავს ბევრი ადამიანი, და ეს გთავაზობთ გზას საფუძველი Causal ინფრასტრუქტურის ფუნდამენტური პრობლემა. იმის ნაცვლად, რომ ინდივიდუალური დონის მკურნალობის ეფექტის დადგენის მცდელობისას, შეიძლება შეფასდეს საშუალო მკურნალობის ეფექტი:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

ეს ჯერ კიდევ გამოხატულია თვალსაზრისით \(\tau_i\) , რომლებიც ზოგიერთ ალგებრასთან ( Gerber and Green (2012)

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

განტოლება 4.3 გვიჩვენებს, რომ თუ ჩვენ შეგვიძლია შეფასდეს მოსახლეობის საშუალო შედეგი მკურნალობის დროს ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) და მოსახლეობის საშუალო შედეგი კონტროლის ქვეშ ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), მაშინ შეგვიძლია შეფასდეს საშუალო მკურნალობის ეფექტი, თუნდაც რაიმე კონკრეტული პირის მკურნალობის ეფექტის შეფასების გარეშე.

ახლა, რაც მე განვსაზღვრავ ჩვენს შეფასებას - ის, რასაც ვცდილობთ ვფიქრობთ, მე მივმართავ იმაზე, თუ როგორ შეგვიძლია რეალურად შეაფასოთ ეს მონაცემები. მე მსურს ფიქრი ამ შეფასების გამოწვევაზე, როგორც შერჩევის პრობლემა (მე -3 თავი მათემატიკურ შენიშვნებში). წარმოიდგინეთ, რომ შემთხვევით მივმართავთ ზოგიერთ ადამიანს მკურნალობის პირობებში და ჩვენ შემთხვევით მივუდგეთ ზოგიერთ ადამიანს, რომ დაიცვას კონტროლი, მაშინ ჩვენ შეგვიძლია ვნახავთ საშუალო შედეგს თითოეულ პირობებში:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

სადაც \(N_t\) და \(N_c\) არის ადამიანების რაოდენობა მკურნალობისა და კონტროლის პირობებში. განტოლება 4.4 არის განსხვავება- of- ნიშნავს შეფასებით. შერჩევის დიზაინის გამო, ჩვენ ვიცით, რომ პირველი ვადა არის მიუკერძოებელი დამდგენელი მკურნალობის საშუალო შედეგით და მეორე ვადით არის ობიექტური დამზღვევი კონტროლის ქვეშ.

კიდევ ერთი გზა ვიფიქროთ რა რატიფიცირების საშუალებას აძლევს არის ის, რომ მკურნალობასა და საკონტროლო ჯგუფებს შორის შედარება სამართლიანია, რადგან რანდომიზაცია უზრუნველყოფს ორ ჯგუფს ერთმანეთს ჰგავს. ეს მსგავსება გვხვდება რამეზე (ვამბობთ ექსპერიმენტის დაწყებამდე 30 დღით) და ჩვენ არ განზოგადებულნი ვართ (ვთქვათ გენდერი). ეს უნარი ძალზე მნიშვნელოვანია როგორც ბალანსის დაცვაზე, ასევე არაკონტროლირებად ფაქტორებზე. დაინახავ, რომ ავტომატური დაბალანსება არარაციონალური ფაქტორების შესახებ, წარმოიდგინეთ, რომ მომავალი კვლევა გვიჩვენებს, რომ მამაკაცები უფრო მეტად პასუხობენ ჯილდოს, ვიდრე ქალები. იქნებოდა ეს რატიუმისა და ვან დე რიჯის ექსპერიმენტის შედეგების გაუქმება? არა რამოდენიმე შემთხვევით, ისინი უზრუნველყოფდნენ, რომ ყველა დაუცველობას დაბალანსებული იქნებოდა მოლოდინში. ეს დაცვა უცნობი წინააღმდეგ არის ძალიან ძლიერი და მნიშვნელოვანია ის, რომ ექსპერიმენტები განსხვავდება არა ექსპერიმენტული ტექნიკისაგან, რომელიც აღწერილია მე -2 თავში.

მთლიანი მოსახლეობისთვის მკურნალობის ეფექტის განსაზღვრის გარდა, შესაძლებელია ადამიანთა სუბსეტზე მკურნალობის ეფექტის განსაზღვრა. ეს ჩვეულებრივ მოუწოდა პირობითი საშუალო მკურნალობის ეფექტი (CATE). მაგალითისთვის, რესტვოსა და ვან დე რიჯტის მიერ ჩატარებულ კვლევაში, წარმოიდგინეთ, რომ \(X_i\) არის თუ არა რედაქტორი მაღლა ან ქვემოდან რედაქციის საშუალო რაოდენობა ექსპერიმენტამდე 90 დღით ადრე. შეიძლება გამოითვალოს მკურნალობის ეფექტი ცალკე ამ მსუბუქი და მძიმე რედაქტორებისათვის.

პოტენციური შედეგების ჩარჩო არის ძლიერი გზა, იფიქროს მიზეზობრივ დასკვნებსა და ექსპერიმენტებზე. თუმცა, არსებობს ორი დამატებითი სირთულე, რომ თქვენ უნდა გვახსოვდეს. ეს ორი სირთულე ხშირად იწყება ერთად სტაბილური ერთეულის მკურნალობის ღირებულების ვარაუდი (SUTVA). SUTVA- ის პირველი ნაწილი არის ვარაუდი, რომ ერთადერთი, რაც პიროვნებას ეხება \(i\) შედეგია, არის თუ არა ადამიანი მკურნალობის ან კონტროლის მდგომარეობაში. სხვა სიტყვებით რომ ვთქვათ, ვარაუდობს, რომ პირი \(i\) არ მოქმედებს სხვა ადამიანებისთვის მიცემული მკურნალობით. ეს ზოგჯერ უწოდებენ "არ ჩარევა" ან "არ spillovers", და შეიძლება დაიწერა:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

სადაც \(\mathbf{W_{-i}}\) არის ვეტერინარული მკურნალობის სტატუსი ყველასთვის, გარდა პიროვნებისა \(i\) . ერთი გზა, რომელიც შეიძლება დაირღვეს, არის თუ არა ერთი ადამიანის მკურნალობა სხვა პიროვნებაზე დადებითად ან უარყოფითად. დავბრუნდეთ რესტვოსა და ვან დე რიჯის ექსპერიმენტში, წარმოიდგინეთ ორი მეგობარი \(i\) და \(j\) და ეს პიროვნება \(i\) იღებს barnstar და \(j\) არ არის. თუ \(i\) იღებს barnstar მიზეზებს \(j\) მეტი შეცვალოს (კონკურენციის გრძნობა) ან შეცვალოს ნაკლებად (სასოწარკვეთილი აზრიდან), მაშინ SUTVA დაირღვა. ის შეიძლება დაირღვეს, თუ მკურნალობის გავლენა დამოკიდებულია მკურნალობის სხვა ადამიანების საერთო რაოდენობაზე. მაგალითად, თუ რევივო და ვან დე რიჯმა 100-ის ნაცვლად 1000 ან 10,000 ბარნსტერს აძლევდნენ, ეს შესაძლოა გავლენა მოახდინა ბარნსტერის მიღებაზე.

მეორე საკითხი, რომელიც SUTVA- ში შევიდა, არის ვარაუდი, რომ ერთადერთი სათანადო მკურნალობაა მკვლევარი, ამ ვარაუდს ხანდახან უწოდებენ ფარული მკურნალობის ან გამოქვითვას . მაგალითად, რესტვოსა და ვან დე რიჯტში, შესაძლოა, ეს იყო შემთხვევა, რომ მკვლევარებმა გამოაქვეყნეს მკვლევარებმა გამოაქვეყნეს რედაქტორები, რომლებიც პოპულარული რედაქტორების გვერდზე იყვნენ და პოპულარული რედაქტორების გვერდი იყვნენ, ვიდრე ბარნსტარ- რამაც შეცვალა რედაქტირების ქცევის ცვლილება. თუ ეს ასეა, მაშინ ბარნსტარის გავლენა არ არის გამოკვეთილი პოპულარული რედაქტორების გვერდიდან. რა თქმა უნდა, არ არის ნათელი, თუ სამეცნიერო თვალსაზრისით ეს უნდა იყოს მიმზიდველი ან მიმზიდველი. ანუ, თქვენ შეიძლება წარმოიდგინოთ მკვლევარი, რომ შედეგის მიღება barnstar მოიცავს ყველა შემდგომი მკურნალობა, რომელიც barnstar იწვევს. ან შეიძლება წარმოიდგინოთ ისეთი სიტუაცია, სადაც კვლევა გვინდა იზოლირება ეფექტი barnstars ყველა ამ სხვა რამ. ერთი გზა ფიქრობს იმაზე, თუ რა არის ისეთი რამ, რაც Gerber and Green (2012) (გვ 41) მივყავართ "სიცრუეში"? სხვა სიტყვებით რომ ვთქვათ, არის თუ არა მკურნალობისა და კონტროლის პირობებში ადამიანთა მკურნალობა განსხვავებულად მკურნალობაზე? შეშფოთება სიმეტრიული დარღვევის შესახებ არის ის, თუ რა გამოიწვიოს პაციენტებს საკონტროლო ჯგუფში სამედიცინო სასამართლოები მიიღოს პლაცებო აბი. ამგვარად, მკვლევარები დარწმუნებულნი არიან, რომ ორი განსხვავების ერთადერთი განსხვავებაა რეალურ მედიცინაში და არა აბების მიღების გამოცდილება.

უფრო მეტი SUTVA- ზე, იხ. Gerber and Green (2012) სექცია 2.7, Morgan and Winship (2014) სექცია 2.5 და Imbens and Rubin (2015) 1.6 ნაწილი Imbens and Rubin (2015) .

სიზუსტე

წინა განყოფილებაში, მე აღვწერე, თუ როგორ უნდა შეაფასოს საშუალო მკურნალობის ეფექტი. ამ ნაწილში, მე ვაძლევ რამდენიმე იდეას იმ შეფასების ცვალებადობაზე.

თუ ფიქრობთ საშუალო მკურნალობის ეფექტის შეფასებისას ორი ნიმუშის საშუალების სხვაობის შეფასებისას, მაშინ შესაძლებელია აჩვენოთ, რომ საშუალო მკურნალობის ეფექტის სტანდარტული შეცდომაა:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

სადაც \(m\) ადამიანები მკურნალობენ და \(Nm\) აკონტროლებენ (იხ. Gerber and Green (2012) , ეგ 3.4). ამრიგად, როდესაც ფიქრობთ, თუ რამდენი ადამიანი მიანიჭებს მკურნალობას და რამდენია დანიშნოს კონტროლი, ხედავთ, რომ თუ \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , მაშინ გსურთ \(m \approx N / 2\) , რადგან მკურნალობისა და კონტროლის ხარჯები იგივეა. განტოლება 4.6 განმარტავს, თუ რატომ იყო ბონდისა და კოლეგების დიზაინი (2012) ექსპერიმენტი სოციალურ ინფორმაციის ეფექტურობის შესახებ კენჭისყრის შესახებ (ფიგურა 4.18) არაეფექტური სტატისტიკურად. შეგახსენებთ, რომ მკურნალობის პირობებში მონაწილეთა 98% ჰქონდა. ეს იმას ნიშნავდა, რომ კონტროლის მექანიზმების საშუალო ქცევა არ იყო შეფასებული ზუსტად ისე, როგორც ეს შეიძლება ყოფილიყო, რაც, თავის მხრივ, იმას ნიშნავს, რომ მკურნალობისა და კონტროლის მდგომარეობას შორის განსხვავებული განსხვავება არ იყო ზუსტად ისე, როგორც ეს შეიძლება იყოს. მეტი პირობების მონაწილეთათვის ოპტიმალურ განაწილებასთან დაკავშირებით, მათ შორის, როდესაც ხარჯები განსხვავდება პირობებში, იხილეთ List, Sadoff, and Wagner (2011) .

საბოლოო ჯამში, მთავარ ტექსტში მე აღვნიშნე, თუ როგორ განსხვავებული განსხვავებული დამდგენელი, რომელიც, როგორც წესი, გამოიყენება შერეული დიზაინის საშუალებით, შეიძლება გამოიწვიოს მცირედი განსხვავება, ვიდრე განსხვავებული მეთოდის შეფასებით, რომელიც ჩვეულებრივ გამოიყენება სუბიექტებს შორის დიზაინი. თუ მკურნალობის დაწყებამდე \(X_i\) არის მნიშვნელობა, მაშინ ის რაოდენობა, რომელიც ჩვენ ვცდილობთ განსხვავებულ განსხვავებულ მიდგომას შეაფასონ:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

ამ რაოდენობის სტანდარტული შეცდომა (იხ. Gerber and Green (2012) , eq 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

შედარება eq. 4.6 და eq. 4.8 ცხადყოფს, რომ განსხვავებული მიდგომის მიდგომა ექნება პატარა სტანდარტული შეცდომისას (იხ. Gerber and Green (2012) , eq 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

უხეშად რომ ვთქვათ, როდესაც \(X_i\) ძალიან ემთხვევა \(Y_i(1)\) და \(Y_i(0)\) , მაშინ თქვენ შეგიძლიათ მიიღოთ უფრო ზუსტი შეფასებით განსხვავება-of-განსხვავებები მიდგომა ვიდრე სხვაობით ერთი ნიშნავს. ერთი გზა ფიქრობს რესტვოსა და ვან დე რიჯის ექსპერიმენტის კონტექსტში, რომ არსებობს უამრავი ბუნებრივი ვარიაცია, რომლითაც ადამიანები შეცვლიან, ამიტომ ეს შედარებით რთულია მკურნალობისა და კონტროლის პირობების შედარებით: რთულია გამოვლენის ნათესავი მცირე ეფექტი ხმაურიანი შედეგების მონაცემებში. მაგრამ თუ განსხვავებამ ეს ბუნებრივად ხდება ცვალებადობა, მაშინ გაცილებით ნაკლებია ცვალებადობა, რაც უფრო ადვილად იძლევა მცირე ეფექტს.

იხილეთ Frison and Pocock (1992) განსხვავებულობის, განსხვავების განსხვავებისა და ANCOVA- ს დაფუძნებული მიდგომების ზუსტი შედარება უფრო ზოგად გარემოში, სადაც მრავლობითი გაზომვებია წინასწარ მკურნალობა და მკურნალობა. კერძოდ, ისინი კატეგორიულად ურჩევენ ANCOVA- ს, რომელიც აქ არ დაფარული. გარდა ამისა, იხილეთ McKenzie (2012) განხილვის მიზნით მრავალჯერადი პოსტი მკურნალობის შედეგების ზომები.