კითხვები სოციალურ კვლევაში ხშირია რთული და რთული. მიზეზობრივ გრაფიკებზე დაფუძნებული მიზეზობრივი საფუძვლებისთვის იხილეთ Pearl (2009) და პოტენციური შედეგების საფუძველზე დაფუძნებული მიდგომა, იხილეთ Imbens and Rubin (2015) . ამ ორ მიდგომასთან შედარებით იხ. Morgan and Winship (2014) . ფორმალური მიდგომა, რომელიც განსაზღვრავს confounder, იხილეთ VanderWeele and Shpitser (2013) .
ამ თავში, მე შევქმენი ისეთი, როგორიც იყო ნათელი ხაზი, ჩვენი უნარი, რომ გამოიწვიოს გამომწვევი და არა ექსპერიმენტის მონაცემები. თუმცა, მე ვფიქრობ, რომ, სინამდვილეში, განსხვავება უფრო ბუნდოვანია. მაგალითად, ყველას მიაჩნია, რომ მოწევა კიბოს იწვევს, მიუხედავად იმისა, რომ რანდომიზებული კონტროლირებად ექსპერიმენტი, რომელიც ადამიანებს მოწევას უქმნის, ოდესმე გაკეთდა. შესანიშნავი წიგნის სიგრძე მკურნალობის მიღების მიზეზობრივი შეფასებით არასამთავრობო ექსპერიმენტული მონაცემები იხილეთ Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , და Dunning (2012) .
Freedman, Pisani, and Purves (2007) თავები 1 და 2 შესთავაზა ექსპერიმენტებს, კონტროლირებად ექსპერიმენტებსა და რანდომიზებულ კონტროლს ექსპერიმენტებს შორის არსებულ განსხვავებებს.
Manzi (2012) გთავაზობთ რამოდენიმე საინტერესო და იშვიათი შესავალს რანდომიზებული კონტროლირებადი ექსპერიმენტების ფილოსოფიურ და სტატისტიკურ ასპექტებზე. იგი ასევე გთავაზობთ საინტერესო რეალურ სამყაროს მაგალითებს ექსპერიმენტების ძალაუფლების ბიზნესში. Issenberg (2012) გთავაზობთ საინტერესო კამპანიების ექსპერიმენტულ გამოყენებას.
Box, Hunter, and Hunter (2005) , @ კასელა_სტატისტიკურ_2008 და Athey and Imbens (2016b) უზრუნველყოფს ექსპერიმენტული დიზაინისა და ანალიზის სტატისტიკურ ასპექტებს. გარდა ამისა, არსებობს შესანიშნავი მკურნალობის გამოყენების ექსპერიმენტი სხვადასხვა სფეროებში: ეკონომიკა (Bardsley et al. 2009) , სოციოლოგია (Willer and Walker 2007; Jackson and Cox 2013) , ფსიქოლოგიის (Aronson et al. 1989) , პოლიტიკური მეცნიერება (Morton and Williams 2010) და სოციალური პოლიტიკა (Glennerster and Takavarasha 2013) .
მონაწილეთა რეკრუტირების მნიშვნელობა (მაგ., სინჯის დამუშავება) ხშირად გამოირჩევა ექსპერიმენტულ კვლევაში. თუმცა, თუ მკურნალობის ეფექტი არის ჰეტეროგენული მოსახლეობაში, მაშინ შერჩევის კრიტიკულია. Longford (1999) ამ თვალსაზრისით აშკარად გამოხატავს იმას, რომ მკვლევართა აზრით, ექსპერიმენტების აზროვნება, როგორც მოსახლეობის კვლევა haphazard შერჩევისას.
მე ვარაუდობდი, რომ არსებობს ლაბორატორიული და საველე ექსპერიმენტების უწყვეტობა და სხვა მკვლევარებმა შემოგვთავაზეს უფრო დეტალური ტიპოლოგია, კერძოდ, რომლებიც სხვადასხვა საველე ექსპერიმენტების (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
ლაბორატორიულ და საველე ექსპერიმენტებს აბსტრაქტში (Falk and Heckman 2009; Cialdini 2009) და პოლიტიკური მეცნიერების სპეციალურ ექსპერიმენტებში (Coppock and Green 2015) , ეკონომიკა (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) და ფსიქოლოგია (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) გთავაზობთ სასიამოვნო კვლევის დიზაინს ლაბორატორიული და საველე ექსპერიმენტების შედეგების შედარების მიზნით. Parigi, Santana, and Cook (2017) აღწერს, თუ როგორ ონლაინ ექსპერიმენტებს შეუძლიათ გაერთიანდნენ ლაბორატორიული და საველე ექსპერიმენტების ზოგიერთი მახასიათებელი.
შეშფოთება მონაწილეებმა შეცვალონ თავიანთი საქციელი, რადგან იციან, რომ ისინი ყურადღებით აკვირდებიან ზოგჯერ მოთხოვნის ეფექტს და მათ სწავლობენ ფსიქოლოგიაში (Orne 1962) და ეკონომიკა (Zizzo 2010) . მიუხედავად იმისა, რომ ლაბორატორიული ექსპერიმენტები ძირითადად დაკავშირებულია, იგივე პრობლემები შეიძლება გამოიწვიოს საველე ექსპერიმენტებისთვისაც. სინამდვილეში, მოთხოვნის ეფექტი ასევე უწოდებენ ჰავართრის ეფექტებს , ტერმინი, რომელიც ცნობილია 1924 წელს დასავლეთ ელექტრული კომპანიის ჰოტორნულ ნამუშევრებზე (Adair 1984; Levitt and List 2011) დაიწყო ცნობილი განათების ექსპერიმენტი. ორივე მოთხოვნის ეფექტი და ჰოთორნის ეფექტი მჭიდროდ არის დაკავშირებული რეაქტიული გაზომვის იდეასთან დაკავშირებით, რომელიც განხილულია მე -2 თავში (იხ. აგრეთვე Webb et al. (1966) ).
საველე ექსპერიმენტებს აქვთ ეკონომიკის ისტორიაში (Levitt and List 2009) , პოლიტიკურ მეცნიერებაში (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , ფსიქოლოგია (Shadish 2002) და საჯარო პოლიტიკა (Shadish and Cook 2009) . სოციალური მეცნიერების ერთ-ერთი სფერო, სადაც საველე ექსპერიმენტი სწრაფად გახდა ცნობილი, საერთაშორისო განვითარებაა. ეკონომიკის ფარგლებში ამ სამუშაოს დადებითი მიმოხილვის სანახავად Banerjee and Duflo (2009) და კრიტიკული შეფასებისთვის იხილეთ Deaton (2010) . ამ კვლევის განხილვა პოლიტიკურ მეცნიერებაში Humphreys and Weinstein (2009) . საბოლოოდ, საველე ექსპერიმენტების შედეგად წარმოქმნილი ეთიკური გამოწვევები პოლიტიკური მეცნიერების კონტექსტში (Humphreys 2015; Desposato 2016b) და განვითარების ეკონომიკის (Baele 2013) კონტექსტში იქნა შესწავლილი.
ამ ნაწილში მე ვარაუდობდი, რომ წინასწარი მკურნალობის ინფორმაცია შეიძლება გამოყენებულ იქნას შეფასებული მკურნალობის შედეგების სიზუსტით, მაგრამ არსებობს გარკვეული დებატები ამ მიდგომის შესახებ. იხილეთ Freedman (2008) , W. Lin (2013) , Berk et al. (2013) და Bloniarz et al. (2016) მეტი ინფორმაცია.
დაბოლოს, არსებობს ორი სხვა სახის ექსპერიმენტი, რომლებიც ასრულებენ სოციალურ მეცნიერებს, რომლებიც ლაბორატორიული სფეროს განზომილებების გასწორებას არ ითვალისწინებენ: კვლევის ექსპერიმენტები და სოციალური ექსპერიმენტები. კვლევის ექსპერიმენტი ექსპერიმენტია არსებული კვლევების ინფრასტრუქტურის გამოყენებით და იგივე პასუხების ალტერნატიული ვერსიების შესაფასებლად (ზოგიერთი კვლევის ექსპერიმენტი წარმოდგენილია მე -3 თავში); მეტი კვლევის ექსპერიმენტი იხილეთ Mutz (2011) . სოციალური ექსპერიმენტებია ექსპერიმენტები, სადაც მკურნალობა არის გარკვეული სოციალური პოლიტიკა, რომელიც მხოლოდ მთავრობის მიერ ხორციელდება. სოციალური ექსპერიმენტები მჭიდროდ უკავშირდება პროგრამის შეფასებას. პოლიტიკის ექსპერიმენტებზე მეტი იხილეთ Heckman and Smith (1995) , Orr (1998) და @ glennerster_running_2013.
მე აირჩია ფოკუსირება სამი ცნებები: მოქმედების, მკურნალობის ეფექტი ჰეტეროგენეულობა და მექანიზმები. ეს კონცეფციები განსხვავებულ ველშია. მაგალითად, ფსიქოლოგები ჩვეულებრივ ექსპერიმენტებს გადაადგილდებიან შუამავლებსა და მოდერატორებზე (Baron and Kenny 1986) . შუამავლების იდეა დაიბეჭდება მექანიზმებზე და მოდერატორთა იდეა დაიბრუნებს იმას, რასაც მე მოვუწოდებ გარე გარეფასს (მაგ. ექსპერიმენტის შედეგები განსხვავდება თუ სხვადასხვა სიტუაციებში ხორციელდება) და მკურნალობის ეფექტურობის ჰეტეროგენულობა (მაგ. მაგალითად, ზოგიერთი ადამიანი უფრო მეტია, ვიდრე სხვებისთვის).
ექსპერიმენტი Schultz et al. (2007) გვიჩვენებს, თუ როგორ შეიძლება გამოყენებულ იქნას სოციალური თეორიები ეფექტური ინტერვენციების შესაქმნელად. ეფექტური ინტერვენციების შექმნის თეორიის როლის შესახებ უფრო ზოგადი არგუმენტისთვის იხილეთ Walton (2014) .
შიდა და გარე მოქმედების კონცეფციები პირველად გააცნო Campbell (1957) . იხ. Shadish, Cook, and Campbell (2001) უფრო დეტალური ისტორიისა და სტატისტიკური დასკვნის მოქმედების, შიდა მოქმედების, მშენებლობის მოქმედების და გარე მოქმედების ფრთხილად შემუშავების მიზნით.
ექსპერიმენტებში სტატისტიკური დასკვნის მოქმედების განხილვისას, Gerber and Green (2012) (სოციალური მეცნიერების პერსპექტივა) და Imbens and Rubin (2015) (სტატისტიკური თვალსაზრისით). სტატისტიკური დასკვნის მოქმედების გარკვეული საკითხები, რომლებიც სპეციალურად ონლაინ საველე ექსპერიმენტებში წარმოიქმნება, მოიცავს ისეთ საკითხებს, როგორებიცაა: ნდობის ინტერვალით დამოკიდებული მონაცემებით (Bakshy and Eckles 2013) გამოთვლითი მეთოდების ეფექტური მეთოდები.
შინაგან ძალადობა რთულია საცდელ ექსპერიმენტებში. იხილეთ, მაგალითად, Gerber and Green (2000) , Imai (2005) , და Gerber and Green (2005) კამათიზე კომპლექსური საველე ექსპერიმენტის განხორციელების შესახებ დებატებისთვის. Kohavi et al. (2012) და Kohavi et al. (2013) უზრუნველყოფს შესავალი გამოწვევები ინტერვალი მოქმედების ონლაინ სფეროში ექსპერიმენტი.
შიდა მოქმედების ერთ-ერთი მთავარი საფრთხე არის რანდომიზაციის შესაძლებლობა. რანდომიზაციის პრობლემების გამოვლენის ერთ-ერთი საშუალებაა შედარება მკურნალობისა და კონტროლის ჯგუფების დაკვირვების თვისებების შედარებაზე. ასეთი შედარება ეწოდება ბალანსის შემოწმებას . იხილეთ Hansen and Bowers (2008) სტატისტიკური მიდგომა ბალანსის კონტროლისა და Mutz and Pemantle (2015) შეშფოთება ბალანსის შემოწმების შესახებ. მაგალითად, საბალანსო შემოწმების გამოყენებით Allcott (2011) აღმოაჩინა გარკვეული მტკიცებულებები, რომ არომატიზაცია არ ჩატარებულა ეფექტურად სამივე ექსპერიმენტში (იხ. ცხრილი 2; 2, 6 და 8). სხვა მიდგომების Imbens and Rubin (2015) , იხილეთ Imbens and Rubin (2015) 21- Imbens and Rubin (2015) თავი Imbens and Rubin (2015) .
შიდა მოქმედების სხვა მნიშვნელოვან შეშფოთებას წარმოადგენს: (1) ცალმხრივი შეუსაბამობა, სადაც მკურნალობის ჯგუფში არ ყოფილა მკურნალობა, (2) ორმხრივი შეუსაბამობა, სადაც მკურნალობის ჯგუფში ყველა არ მიიღებს მკურნალობას და ზოგიერთ ადამიანს საკონტროლო ჯგუფში მიიღება მკურნალობა, (3) attrition, სადაც შედეგები არ არის შეფასებული ზოგიერთი მონაწილეებისათვის და (4) ჩარევა, სადაც მკურნალობა იცავს ადამიანებს მკურნალობის პირობებში მკურნალობის პირობებში. Gerber and Green (2012) თავები 5, 6, 7 და მე -8 თავები უფრო მეტად ამ საკითხებზე.
უფრო მეტი მშენებლობის სიზუსტისთვის ვხედავთ Westen and Rosenthal (2003) , და უფრო დიდ მონაცემთა ბაზებში, Lazer (2015) და ამ წიგნის მე -2 ნაწილში მშენებლობის მოქმედების შესახებ.
გარე მოქმედების ერთ-ერთი ასპექტი არის ჩარჩო, რომელშიც ჩარევა ტარდება. Allcott (2015) უზრუნველყოფს ფრთხილად თეორიულ და ემპირიულ მკურნალობას site selection bias. ეს საკითხი ასევე განხილულია Deaton (2010) . გარე მოქმედების კიდევ ერთი ასპექტია თუ არა იგივე ჩარევის ალტერნატიული დამუშავება ექნება მსგავსი ეფექტი. ამ შემთხვევაში, შედარება Schultz et al. (2007) და Allcott (2011) გვიჩვენებს, რომ "ექსპლუატაციურ ექსპერიმენტებს" შედარებით ნაკლებია დამუშავებული ეფექტი, ვიდრე შულცის და კოლეგების ორიგინალური ექსპერიმენტი (1.7% და 5%). Allcott (2011) ვარაუდობს, რომ შემდგომი ექსპერიმენტები უფრო მცირე ეფექტი იყო იმის გამო, რომ მკურნალობა განსხვავდებოდა: ხელნაწერის ემოტიკონი, როგორც უნივერსიტეტის მიერ დაფინანსებული კვლევის ნაწილი, Allcott (2011) , მასობრივი წარმოება ანგარიში ენერგეტიკული კომპანიისგან.
საველე ექსპერიმენტებში მკურნალობის შედეგების ჰეტეროგენურობის შესანიშნავი მიმოხილვისთვის იხილეთ Gerber and Green (2012) 12 თავი. სამედიცინო ტესტებში მკურნალობის შედეგების ჰეტეროგენურობის Kravitz, Duan, and Braslow (2004) იხილეთ Kent and Hayward (2007) , Longford (1999) და Kravitz, Duan, and Braslow (2004) . მკურნალობის ეფექტურობის ჰეტეროგენურობის მოსაზრებები ზოგადად ყურადღებას ამახვილებს წინასწარ მკურნალობის მახასიათებლების საფუძველზე. თუ თქვენ დაინტერესებული ხართ პოსტ-სამკურნალო შედეგებზე დაყრდნობით, საჭიროა უფრო რთული მიდგომები, როგორიცაა ძირითადი სტრატიფიკაცია (Frangakis and Rubin 2002) ; იხილეთ Page et al. (2015) მიმოხილვა.
ბევრი მკვლევარი აფასებს მკურნალობის ეფექტურობას ხაზოვანი რეგრესიის გამოყენებით, მაგრამ ახალი მეთოდები დამოკიდებულია მანქანათმცოდნეობაზე; მაგალითად, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) და Athey and Imbens (2016a) .
არსებობს შედარების ჰეტეროგენული შედეგების შესახებ სკეპტიციზმი იმის შესახებ, რომ მრავალრიცხოვანი შედარების პრობლემები და "თევზაობა." არსებობს სხვადასხვა სტატისტიკური მიდგომა, რომელიც დაეხმარება პრობლემურ პრობლემებს მრავალრიცხოვან შედარებაზე (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . "თევზჭერის შესახებ" შეშფოთების ერთ-ერთი მიდგომა წარმოადგენს წინასწარ რეგისტრაციას, რომელიც სულ უფრო მეტად გავრცელებულია ფსიქოლოგიაში (Nosek and Lakens 2014) , პოლიტიკური მეცნიერებები (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , და ეკონომიკა (Olken 2015) .
Costa and Kahn (2013) მიერ ჩატარებულ კვლევაში Costa and Kahn (2013) ექსპერიმენტში მხოლოდ შინამეურნეობების ნახევარი შეიძლება იყოს დაკავშირებული დემოგრაფიულ ინფორმაციასთან. ამ დეტალებზე დაინტერესებულ მკითხველებს უნდა მიმართონ თავდაპირველ ქაღალდზე.
მექანიზმები წარმოუდგენლად მნიშვნელოვანია, მაგრამ ისინი ძალიან რთულია შესწავლა. მექანიზმების კვლევა მჭიდროდ უკავშირდება ფსიქოლოგიაში შუამავლების შესწავლას (მაგრამ VanderWeele (2009) ასევე ორი იდეის შედარებით ზუსტი შედარებისთვის). სტატისტიკური მიდგომა მოძიებაში მექანიზმები, როგორიცაა მიდგომა განვითარებული Baron and Kenny (1986) , საკმაოდ საერთოა. სამწუხაროდ, აღმოჩნდება, რომ ეს პროცედურები დამოკიდებულია ზოგიერთ მძლავრი დაშვებით (Bullock, Green, and Ha 2010) და განიცდიან, როდესაც არსებობს მრავალი მექანიზმი, როგორც ბევრ სიტუაციაში შეიძლება (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) და Imai and Yamamoto (2013) გთავაზობთ გაუმჯობესებულ სტატისტიკურ მეთოდებს. გარდა ამისა, VanderWeele (2015) გთავაზობთ წიგნის სიგრძე მკურნალობას რამდენიმე მნიშვნელოვანი შედეგებით, მათ შორის ყოვლისმომცველი მიდგომა მგრძნობელობის ანალიზისთვის.
ცალკე მიდგომა ყურადღებას ამახვილებს ექსპერიმენტებზე, რომლებიც ცდილობენ პირდაპირ მექანიზმის მანიპულირებას (მაგალითად, მეზღვაურებს ვიტამინი C). სამწუხაროდ, ბევრ სოციალურ მეცნიერულ სისტემაში ხშირია რამოდენიმე მექანიზმი და ძნელია ისეთი დიზაინის შემუშავება, რომელიც შეცვლის სხვების შეცვლის გარეშე. ზოგიერთი მიდგომა ექსპერიმენტულად შეცვლის მექანიზმებს აღწერს Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , და Pirlott and MacKinnon (2016) .
მკვლევარებმა სრულად ფაქტობრივი ექსპერიმენტები უნდა შეისწავლონ მრავალი ჰიპოთეზის ტესტირებაზე; იხილეთ Fink, McConnell, and Vollmer (2014) და List, Shaikh, and Xu (2016) დამატებითი ინფორმაცია.
საბოლოოდ, მექანიზმებს დიდი ხნის ისტორია აქვთ მეცნიერების ფილოსოფიაში, როგორც ეს აღწერილია Hedström and Ylikoski (2010) .
კომპეტენციის კვლევებისა და აუდიტის კვლევების გამოყენების შესახებ მეტი დისკრიმინაციის დასადგენად იხ. Pager (2007) .
ყველაზე გავრცელებული გზაა მონაწილეთა მიღება ექსპერიმენტებზე, რომლებიც ააშენეთ არის Amazon Mechanical Turk (MTurk). იმის გამო, რომ MTurk ტრადიციულ ლაბორატორიული ექსპერიმენტების გადამხდელ ასპექტებს მიმართავდა, რომ ისინი არ გააკეთებდნენ იმას, რომ ისინი ბევრს არ აკეთებდნენ - ბევრმა მკვლევარმა უკვე დაიწყეს თურქების (მუშკის მუშები) ექსპერიმენტულ მონაწილეებად, რის შედეგადაც მიიღწევა უფრო სწრაფი და იაფი მონაცემთა შეგროვება, ვიდრე მიღწეული 2011 წლის (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
ზოგადად, MTurk- ის მიერ დაქირავებული მონაწილეების გამოყენების უდიდესი უპირატესობა ლოგისტიკურია. ვინაიდან ლაბორატორიული ექსპერიმენტები შეიძლება ატარებდეს კვირების განმავლობაში და ექსპერიმენტებს შეუძლიათ მიიღონ თვეში, ექსპერიმენტებით მიიღონ MTurk- ის მიერ დაკომპლექტებული ექსპერიმენტები. მაგალითად, Berinsky, Huber, and Lenz (2012) , Berinsky, Huber, and Lenz (2012) შეძლონ 400 სუბიექტის Berinsky, Huber, and Lenz (2012) 8 წუთიანი ექსპერიმენტში მონაწილეობა. გარდა ამისა, მონაწილეებს შეუძლიათ დაკომპლექტდნენ პრაქტიკულად ნებისმიერი მიზნისთვის (მათ შორის კვლევები და მასობრივი თანამშრომლობა, როგორც განხილულია მე -3 და მე -5 თავებში). რეკრუტირების ეს მარტივა ნიშნავს იმას, რომ მკვლევარებს შეუძლიათ წარმატებით განახორციელონ ექსპერიმენტების თანმიმდევრობა სწრაფ წარმატებაში.
საკუთარი ექსპერიმენტებისთვის MTurk- ის მონაწილეების მიღებამდე ოთხი მნიშვნელოვანი რამ არის საჭირო. პირველ რიგში, ბევრ მკვლევარებს აქვთ ექსპერიმენტების არასპეციფიკური სკეპტიციზმი თურქების მონაწილეობით. იმის გამო, რომ ეს სკეპტიციზმი არ არის კონკრეტული, ძნელია მტკიცებულებების დასაძლევად. თუმცა, რამდენიმე წლის განმავლობაში თურქების გამოყენებით სწავლის შემდეგ, შეგვიძლია დავასკვნათ, რომ ეს სკეპტიციზმი განსაკუთრებით არ არის გამართლებული. ბევრმა შეისწავლა თურქების დემოგრაფია შედარებით სხვა პოპულაციებით და ბევრმა კვლევამ აჩვენა, რომ ექსპერიმენტების შედეგები თურქების წინააღმდეგ სხვა პოპულაციებისაგან. ამ ყველაფრის გათვალისწინებით, მე ვფიქრობ, რომ საუკეთესო საშუალებაა, რომ დაფიქრდეს იმაში, რომ თურქები გონივრული მოხერხებულობის ნიმუშია, მოსწავლეების მსგავსად, მაგრამ ოდნავ უფრო მრავალფეროვანია (Berinsky, Huber, and Lenz 2012) . ამდენად, ისევე როგორც მოსწავლეები არიან გონივრული მოსახლეობა ზოგიერთისთვის, მაგრამ არა ყველა, კვლევა, თურქები არიან გონივრული მოსახლეობის გარკვეული ნაწილი, მაგრამ არა ყველა კვლევა. თუ თურქეთთან მუშაობას აპირებთ, მაშინ ეს აზრი ბევრს შეისწავლის ამ შედარებითი კვლევებისა და მათი ნიუანსების გასაგებად.
მეორე, მკვლევარებმა განავითარეს MTCT- ის ექსპერიმენტების შიდა მოქმედების გაზრდის საუკეთესო პრაქტიკა და თქვენ უნდა გაეცნოთ და დაიცვან ეს საუკეთესო პრაქტიკა (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . მაგალითად, მკვლევარები იყენებენ თურქებს, რომლებიც ცდილობენ გამოიყენონ ეკრანერები, რათა (Berinsky, Margolis, and Sances 2014, 2016) მონაწილეებს (Berinsky, Margolis, and Sances 2014, 2016) (მაგრამ ასევე იხილოთ ასევე DJ Hauser and Schwarz (2015b) და DJ Hauser and Schwarz (2015a) ). თუ არ ამოიღებთ უმიზეზოდ მონაწილეებს, მაშინ მკურნალობის ნებისმიერი ეფექტი შეიძლება დაიბანოთ იმ ხმაურით, რომ მათ გააცნობიერონ და პრაქტიკაში შეუსაბამო მონაწილეების რაოდენობა შეიძლება იყოს მნიშვნელოვანი. ჰუბერისა და კოლეგების ექსპერიმენტში (2012) , მონაწილეთა დაახლოებით 30% ვერ აკმაყოფილებდა ძირითად ყურადღებას screeners. სხვა პრობლემები, რომლებსაც თურქები იყენებენ, არ არიან გულუბრყვილო მონაწილეები (Chandler et al. 2015) (Zhou and Fishbach 2016) .
მესამე, ციფრული ექსპერიმენტების სხვა ფორმების შედარებით, MTurk ექსპერიმენტებს არ შეუძლიათ მასშტაბები; Stewart et al. (2015) შეაფასებს, რომ ნებისმიერ დროს დაახლოებით 7,000 ადამიანი MTurk.
საბოლოოდ, თქვენ უნდა იცოდეთ, რომ MTurk არის საკუთარი წესები და ნორმები (Mason and Suri 2012) . ანალოგიურად, რომ თქვენ შეეცდებით გაიგოთ ქვეყნის კულტურა, სადაც აპირებ ექსპერიმენტებს, თქვენ უნდა შეეცადოთ გაიგოთ უფრო მეტი თურქეთის კულტურისა და ნორმების შესახებ (სალეში (Salehi et al. 2015) . (Salehi et al. 2015) . და თქვენ უნდა იცოდეთ, რომ თურქები თქვენს ექსპერიმენტზე საუბრობენ, თუ რაიმე შეუსაბამო ან არაეთიკური (Gray et al. 2016) . (Gray et al. 2016) .
MTurk არის წარმოუდგენლად მოსახერხებელი გზა, რომ მიიღოთ მონაწილეები თქვენი ექსპერიმენტების, ლაბორატორიის მსგავსი, როგორიცაა Huber, Hill, and Lenz (2012) , ან მეტი სფეროში მსგავსი, როგორიცაა Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , და Mao et al. (2016) .
თუ ფიქრობთ, რომ საკუთარი პროდუქტის შექმნის მცდელობაზე ვფიქრობ, გირჩევთ წაიკითხოთ რჩევები, რომლებიც ფილმში "ჰერპერისა" Harper and Konstan (2015) . მათი გამოცდილების ძირითადი გააზრება ისაა, რომ თითოეული წარმატებული პროექტისთვის ბევრია, ბევრი მარცხი. მაგალითად, კინალლაინის ჯგუფმა დაიწყო სხვა პროდუქტები, როგორებიცაა GopherAnswers, რომლებიც სრული სისუსტეები იყო (Harper and Konstan 2015) . კიდევ ერთი მაგალითი იმისა, რომ მკვლევარმა ვერ შეძლო პროდუქტის შექმნის მცდელობა, ედვარდ კასტრონავას მცდელობა აშენდეს ონლაინ თამაში, რომელიც არდენს აშენებს. დაფინანსების 250,000 დოლარის მიუხედავად, პროექტი ფლოპი (Baker 2008) . პროექტები, როგორიცაა GopherAnswers და Arden, სამწუხაროდ ბევრად უფრო საერთო ვიდრე პროექტები, როგორიცაა MovieLens.
მე გავიგე, რომ პასტერის კვადრატის იდეა ხშირად განიხილებოდა ტექნოლოგიურ კომპანიებში და ხელს უწყობს კვლევითი ძალისხმევის ორგანიზებას Google- ში (Spector, Norvig, and Petrov 2012) .
ბონდისა და კოლეგების კვლევა (2012) ასევე ცდილობენ ამ მკურნალობის ეფექტი აღმოაჩინონ იმ ადამიანთა მეგობრების შესახებ, რომლებმაც მიიღეს ისინი. ექსპერიმენტის დიზაინის გამო, ეს spillovers ძნელია გამოვლენა სუფთა; დაინტერესებულმა მკითხველმა უნდა დაინახონ Bond et al. (2012) უფრო დეტალურად განხილვისთვის. 2012 წლის არჩევნებში ჯონსი და კოლეგები (2017) ძალიან მსგავს ექსპერიმენტს ჩაატარეს. ეს ექსპერიმენტები პოლიტიკური მეცნიერების ექსპერიმენტის ხანგრძლივი ტრადიციის ნაწილია კენჭისყრის (Green and Gerber 2015) მცდელობით (Green and Gerber 2015) . ეს მიიღოთ- out-the-vote ექსპერიმენტი საერთო, ნაწილობრივ იმიტომ, რომ ისინი პასტერის Quadrant. ანუ, ბევრი ადამიანია, რომლებიც მოტივირებული არიან კენჭისყრის გაზრდასთან და კენჭისყრაში შეიძლება იყოს საინტერესო ქცევა იმისათვის, რომ გამოვიკვლიოთ უფრო ზოგადი თეორიები ქცევის ცვლილებისა და სოციალური გავლენის შესახებ.
პარტნიორ ორგანიზაციებთან, როგორიცაა პოლიტიკური პარტიები, არასამთავრობო ორგანიზაციები და ბიზნესებთან დაკავშირებული Loewen, Rubenson, and Wantchekon (2010) იხილეთ Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) და Gueron (2002) . თუ ფიქრობთ, თუ როგორ შეიძლება ორგანიზაციებთან პარტნიორობა გავლენა იქონიოს კვლევის დიზაინებზე, იხილეთ King et al. (2007) და Green, Calfano, and Aronow (2014) . პარტნიორობას შეუძლია ასევე გამოიწვიოს ეთიკური საკითხები, როგორც განხილულ იქნა Humphreys (2015) და Nickerson and Hyde (2016) .
თუ ექსპერიმენტის გაშვამდე ანალიზის გეგმის შექმნას აპირებთ, ვარაუდობენ, რომ დაიწყებთ საანგარიშო გზავნილების კითხვას. მედიცინაში შემუშავდა კონსესტი (ტესტების კონსოლიდირებული სტანდარტული ანგარიშგება) (Schulz et al. 2010) და შეიცვალა სოციალური კვლევისთვის (Mayo-Wilson et al. 2013) . შემუშავებული სახელმძღვანელო პრინციპები შეიმუშავა ექსპერიმენტული პოლიტიკის მეცნიერების ჟურნალში (Gerber et al. 2014) (იხ. აგრეთვე Mutz and Pemantle (2015) და Gerber et al. (2015) ). საბოლოო ჯამში, საანგარიშო გზამკვლევები შემუშავდა ფსიქოლოგიაში (APA Working Group 2008) და იხილეთ აგრეთვე Simmons, Nelson, and Simonsohn (2011) .
ანალიზის გეგმის შექმნის შემთხვევაში, წინასწარ უნდა დარეგისტრირდეთ, რადგან წინასწარი რეგისტრაცია გაზრდის ნდობას, რომელიც თქვენს შედეგებს სხვებს აქვთ. გარდა ამისა, თუ პარტნიორთან მუშაობა ხარ, ის ზღუდავს თქვენი პარტნიორის შესაძლებლობას ანალიზის შეცვლის შემდეგ შედეგების ნახვის შემდეგ. წინასწარი რეგისტრაცია სულ უფრო მეტად გავრცელებულია ფსიქოლოგიაში (Nosek and Lakens 2014) , პოლიტიკური მეცნიერება (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) და ეკონომიკა (Olken 2015) .
კონსულტაციები სპეციალურად ონლაინ საველე ექსპერიმენტებისთვის ასევე წარმოდგენილია Konstan and Chen (2007) და Chen and Konstan (2015) .
ის, რასაც მე მოვუწოდებდი, შეიარაღებული სტრატეგია უწოდებენ პროგრამულ კვლევას ; Wilson, Aronson, and Carlsmith (2010) .
უფრო მეტია MusicLab- ის ექსპერიმენტებისთვის იხილეთ Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) და Salganik (2007) . გამარჯვებულზე მეტი ყველა ბაზრისთვის იხ. Frank and Cook (1996) . მეტწილად სიამოვნებით და უფრო მეტი უნარ-ჩვევებისთვის იხ. Mauboussin (2012) , Watts (2012) და Frank (2016) .
არსებობს კიდევ ერთი მიდგომა, რომ გააუქმოს მონაწილე გადახდები, რომ მკვლევარებმა სიფრთხილით გამოიყენონ: გაწვევა. ბევრ ონლაინ საველე ექსპერიმენტში მონაწილეები პრაქტიკულად შედგენილია ექსპერიმენტებში და არასდროს კომპენსირებული აქვთ. ამ მიდგომის მაგალითები მოიცავს რესტვოსა და ვან დე რიჯტის (2012) ექსპერიმენტს ჯილდოზე ვიკიპედიისა და ბონდისა და კოლეგის (2012) ექსპერიმენტში, რათა ხელი შეუწყონ ხალხის ხმას. ამ ექსპერიმენტებს ნამდვილად არ აქვთ ნულოვანი ცვლადი ღირებულება, მათ აქვთ ნულოვანი ცვლადი ღირებულება მკვლევარებისთვის . ასეთ ექსპერიმენტებში, მაშინაც კი, თუ თითოეული მონაწილის ღირებულება ძალიან მცირეა, საერთო ღირებულება შეიძლება საკმაოდ დიდი იყოს. მკვლევარებმა მასიური ონლაინ ექსპერიმენტები ხშირად ახდენენ მცირე ზომის მკურნალობის ეფექტიანობის მნიშვნელობას და ამტკიცებენ, რომ ეს პატარა ეფექტი შეიძლება გახდეს მნიშვნელოვანი, როდესაც მიმართა ბევრ ადამიანს. ზუსტად იგივე აზროვნება ეხება ხარჯებს, რომ მკვლევარებმა მონაწილეებს დააკისრონ. თუ თქვენი ექსპერიმენტი იწვევს ერთი მილიონი ადამიანი ერთი წუთით დაგროვებას, ექსპერიმენტი არ არის ძალიან საზიანო რომელიმე კონკრეტულ ადამიანზე, მაგრამ საერთო ჯამში თითქმის ორი წელი გავიდა.
კიდევ ერთი მიდგომა, რათა შეიქმნას ნულოვანი ცვლადი ხარჯების მონაწილეთათვის ლატარიის გამოყენება, მიდგომა, რომელიც გამოყენებული იქნა კვლევის კვლევაში (Halpern et al. 2011) . სასიამოვნო მომხმარებლის გამოცდილების შემუშავების მიზნით, იხილეთ Toomim et al. (2011) . ნულოვანი ცვლადის ექსპერიმენტების შესაქმნელად ბოტების გამოყენების შესახებ იხილეთ მეტი ( ??? ) .
სამი R როგორც თავდაპირველად მიერ შემოთავაზებული Russell and Burch (1959) შემდეგნაირად:
"გამოცვლა ნიშნავს ჩანაცვლების შეგნებული მცხოვრები უმაღლესი ცხოველები insentient მასალა. შემცირება ნიშნავს შემცირება ნომრები ცხოველები გამოიყენება მიიღოს ინფორმაცია მოცემული თანხა და ზუსტი. დახვეწა ნიშნავს ნებისმიერ შემცირება სიხშირე და სიმძიმის არაადამიანური პროცედურები იმ ცხოველების, რომელიც ჯერ კიდევ უნდა იქნეს გამოყენებული ".
3 R- ის, რომ მე არ ვამბობ, მე -6 თავით აღწერილი ეთიკური პრინციპები არ შემიძლია. უფრო მეტიც, ისინი კიდევ უფრო დახვეწილი ვერსიაა ერთ-ერთი პრინციპი - ბენეფიციარი, კერძოდ ადამიანის ექსპერიმენტებში.
ემოციური კონტაზიის ექსპერიმენტი (Kramer, Guillory, and Hancock 2014) და ემოციური კონტაქტების ბუნებრივი ექსპერიმენტი (Lorenzo Coviello et al. 2014) შედარებით პირველი რ ("ჩანაცვლების" (Lorenzo Coviello et al. 2014) გთავაზობთ ზოგად გაკვეთილებს ვაჭრობის შესახებ ექსპერიმენტებისაგან ექსპერიმენტებიდან ბუნებრივი ექსპერიმენტებისკენ (და სხვა მიდგომები, როგორიც შეესაბამება ექსპერიმენტებს საცდელ ექსპერიმენტულ მონაცემებში, იხ. თავი 2). გარდა იმისა, რომ ეთიკური შეღავათები, გარდა ექსპერიმენტული და არა ექსპერიმენტული კვლევებისა, გარდა ამისა, მკვლევარებს საშუალება ეძლევათ შეისწავლონ მკურნალობა, რომლითაც ისინი ლოჯისტიკურად ვერ განათავსებენ. ეს ეთიკური და ლოჯისტიკური სარგებელი მოდის, თუმცა. ბუნებრივი ექსპერიმენტების მქონე მკვლევარებს ნაკლებად აკონტროლებენ ისეთ საკითხებს, როგორიცაა მონაწილეების რეკონსტრუქცია, რანდომიზაცია და მკურნალობის ხასიათი. მაგალითად, ნალექის ერთ-ერთი შეზღუდვა, როგორც მკურნალობის შედეგია, ის იზრდება პოზიტიურობაზე და უარყოფს ნეგატიურობას. ექსპერიმენტულ კვლევაში, თუმცა კრამერმა და კოლეგებმა დამოუკიდებლად პოზიტიურობა და ნეგატიურობა შეძლეს. კერძოდ, Lorenzo Coviello et al. (2014) შემდგომ შემუშავდა L. Coviello, Fowler, and Franceschetti (2014) . დანერგვა ინსტრუმენტული ცვლადები, რომელიც მიდგომა გამოიყენება Lorenzo Coviello et al. (2014) , იხილეთ Angrist and Pischke (2009) (ნაკლებად ფორმალური) ან Angrist, Imbens, and Rubin (1996) (უფრო ფორმალური). ინსტრუმენტული ცვლადების სკეპტიკური შეფასებისთვის იხ. Deaton (2010) და ინსტრუმენტული ცვლადების შესამცირებლად სუსტი ინსტრუმენტებით (წვიმა არის სუსტი ინსტრუმენტი), იხილეთ Murray (2006) . უფრო ზოგადად, კარგი შესავალი ბუნებრივი ექსპერიმენტი მოცემულია Dunning (2012) , ხოლო Rosenbaum (2002) , ( ??? ) და Shadish, Cook, and Campbell (2001) გთავაზობთ კარგი იდეები შეფასებისას მიზეზობრივი ეფექტი გარეშე ექსპერიმენტი.
მეორე R ("დახვეწის") თვალსაზრისით არსებობს სამეცნიერო და ლოგისტიკური ვაჭრობა, როდესაც განიხილავენ ემოციურ კონტაგციის დიზაინის შეცვლას ბლოკირება პოსტების გაძლიერებისთვის. მაგალითად, ეს შეიძლება იყოს ის, რომ ახალი ამბების ტექნიკური დანერგვა მნიშვნელოვნად გაადვილებს იმ ექსპერიმენტს, რომელშიც შეტყობინება დაბლოკილია, ვიდრე ერთი, რომლებშიც ისინი გაიზარდა (შენიშვნა, რომ ექსპერიმენტი, რომელიც მოიცავს ბლოკების ბლოკირებას როგორც ფენას თავზე ახალი ამბები Feed სისტემის გარეშე საჭიროება ცვლილებების ძირითადი სისტემა). მეცნიერულად, თუმცა ექსპერიმენტის მიერ მიცემული თეორია არ აშკარად მეტყველებს ერთი დიზაინის შესახებ. სამწუხაროდ, მე არ ვიცი მნიშვნელოვანი შესავალი წინასწარი კვლევის შესახებ ნათესავი არსებითად ბლოკირება და გაზრდის შინაარსის News Feed. ასევე, მე არ მინახავს ბევრი კვლევა გადამუშავების მკურნალობის შესახებ, რათა მათ ნაკლებად საზიანო გახდეს; ერთი გამონაკლისია B. Jones and Feamster (2015) , რომელიც ითვალისწინებს ინტერნეტის ცენზურის გაზომვის შემთხვევაში (თემის მე -6 თავი განიხილავს ენკორის შესწავლის (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ) ურთიერთობას.
მესამე R ("შემცირება") მიხედვით, ტრადიციული ენერგიის ანალიზისთვის კარგი შესავალი მოცემულია Cohen (1988) (წიგნი) და Cohen (1992) (სტატია), ხოლო Gelman and Carlin (2014) გთავაზობთ ოდნავ განსხვავებულ პერსპექტივას. ექსპერიმენტების დიზაინისა და ანალიზის ეტაპზე შეიძლება წინასწარგანსაღწეო მოპყრობა შევიდეს; Gerber and Green (2012) მე -4 თავი კარგად იცნობს ორივე მიდგომას, ხოლო Casella (2008) უფრო სიღრმისეული მკურნალობის საშუალებას იძლევა. ტექნოლოგიები, რომლებიც იყენებენ წინამდებარე მკურნალობის შედეგებს რანდომიზაციისას, ჩვეულებრივ, დაბლოკილია ექსპერიმენტული დიზაინით ან სტრატიფიცირებული ექსპერიმენტული დიზაინით (ტერმინოლოგია არ გამოიყენება მუდმივად თემებში); ამ მეთოდებს მჭიდროდ Higgins, Sävje, and Sekhon (2016) მე -3 თავში განხილული სტრატიფიცირებული შერჩევის მეთოდებს. იხილეთ Higgins, Sävje, and Sekhon (2016) მეტი ამ მასალების გამოყენებით მასიური ექსპერიმენტებში. ანალიზის ეტაპზე ასევე შესაძლებელია წინასწარ მკურნალობაც. McKenzie (2012) იკვლევს განსხვავება-განსხვავებულ მიდგომას უფრო ფართო დეტალების ანალიზისთვის. იხილეთ Carneiro, Lee, and Wilhelm (2016) მეტი, რაც განსხვავებული მიდგომების მიხედვით ვაჭრობის ეფექტურობის გაზრდის სიზუსტის გაზრდის მიზნით. საბოლოო ჯამში, როდესაც გადაწყვეტთ თუ არა ცდილობენ წინასწარ მოპყრობა მოიცავდეს დიზაინსა და ანალიზურ ეტაპზე (ან ორივე), არსებობს რამდენიმე ფაქტორი. მკვლევარებს სურთ აჩვენონ, რომ ისინი არ არიან "თევზაობა" (Humphreys, Sierra, and Windt 2013) , წინასწარი მოპყრობის გამოყენებით დიზაინის ეტაპზე შეიძლება იყოს სასარგებლო (Higgins, Sävje, and Sekhon 2016) . იმ შემთხვევებში, როდესაც მონაწილეები თანმიმდევრულად მიდიან, განსაკუთრებით ონლაინ საველე ექსპერიმენტებს, წინასწარ მოპყრობის ინფორმაციის გამოყენებით დიზაინის ეტაპზე შეიძლება რთული იყოს ლოჯისტიკურად; მაგალითად, Xie and Aurisset (2016) .
ღირს დასძინა ცოტა ინტუიცია იმის შესახებ, თუ რატომ განსხვავებულად განსხვავებული მიდგომა შეიძლება იყოს უფრო ეფექტური, ვიდრე სხვაობა-ის საშუალებით. ბევრი ონლაინ შედეგი ძალიან მაღალია (მაგალითად, RA Lewis and Rao (2015) და Lamb et al. (2015) ) და შედარებით სტაბილური დროთა განმავლობაში. ამ შემთხვევაში, ცვლილების ქულა არსებითად მცირედი განსხვავებით, გაზრდის სტატისტიკური ტესტის ძალას. ერთი მიზეზი, რომ ეს მიდგომა არ არის გამოყენებული უფრო ხშირად არის ის, რომ ციფრული ასაკის ადრე, არ იყო საერთო წინასწარ მკურნალობის შედეგები. უფრო კონკრეტული გზაა ამის მოსაზრება, რომ წარმოიდგინოთ ექსპერიმენტი, შეაფასოს თუ არა კონკრეტული სავარჯიშო რუტინული წონის დაკარგვა. თუ განსხვავებულ მიდგომას მივიღებ, თქვენი შეფასებით, ცვალებადობა წარმოიქმნება მოსახლეობის წონაში. თუ განსხვავება განსხვავებულ მიდგომაზეა დამოკიდებული, ბუნებრივია, რომ იშვიათი ვარიაცია ამოღებულია და უფრო მარტივად შეგიძლიათ გამოინახოს მკურნალობის სხვაობა.
საბოლოოდ, მე მიმაჩნია მეოთხე რ დამატებას: "რეპუტაცია". ანუ, თუ მკვლევარები უფრო ექსპერიმენტულ მონაცემებს პოულობენ, ვიდრე მათი ორიგინალური კვლევის კითხვისთვის საჭიროა, მათ რეაგირება მოახდინონ ახალი კითხვების დასმა. მაგალითად, წარმოიდგინეთ, რომ კრამერმა და კოლეგებმა განსხვავებულად გამოიყენეს განსხვავებული დამდგენი და აღმოჩნდნენ უფრო მეტი მონაცემები, ვიდრე საჭიროა მათი კვლევის კითხვისთვის. იმის ნაცვლად, რომ არ გამოიყენოს მონაცემები სრულიად, მათ შეეძლოთ შესწავლილი ზომა ეფექტი, როგორც ფუნქცია წინასწარ მკურნალობის ემოციური გამოხატვის. ისევე როგორც Schultz et al. (2007) აღმოაჩინა, რომ მკურნალობის ეფექტი განსხვავდებოდა მსუბუქი და მძიმე მომხმარებლებისთვის, ალბათ, News Feed- ის ეფექტები განსხვავდებოდა იმ ადამიანებისთვის, რომლებიც უკვე ბედნიერი (ან სევდიანი) შეტყობინებების გამოსაქვეყნებლად იყენებდნენ. Repurposing შეიძლება გამოიწვიოს "თევზაობა" (Humphreys, Sierra, and Windt 2013) და "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , მაგრამ ეს დიდწილად addressable ერთად კომბინაცია პატიოსანი საანგარიშო (Simmons, Nelson, and Simonsohn 2011) , წინასწარი რეგისტრაციის (Humphreys, Sierra, and Windt 2013) , და მანქანა სწავლის მეთოდები, რომლებიც ცდილობენ თავიდან აიცილონ ზედმეტად იარაღი.