Sosyal araştırmalardaki nedensellik hakkındaki sorular genellikle karmaşık ve karmaşıktır. Nedensel grafiklere dayanan nedenselliğe dair temel bir yaklaşım için, bkz. Pearl (2009) ve potansiyel sonuçlara dayalı temel bir yaklaşım için bkz. Imbens and Rubin (2015) . Bu iki yaklaşım arasında bir karşılaştırma için bkz. Morgan and Winship (2014) . Bir karıştırıcı tanımlamak için resmi bir yaklaşım için bkz. VanderWeele and Shpitser (2013) .
Bu bölümde deneysel ve deney dışı verilerden nedensel tahmin yapabilme kabiliyetimiz arasında parlak bir çizgi gibi görünen bir şey yarattım. Ancak, bence, gerçekte, ayrım daha bulanık. Örneğin, herkes, sigara içmenin kansere yol açtığını kabul etse de, insanları sigara içmeye zorlayan kontrollü bir deney olmamasına rağmen. Deney dışı verilerden nedensel tahminler yapma konusunda mükemmel kitap uzunluklu tedaviler için bkz. Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) ve Dunning (2012) .
Freedman, Pisani, and Purves (2007) 1. ve 2. bölümleri Freedman, Pisani, and Purves (2007) deneyler, kontrollü deneyler ve randomize kontrollü deneyler arasındaki farklılıklara açık bir giriş sunar.
Manzi (2012) , randomize kontrollü deneylerin felsefi ve istatistiksel temellerine etkileyici ve okunabilir bir giriş sunar. Ayrıca, iş dünyasındaki deneyimin gücüne dair ilginç gerçek dünya örnekleri sunar. Issenberg (2012) , politik kampanyalarda deneylerin kullanımına dair etkileyici bir giriş niteliğindedir.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 ve Athey and Imbens (2016b) , deneysel tasarım ve analizin istatistiksel yönlerine iyi tanıtımlar sağlamaktadır. Ayrıca, birçok farklı alanda deneylerin kullanımının mükemmel tedavileri vardır: ekonomi (Bardsley et al. 2009) , sosyoloji (Willer and Walker 2007; Jackson and Cox 2013) , psikoloji (Aronson et al. 1989) , siyaset bilimi (Morton and Williams 2010) ve sosyal politika (Glennerster and Takavarasha 2013) .
Deneysel araştırmalarda katılımcı işe alımın (örneğin örnekleme) önemi çoğu kez takdir edilmemektedir. Bununla birlikte, tedavinin etkisi popülasyonda heterojen ise, örnekleme önemlidir. Longford (1999) , araştırmacıların, haç zarı örneklemesi ile yapılan bir popülasyon anketi olarak deney yapmayı düşündüklerini savunurken bu noktayı açık bir şekilde ortaya koymaktadır.
Laboratuvar ve saha denemeleri arasında bir süreklilik olduğunu ileri (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) ve diğer araştırmacılar, özellikle çeşitli alan deneylerini birbirinden ayıran daha ayrıntılı tipolojileri önerdiler (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Bir dizi makale özette laboratuar ve alan deneylerini karşılaştırmıştır (Falk and Heckman 2009; Cialdini 2009) ve siyaset bilimi (Coppock and Green 2015) , ekonomi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) (Coppock and Green 2015) özel deneylerinin sonuçları açısından karşılaştırılmıştır. (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) ve psikoloji (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) , laboratuvar ve saha deneylerinden elde edilen sonuçları karşılaştırmak için güzel bir araştırma tasarımı sunmaktadır. Parigi, Santana, and Cook (2017) , çevrimiçi alan deneylerinin laboratuar ve alan deneylerinin bazı özelliklerini nasıl birleştirebileceğini açıklamaktadır.
Katılımcıların davranışlarını değiştirmeleriyle ilgili endişeleri, yakından gözlemlendiklerini bildiğinden, bazen talep etkisi olarak adlandırılmaktadır ve bunlar psikoloji (Orne 1962) ve ekonomi (Zizzo 2010) . Çoğunlukla laboratuvar deneyleri ile ilişkili olmasına rağmen, aynı sorunlar alan deneyleri için de sorunlara neden olabilir. Aslında, talep etkileri de bazen Hawthorne efektleri olarak adlandırılmaktadır. Bu terim, 1924'te Western Electric Company'nin Hawthorne Works'te (Adair 1984; Levitt and List 2011) başlayan ünlü aydınlatma deneylerini türeten bir terimdir. Hem talep etkileri hem de Hawthorne etkileri bölüm 2'de tartışılan reaktif ölçüm fikri ile yakından ilişkilidir (ayrıca bkz Webb et al. (1966) ).
Alan deneyleri ekonomide uzun bir geçmişe sahiptir (Levitt and List 2009) , siyaset bilimi (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikoloji (Shadish 2002) ve kamu politikası (Shadish and Cook 2009) . Saha deneylerinin hızla ortaya çıktığı bir sosyal bilim alanı uluslararası gelişmedir. Bu çalışmanın ekonomi içerisindeki olumlu bir değerlendirmesi için bkz. Banerjee and Duflo (2009) ve kritik bir değerlendirme için bkz. Deaton (2010) . Siyaset biliminde bu çalışmanın gözden geçirilmesi için bkz. Humphreys and Weinstein (2009) . Son olarak, alan deneylerinden kaynaklanan etik zorluklar siyaset bilimi (Humphreys 2015; Desposato 2016b) ve kalkınma ekonomisi (Baele 2013) bağlamında incelenmiştir.
Bu bölümde, tedavi öncesi bilgilerin tahmini tedavi etkilerinin kesinliğini arttırmak için kullanılabileceğini önerdim, ancak bu yaklaşım hakkında bazı tartışmalar var; Freedman (2008) , W. Lin (2013) , Berk et al. (2013) ve Bloniarz et al. (2016) Daha fazla bilgi için Bloniarz et al. (2016) .
Son olarak, sosyal bilimciler tarafından laboratuvar alanı boyutu boyunca düzgün bir şekilde uyuşmayan iki farklı deney türü vardır: anket deneyleri ve sosyal deneyler. Anket deneyleri , mevcut anketlerin altyapısını kullanan deneylerdir ve aynı soruların alternatif versiyonlarına verilen yanıtları karşılaştırır (bazı araştırma deneyleri Bölüm 3'te sunulmuştur); Araştırma deneyleri hakkında daha fazla bilgi için bkz. Mutz (2011) . Sosyal deneyler , tedavinin yalnızca bir hükümet tarafından uygulanabilecek bir sosyal politika olduğu deneylerdir. Sosyal deneyler program değerlendirme ile yakından ilişkilidir. Politika deneyleri hakkında daha fazla bilgi için bkz. Heckman and Smith (1995) , Orr (1998) ve @ glennerster_running_2013.
Üç kavram üzerinde odaklanmayı seçtim: geçerlilik, tedavi etkilerinin heterojenliği ve mekanizmalar. Bu kavramlar farklı alanlarda farklı isimlere sahiptir. Örneğin, psikologlar arabuluculara ve moderatörlere odaklanarak basit deneylerin ötesine geçme eğilimindedirler (Baron and Kenny 1986) . Arabulucu düşüncesi, mekanizma dediğim şey tarafından ele geçirilir ve moderatörler fikri dışsal geçerlilik dediğim (örneğin, farklı durumlarda çalıştırılırsa deneyin sonuçları farklı olur) ve tedavi etkilerinin heterojenliği ile yakalanır. Örneğin, bazı insanlar için diğerlerinden daha büyük etkilerdir).
Schultz et al. (2007) , etkili müdahaleler tasarlamak için sosyal teorilerin nasıl kullanılabileceğini göstermektedir. Etkili müdahalelerin tasarlanmasında teorinin rolü hakkında daha genel bir argüman için, bkz. Walton (2014) .
İç ve dış geçerlilik kavramları ilk kez Campbell (1957) tarafından tanıtıldı. Daha ayrıntılı bir tarih ve istatistiksel sonuç geçerliliğinin, içsel geçerliliğin, yapı geçerliğinin ve dışsal geçerliliğinin dikkatli bir şekilde incelenmesi için Shadish, Cook, and Campbell (2001) .
İstatistiksel sonuç geçerliliği ile ilgili konulara genel bir bakış için Gerber and Green (2012) (bir sosyal bilimler perspektifinden) ve Imbens and Rubin (2015) (istatistiksel bir perspektiften) bakınız. Özellikle çevrimiçi alan deneylerinde ortaya çıkan istatistiksel sonuç geçerliliğinin bazı konuları, bağımlı verilerle güven aralıkları oluşturmak için hesaplamalı olarak verimli yöntemler gibi konuları içermektedir (Bakshy and Eckles 2013) .
Karmaşık alan deneylerinde iç geçerlilik sağlamak zor olabilir. Örneğin, Gerber and Green (2000) , Imai (2005) ve Gerber and Green (2005) in oylamayla ilgili karmaşık bir alan deneyinin uygulanması hakkındaki tartışmalara bakınız. Kohavi et al. (2012) ve Kohavi et al. (2013) çevrimiçi alan deneylerinde aralık geçerliliğinin zorluklarına bir giriş niteliğindedir.
İçsel geçerliliğe yönelik önemli bir tehdit, başarısız randomizasyon olasılığıdır. Randomizasyon ile ilgili problemleri tespit etmenin bir potansiyel yolu, tedavi ve kontrol gruplarını gözlemlenebilir özelliklerle karşılaştırmaktır. Bu tür bir karşılaştırmaya denge kontrolü denir. Denge kontrolleri ile ilgili kaygılar için denge kontrolleri ve Mutz and Pemantle (2015) istatistiksel bir yaklaşım için Hansen and Bowers (2008) bakınız. Örneğin, bir denge kontrolü kullanarak, Allcott (2011) , Opower deneylerinin üçünde randomizasyonun doğru şekilde uygulanmadığına dair bazı kanıtlar bulmuştur (bkz. Tablo 2; alanlar 2, 6 ve 8). Diğer yaklaşımlar için bkz. Imbens and Rubin (2015) 21 Imbens and Rubin (2015) .
İçsel geçerliliğe ilişkin diğer önemli kaygılar şunlardır: (1) tedavi grubundaki herkesin tedaviyi almadığı tek taraflı uyumsuzluk, (2) tedavi grubundaki herkes tedaviyi almayan iki taraflı uyumsuzluğu ve bazı kişileri Kontrol grubu tedaviyi alır, (3) bazı katılımcılar için sonuçların ölçülmediği yıpratma ve (4) tedavi, tedavi durumundaki kişilerden kontrol koşulundaki insanlara döküldüğü müdahaledir. Bu sorunların her biri hakkında daha fazla bilgi için Gerber and Green (2012) 5, 6, 7 ve 8. bölümlerine bakınız.
Yapı geçerliliği hakkında daha fazla bilgi için, bkz. Westen and Rosenthal (2003) ve büyük veri kaynaklarında yapı geçerliliği, Lazer (2015) ve bu kitabın 2. bölümü.
Dış geçerliliğin bir yönü, bir müdahalenin test edildiği ayardır. Allcott (2015) , saha seçim yanlılığının dikkatli bir teorik ve ampirik tedavisini sağlar. Bu konu Deaton (2010) tarafından da tartışılmaktadır. Dış geçerliliğin bir başka yönü de aynı müdahalenin alternatif operasyonelleştirilmesinin benzer etkilere sahip olup olmayacağıdır. Bu durumda Schultz et al. (2007) ve Allcott (2011) , Opower deneylerinin Schultz ve meslektaşlarının orijinal deneylerinden (% 5'e karşılık% 5) daha küçük bir tahmini tedavi etkisi olduğunu göstermektedir. Allcott (2011) , takip deneylerinin, tedavinin nasıl farklılaştığından dolayı daha küçük bir etkiye sahip olduğunu öne sürdü: Bir üniversitenin sponsorluğundaki bir çalışmanın bir parçası olarak el yazısıyla yazılmış bir ifade, kitlesel üretilen bir parçanın parçası olarak basılı bir ifade ile karşılaştırıldı. Bir enerji şirketinden rapor.
Saha deneylerinde tedavi etkilerinin heterojenliğine genel bir bakış için, bkz. Gerber and Green (2012) 12 Gerber and Green (2012) . Tıbbi denemelerde tedavi etkilerinin heterojenliğine giriş için bkz. Kent and Hayward (2007) , Longford (1999) ve Kravitz, Duan, and Braslow (2004) . Tedavi etkilerinin heterojenliği ile ilgili hususlar genellikle tedavi öncesi özelliklerine göre farklılıklara odaklanır. Tedavi sonrası sonuçlara dayanan heterojenlik ile ilgileniyorsanız, ana tabakalaşma gibi daha karmaşık yaklaşımlara ihtiyaç vardır (Frangakis and Rubin 2002) ; bkz. Page et al. (2015) bir inceleme için.
Pek çok araştırmacı doğrusal regresyon kullanarak tedavi etkilerinin heterojenliğini tahmin etmektedir, ancak yeni yöntemler makine öğrenimine dayanmaktadır; bkz. örneğin, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) ve Athey and Imbens (2016a) .
Çoklu karşılaştırma problemleri ve “balıkçılık” nedeniyle, etkilerin heterojenliği bulguları konusunda bazı şüpheler vardır. Çoklu karşılaştırma ile ilgili kaygıları (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) çeşitli istatistiksel yaklaşımlar vardır (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . “Balıkçılık” ile ilgili kaygılara bir yaklaşım, psikoloji (Nosek and Lakens 2014) , siyaset bilimi (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ve ekonomi (Olken 2015) .
Costa and Kahn (2013) tarafından yapılan çalışmada deneydeki hanehalklarının sadece yarısı demografik bilgilerle ilişkilendirilebilir. Bu detaylarla ilgilenen okuyucular orijinal makaleye başvurmalıdır.
Mekanizmalar inanılmaz derecede önemlidir, ancak çalışmanın çok zor olduğu ortaya çıkmaktadır. Mekanizmalarla ilgili araştırmalar, psikolojide arabulucuların çalışmasıyla yakından ilişkilidir (fakat aynı zamanda iki fikir arasındaki kesin bir karşılaştırma için VanderWeele (2009) bakınız). Baron and Kenny (1986) geliştirilen yaklaşım gibi mekanizma bulmada istatistiksel yaklaşımlar oldukça yaygındır. Ne yazık ki, bu prosedürlerin bazı güçlü varsayımlara (Bullock, Green, and Ha 2010) ve birçok durumda beklendiği gibi birden fazla mekanizma olduğu zaman acı çekeceği ortaya çıkmaktadır (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ve Imai and Yamamoto (2013) bazı gelişmiş istatistiksel yöntemler sunmaktadır. Ayrıca, VanderWeele (2015) , duyarlılık analizine kapsamlı bir yaklaşım da dahil olmak üzere bir dizi önemli sonuç ile kitap boyu tedavi sunmaktadır.
Ayrı bir yaklaşım, mekanizmayı doğrudan manipüle etmeye çalışan deneylere odaklanır (örn., Denizcilere C vitamini vermek). Ne yazık ki, pek çok sosyal bilim ortamında, çoğu zaman birden fazla mekanizma vardır ve başkalarını değiştirmeden birini değiştiren tedaviler tasarlamak zordur. Deneysel olarak değişen mekanizmalara yönelik bazı yaklaşımlar Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) ve Pirlott and MacKinnon (2016) Ludwig, Kling, and Mullainathan (2011) ve Pirlott and MacKinnon (2016) .
Tam faktöriyel deneyler yürüten araştırmacıların çoklu hipotez testleri hakkında endişelenmesi gerekir; Daha fazla bilgi için Fink, McConnell, and Vollmer (2014) ve List, Shaikh, and Xu (2016) .
Son olarak, mekanizmalar da Hedström and Ylikoski (2010) tarafından açıklandığı gibi bilim felsefesinde uzun bir tarihe sahiptir.
Ayrımcılığı ölçmek için yazışma çalışmalarının ve denetim çalışmalarının kullanımı hakkında daha fazla bilgi için bkz. Pager (2007) .
Yaptığınız deneylere katılımcıları dahil etmenin en yaygın yolu Amazon Mechanical Turk (MTurk). MTurk, geleneksel laboratuvar deneylerinin bazı yönlerini taklit ettiğinden, insanları ücretsiz olarak yapamayacakları görevleri yerine getirmeleri için ödüllendiriyorlar. Birçok araştırmacı, Türk katılımcıları (MTurk'daki çalışanlar) deneysel katılımcılar olarak kullanmaya başladı ve bu da elde edilenden daha hızlı ve daha ucuz bir veri toplamasıyla sonuçlandı. geleneksel kampüs içi laboratuvar deneylerinde (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Genel olarak, MTurk'dan işe alınan katılımcıları kullanmanın en büyük avantajları lojistiktir. Laboratuar deneylerinin haftalarca sürmesi ve saha deneylerinin kurulabilmesi aylar sürebilirken, MTurk'ta işe alınan katılımcılarla yapılan deneyler günler içinde yürütülebilir. Örneğin, Berinsky, Huber, and Lenz (2012) , 8 dakikalık bir deneye katılmak için tek bir günde 400 dersi toplayabilmişlerdir. Ayrıca, bu katılımcılar hemen hemen her türlü amaç için işe alınabilir (3. ve 5. bölümlerde ele alındığı gibi anketler ve kitle işbirliği dahil). Bu işe alım kolaylığı, araştırmacıların ilgili deneylerin dizilerini hızla ardı ardına yürütebilmesi anlamına gelir.
Kendi deneyleriniz için MTurk katılımcılarını işe almadan önce, bilmeniz gereken dört önemli şey vardır. Birincisi, birçok araştırmacı, Türkleri içeren nonspesifik şüphecilik deneyimlerine sahiptir. Bu kuşkuculuk belirli olmadığı için, kanıtlarla karşı karşıya kalmak zordur. Ancak, Türkmenleri kullanan birkaç yıllık çalışmalardan sonra, şimdi bu şüpheciliğin özellikle haklı olmadığı sonucuna varabiliriz. Türklerin demografik özelliklerini diğer popülasyonlarınkilerle karşılaştıran birçok çalışma ve deney sonuçlarını Türklerin diğer nüfustan olanlarla karşılaştıran birçok çalışma bulunmaktadır. Bütün bu çalışmalara baktığımızda, düşünmenizin en iyi yolunun, Türklerin, öğrenciler gibi, ama biraz daha farklı olan (Berinsky, Huber, and Lenz 2012) makul bir kolaylık örneği olması olduğunu düşünüyorum. Bu nedenle, öğrenciler, bazıları olmasa da, araştırma için makul bir nüfus olduğu gibi, Türkler, bazı araştırmalar için değil, bazıları için makul bir nüfusdur. Türklerle çalışacaksanız, bu karşılaştırmalı çalışmaların çoğunu okumak ve nüanslarını anlamak mantıklıdır.
İkincisi, araştırmacılar MTurk deneylerinin içsel geçerliliğini artırmak için en iyi uygulamaları geliştirdiler ve bu en iyi uygulamaları öğrenmeli ve izlemeliler (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Örneğin, Türkmenleri kullanan araştırmacılar izleyicileri dikkatsiz katılımcıları kaldırmak için kullanmaya teşvik edilmektedir (Berinsky, Margolis, and Sances 2014, 2016) (ayrıca bkz. DJ Hauser and Schwarz (2015b) ve DJ Hauser and Schwarz (2015a) ). Dikkatsiz katılımcıları çıkarmazsanız, tedavinin herhangi bir etkisi, uyguladıkları gürültüden arındırılabilir ve pratikte katılımsız katılımcıların sayısı önemli olabilir. Huber ve meslektaşları (2012) tarafından yapılan deneyde, katılımcıların yaklaşık% 30'u temel dikkat göstericilerini alamadı. Türkmenler kullanıldığında ortaya çıkan diğer sorunlar ise naif olmayan katılımcılar (Chandler et al. 2015) ve yıpranmadır (Zhou and Fishbach 2016) .
Üçüncü olarak, diğer bazı dijital deney şekillerine göre, MTurk deneyleri ölçeklendirilemez; Stewart et al. (2015) , herhangi bir zamanda MTurk'ta sadece 7,000 kişi olduğunu tahmin ediyor.
Son olarak, MTurk'un kendi kuralları ve normlarına sahip bir topluluk olduğunu bilmelisiniz (Mason and Suri 2012) . Aynı şekilde, deneylerinizi yürüteceğiniz bir ülkenin kültürünü keşfetmeye çalışacağınız gibi, Türklerin kültür ve normları hakkında daha fazla bilgi edinmeye çalışmalısınız (Salehi et al. 2015) . Ayrıca, Türkmenlerin, uygunsuz ya da etik olmayan bir şey yaparsanız, denemeniz hakkında konuşacağını bilmelisiniz (Gray et al. 2016) .
MTurk, katılımcıları Huber, Hill, and Lenz (2012) ya da Mason and Watts (2009) gibi daha fazla alan gibi, laboratuar gibi olup olmadığı için deneylerinizi katılımcılara çekmek için son derece elverişli bir yoldur. Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) ve Mao et al. (2016) .
Kendi ürününü yaratmayı düşünüyorsanız, Harper and Konstan (2015) Konstan'daki Harper and Konstan (2015) MovieLens grubunun önerilerini okumanızı tavsiye ederim. Deneyimlerinden elde edilen önemli bir kavrayış, her başarılı proje için pek çok başarısızlığın var olmasıdır. Örneğin, MovieLens grubu, tam hatalar olan GopherAnswers gibi diğer ürünleri piyasaya sürdü (Harper and Konstan 2015) . Bir ürünü inşa etmeye çalışırken başarısız olan bir araştırmacının bir başka örneği de Edward Castronova'nın Arden adlı bir çevrimiçi oyun oluşturma girişimi. 250.000 $ 'lık fonlamaya rağmen, proje bir flopdu (Baker 2008) . GopherAnswers ve Arden gibi projeler maalesef MovieLens gibi projelere göre çok daha yaygın.
Pasteur's Quadrant'ın teknoloji şirketlerinde sıkça tartıştığı fikrini duydum ve Google'daki araştırma çalışmalarını düzenlemeye yardımcı oluyor (Spector, Norvig, and Petrov 2012) .
Bond ve meslektaşlarının (2012) çalışması da bu tedavilerin, onları alanların arkadaşlarına etkisini tespit etmeye çalışmaktadır. Deneyin tasarımından dolayı, bu yayılmaların temiz bir şekilde tespit edilmesi zordur; ilgilenen okuyucular Bond et al. (2012) Daha ayrıntılı bir tartışma için Bond et al. (2012) . Jones ve arkadaşları (2017) de 2012 seçiminde çok benzer bir deney gerçekleştirdiler. Bu deneyler, siyasal bilimlerde oylamayı teşvik etme çabaları üzerine uzun bir deney geleneğinin bir parçasıdır (Green and Gerber 2015) . Bu çıkış-dışı deneyler, kısmen Pasteur'un Quadrant'ında oldukları için yaygındır. Yani, oylamayı arttırmak için motive olan birçok kişi vardır ve oylama davranış değişikliği ve sosyal etki hakkında daha genel teorileri test etmek için ilginç bir davranış olabilir.
Siyasi partiler, STK'lar ve işletmeler gibi ortak kuruluşlarla saha denemeleri hakkında bilgi almak için bkz. Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) ve Gueron (2002) . Kuruluşlarla ortaklıkların araştırma tasarımlarını nasıl etkileyebileceğine dair düşünceler için bkz. King et al. (2007) ve Green, Calfano, and Aronow (2014) . Ortaklık, Humphreys (2015) ve Nickerson and Hyde (2016) tarafından tartışıldığı gibi etik sorulara da yol açabilir.
Denemenizi çalıştırmadan önce bir analiz planı oluşturuyorsanız, raporlama yönergeleri okuyarak başlamanızı öneririz. CONSORT (Denemelerin Konsolide Standart Raporlaması) kılavuzları tıpta geliştirilmiştir (Schulz et al. 2010) ve sosyal araştırmalar için modifiye edilmiştir (Mayo-Wilson et al. 2013) . Deneysel Siyaset Bilimi Dergisi'nin editörleri tarafından ilgili bir dizi kılavuz geliştirilmiştir (Gerber et al. 2014) (ayrıca Mutz and Pemantle (2015) ve Gerber et al. (2015) ). Son olarak, psikoloji alanında (APA Working Group 2008) raporlama rehberleri geliştirilmiştir ve ayrıca bkz. Simmons, Nelson, and Simonsohn (2011) .
Bir analiz planı oluşturursanız, ön kayıt yaptırmayı düşünmelisiniz çünkü ön kayıt sonuçlarınızda başkalarının sahip olduğu güveni artırır. Ayrıca, bir ortakla çalışıyorsanız, ortağınızın sonuçları gördükten sonra analizi değiştirebilme yeteneğini sınırlar. Psikoloji (Nosek and Lakens 2014) , siyaset bilimi (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ve ekonomi (Olken 2015) .
Özellikle online saha deneyleri için tasarım önerileri Konstan and Chen (2007) ve Chen and Konstan (2015) .
Armada stratejisini aradığım şey bazen programatik araştırma olarak adlandırılıyor; bkz Wilson, Aronson, and Carlsmith (2010) .
MusicLab deneyleri hakkında daha fazla bilgi için, bkz. Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) ve Salganik (2007) . Her şeyden önce kazanan pazarlar için bkz. Frank and Cook (1996) . Mauboussin (2012) ve beceriye daha genel bir Mauboussin (2012) , bkz. Mauboussin (2012) , Watts (2012) ve Frank (2016) .
Araştırmacıların dikkatle kullanması gereken katılımcı ödemelerini ortadan kaldırmak için başka bir yaklaşım vardır: zorunlu. Birçok online saha deneyinde katılımcılar temel olarak deneyler haline getirilir ve asla telafi edilmez. Bu yaklaşımın örnekleri arasında, Wikipedia ve Bond ve meslektaşlarının (2012) insanları oy kullanmaya teşvik etme konusundaki deneyimlerine ilişkin Restivo ve van de Rijt (2012) deneyi bulunmaktadır. Bu deneyler gerçekten sıfır değişken maliyete sahip değildir - daha çok araştırmacılara sıfır değişken maliyete sahiptir . Bu tür deneylerde, her bir katılımcı için maliyet son derece küçük olsa bile, toplam maliyet oldukça büyük olabilir. Devasa çevrimiçi deneyler yürüten araştırmacılar, çoğu zaman bu küçük etkilerin birçok insana uygulandığında önemli olabileceğini söyleyerek küçük tahmini tedavi etkilerinin önemini haklı çıkarırlar. Aynı düşünce, araştırmacıların katılımcılara uyguladığı maliyetler için de geçerlidir. Eğer denemeniz bir milyon insanın bir dakika boşa gitmesine neden oluyorsa, deney herhangi bir kişiye çok zarar vermez, ancak toplamda neredeyse iki yıl israf etmiştir.
Katılımcılara sıfır değişken maliyet ödemesinin yaratılmasına yönelik bir diğer yaklaşım, anket araştırmasında da kullanılan bir yaklaşım olan bir piyango kullanmaktır (Halpern et al. 2011) . Keyifli kullanıcı deneyimleri tasarlama hakkında daha fazla bilgi için bkz. Toomim et al. (2011) . Sıfır değişken maliyetli deneyler oluşturmak için botları kullanma hakkında daha fazla bilgi için bkz. ( ??? ) .
Orijinal olarak Russell and Burch (1959) tarafından önerilen üç R aşağıdaki gibidir:
"Yedek cansız malzemenin bilinçli yaşayan yüksek hayvanlar için ikame anlamına gelir. İndirgeme, belirli bir miktarda ve hassas bilgi elde etmek için kullanılan hayvan sayısı azalma demektir. Arıtma sıklığı ya da halen kullanılan sahip olan hayvanlara uygulanan insanlık prosedürler şiddetinde bir azalma anlamına gelmektedir. "
Önerdiğim üç R, bölüm 6'da tarif edilen etik ilkeleri geçersiz kılmaz. Daha ziyade, bu prensiplerden biri olan daha ayrıntılı bir versiyondur - yararı, özellikle de insan deneyleri.
İlk R (“replasman”) açısından, duygusal bulaşma deneyini (Kramer, Guillory, and Hancock 2014) ve duygusal bulaşıcılık deneyi (Lorenzo Coviello et al. 2014) , söz konusu ticarete ilişkin bazı genel dersler sunmaktadır (Lorenzo Coviello et al. 2014) deneylerden doğal deneylere geçerken (ve deney dışı verilerdeki deneyleri tahmin etmeye çalışan diğer yaklaşımlar; bkz. bölüm 2). Etik faydalara ek olarak, deneysel olmayan deneysel çalışmalara geçiş, araştırmacıların, lojistik olarak dağıtma yapamadıkları tedavileri incelemelerini de sağlar. Bununla birlikte, bu etik ve lojistik faydalar bir bedeli vardır. Doğal deneylerle araştırmacılar, katılımcıların işe alınması, randomizasyon ve tedavinin doğası gibi konularda daha az kontrol sahibi olurlar. Örneğin, bir tedavi olarak yağmurun bir kısıtlaması, hem pozitifliği arttırması hem de olumsuzluğu azaltmasıdır. Bununla birlikte, deneysel çalışmada, Kramer ve meslektaşları, pozitifliği ve negatifliği bağımsız olarak ayarlayabilmiştir. Lorenzo Coviello et al. (2014) L. Coviello, Fowler, and Franceschetti (2014) tarafından daha fazla ayrıntılandırılmıştır. Lorenzo Coviello et al. (2014) Tarafından kullanılan yaklaşım olan araçsal değişkenlere giriş için Lorenzo Coviello et al. (2014) , bkz. Angrist and Pischke (2009) (daha az resmi) veya Angrist, Imbens, and Rubin (1996) (daha resmi). Enstrümental değişkenlerin şüpheci bir değerlendirmesi için bkz. Deaton (2010) ve zayıf enstrümanlarla (yağmur zayıf bir enstrüman) araçsal değişkenlere giriş için bkz. Murray (2006) . Daha genel olarak, Dunning (2012) tarafından doğal deneylere iyi bir giriş yapılırken, Rosenbaum (2002) , ( ??? ) ve Shadish, Cook, and Campbell (2001) , deneyler olmadan nedensel etkilerin tahmin edilmesi hakkında iyi fikirler sunmaktadır.
İkinci R (“arıtma”) açısından, Emosyonel Saldırının tasarımının, direklerin direkleri tıkayarak yayılmasını önlemek için tasarımını değiştirmeyi düşünürken, bilimsel ve lojistik ayrıcalıklar söz konusudur. Örneğin, Haber Kaynağı’nın teknik uygulamasının, desteklendikleri noktadan ziyade yayınların engellendiği bir denemenin yapılmasını önemli ölçüde kolaylaştırabilir (yayınların engellenmesini içeren bir denemenin uygulanabileceğini unutmayın). Altta yatan sistemde herhangi bir değişiklik yapılmasına gerek olmaksızın News Feed sisteminin üstünde bir katman olarak). Ancak, bilimsel olarak, deney tarafından ele alınan teori, bir diğeri üzerinde açıkça bir tasarım önermemiştir. Ne yazık ki, Haber Kaynağı'ndaki içeriğin engellenmesi ve artırılmasıyla ilgili nispeten önemli olan önceki araştırmalardan haberdar değilim. Ayrıca, daha az zararlı hale getirmek için arıtma uygulamaları hakkında pek fazla araştırma görmedim; Bir istisna, Internet sansürü ölçümünü ele alan B. Jones and Feamster (2015) Encore çalışmasına ilişkin olarak 6. bölümde tartıştığım bir konu (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Üçüncü R (“indirgeme”) açısından geleneksel güç analizine iyi girişler Cohen (1988) (kitap) ve Cohen (1992) (makale) tarafından verilirken, Gelman and Carlin (2014) biraz farklı bir bakış açısı sunar. Ön-muamele ortak değişkenleri deneylerin tasarım ve analiz aşamasına dahil edilebilir; Gerber and Green (2012) 4. bölümü, her iki yaklaşıma iyi bir giriş sağlar ve Casella (2008) daha derinlemesine bir tedavi sağlar. Bu ön-tedavi bilgisini rasgelelemede kullanan teknikler genellikle bloke deneysel tasarımlar ya da katmanlı deneysel tasarımlar olarak adlandırılmaktadır (terminoloji, topluluklar arasında tutarlı bir şekilde kullanılmamaktadır); Bu teknikler, bölüm 3'te tartışılan tabakalandırılmış örnekleme teknikleriyle yakından ilgilidir. Bu tasarımları büyük deneylerde kullanmak için Higgins, Sävje, and Sekhon (2016) . Ön-muamele ortak değişkenleri de analiz aşamasına dahil edilebilir. McKenzie (2012) , alan deneylerini analiz etmek için farklılık-farklılık yaklaşımını daha ayrıntılı olarak araştırmaktadır. Tedavi etkilerinin tahminlerindeki kesinliği arttırmak için farklı yaklaşımlar arasındaki dengeler hakkında daha fazla bilgi için bkz. Carneiro, Lee, and Wilhelm (2016) . Son olarak, tasarım veya analiz aşamasında (veya her ikisinde) ön-muamele eş değişkenlerini dahil etmeye çalışıp çalışmayacağınıza karar verirken, dikkate alınması gereken birkaç faktör vardır. Araştırmacıların “balıkçılık” (Humphreys, Sierra, and Windt 2013) olmadıklarını göstermek istedikleri bir ortamda, tasarım aşamasında ön-tedavi ortak değişkenlerini kullanmak yararlı olabilir (Higgins, Sävje, and Sekhon 2016) . Katılımcıların ardışık olarak geldiği durumlarda, özellikle çevrimiçi saha deneyleri, tasarım aşamasında ön-muamele bilgilerinin kullanılması lojistik açıdan zor olabilir; örneğin, Xie and Aurisset (2016) .
Farklılık farkındaki bir yaklaşımın neden farklılık anlamında bir araçtan çok daha etkili olabileceğine dair biraz sezgiye değer. Birçok çevrimiçi sonucun çok yüksek varyansı vardır (bkz. Örneğin, RA Lewis and Rao (2015) ve Lamb et al. (2015) ) ve zaman içinde nispeten kararlıdır. Bu durumda, değişim puanı istatistiksel testin gücünü artırarak büyük ölçüde küçük bir varyansa sahip olacaktır. Bu yaklaşımın daha sık kullanılmamasının bir nedeni, dijital çağdan önce ön tedavi sonuçlarının olması yaygın değildir. Bunu düşünmenin daha somut bir yolu, belirli bir egzersiz rutininin kilo kaybına neden olup olmadığını ölçmek için bir deney hayal etmektir. Fark yaratan bir yaklaşım benimseyecek olursanız, tahmininiz popülasyondaki ağırlıklardaki değişkenlikten kaynaklanan değişkenliğe sahip olacaktır. Ancak, farklılıklarda farklılık gösteren bir yaklaşım yaparsanız, ağırlıkta doğal olarak oluşan varyasyonlar kaldırılır ve tedavinin neden olduğu bir farkı daha kolay tespit edebilirsiniz.
Son olarak, dördüncü bir R: “repurpose” eklemeyi düşündüm. Yani, araştırmacılar orijinal araştırma sorusunu ele almak zorunda olduklarından daha fazla deneysel veri buluyorlarsa, yeni sorular sormak için verileri yeniden kullanmalıdırlar. Örneğin, Kramer ve meslektaşlarının farklılıklar farkı tahmincisi kullandıklarını ve araştırma sorusuyla ilgilenmek için ihtiyaç duyduklarından daha fazla veri bulduklarını hayal edin. Verileri en geniş ölçüde kullanmamak yerine, ön-tedavi duygusal ifadesinin bir fonksiyonu olarak etkinin boyutunu incelemiş olabilirler. Tıpkı Schultz et al. (2007) , hafif ve ağır kullanıcılara yönelik tedavinin etkisinin farklı olduğunu bulmuşlardır, belki de News Feed'in etkileri zaten mutlu (veya üzgün) mesajlar göndermeye eğilimli kişiler için farklıydı. Yeniden yapılanma “balıkçılığa” (Humphreys, Sierra, and Windt 2013) ve “p-hacking” (Simmons, Nelson, and Simonsohn 2011) , ancak bunlar dürüst raporlama (Simmons, Nelson, and Simonsohn 2011) birleşimi ile büyük ölçüde (Simmons, Nelson, and Simonsohn 2011) , ön kayıt (Humphreys, Sierra, and Windt 2013) kaçınmaya çalışan makine öğrenme yöntemleri.