Geçerlilik Bir denemenin sonuçları daha genel bir sonucu destekler ne kadar anlamına gelir.
Hiçbir deney mükemmel ve araştırmacılar olası sorunları tanımlamak için geniş bir kelime geliştirdik. Geçerlilik belirli bir deneyin sonuçları biraz daha genel sonucunu desteklemektedir ne ölçüde ifade eder. Sosyal bilimciler yararlı dört ana gruba geçerliliğini bölmek bulduk: istatistiksel sonuca geçerliliği, iç geçerlilik yapı geçerliği ve dış geçerlik (Shadish, Cook, and Campbell 2001, Ch 2) . Bu kavramları Mastering size eleştirme ve bir deney tasarımı ve analizi geliştirmek için zihinsel bir kontrol listesi sağlayacak ve diğer araştırmacılar ile iletişim yardımcı olacaktır.
İstatistiksel sonuç, geçerlilik deney istatistiksel analizi doğru yapılıp yapılmaması etrafında merkezleri. Bağlamında Schultz et al. (2007) gibi bir soru, doğru p-değerleri hesaplanmış olup olmadığı üzerinde merkezi olabilir. İstatistiksel analiz bu kitabın kapsamı dışındadır, ama deney tasarlama ve analiz etmek için gereken istatistiksel ilkeler dijital çağda değişmediğini söyleyebiliriz. Ancak, dijital deneylerde farklı veri ortamı yeni istatistik fırsatlar yaratmak değil (örneğin, tedavi etkilerinin heterojenliği tahmin makine öğrenme yöntemleri kullanarak (Imai and Ratkovic 2013) ) ve yeni hesaplama zorlukları (örneğin, masif deneylerde engelleme (Higgins, Sävje, and Sekhon 2016) ).
İç geçerlilik deneysel yöntemler doğru gerçekleştirilip gerçekleştirilmediğini etrafında merkezleri. Bir deney dönersek Schultz et al. (2007) , iç geçerliliği ile ilgili sorular, randomizasyon etrafında sonuçların tedavi teslimat ve ölçüm merkezi olabilir. Örneğin, araştırma görevlisi güvenilir elektrik metre okumadım endişe olabilir. Aslında, Schultz ve arkadaşları bu sorun hakkında endişeli ve onlar iki kez okunan metre bir örnek vardı; Neyse ki, sonuç açısından eşittir. Genel olarak, Schultz ve arkadaşları 'çalışma, yüksek iç geçerliliğe sahip görünüyor, ancak bu her zaman böyle değildir; Karmaşık alan ve çevrimiçi deneyler genellikle sorunların aslında doğru kişilere doğru tedaviyi teslim ve herkes için sonuçları ölçme çalıştırın. o kolay onu almak için ve tüm katılımcılar için sonuçlarını ölçmek gerekiyordu olanlara tasarlandığı gibi tedavi teslim olmasını sağlamak için yapar, çünkü Neyse ki, dijital çağ iç geçerliliği ile ilgili endişeleri azaltmaya yardımcı olabilir.
Veri ve kuramsal yapıları arasındaki maçın etrafında geçerlilik merkezleri inşa. Bölüm 2'de tartışıldığı gibi, yapıları bu konuda sosyal bilimciler nedeni soyut kavramlardır. Ne yazık ki, bu soyut kavramlar her zaman açık tanımları ve ölçümler yoktur. Dönersek Schultz et al. (2007) , elektrik kullanımını düşürebilir sosyal normları ihtiyati iddia (örneğin, bir ifade) "ihtiyati tedbir sosyal normları" manipüle ediyorum ve "elektrik kullanımını" ölçmek için bir tedavi tasarım araştırmacıları gerektirir. Analog deneylerde, birçok araştırmacı kendi tedavileri tasarlanmış ve kendi sonuçlarını ölçülür. Bu yaklaşım mümkün olduğu kadar, deneyler soyut yapılar çalışılan maç olmasını sağlar. şirketler veya hükümetler ile araştırmacılar ortak tedavileri sunmak ve her zaman kullandığınız veri sistemleri sonuçlarını ölçmek için dijital deneylerde, deney ve teorik yapı arasındaki maç az sıkı olabilir. Böylece, yapı geçerliği, analog deneyler daha dijital deneylerde daha büyük bir endişe olma eğiliminde olacağını bekliyoruz.
Son olarak, dış geçerlik Bu deneyin sonuçları diğer durumlara genelleme edip etrafında merkezleri. Dönersek Schultz et al. (2007) , bir, sorabilirsiniz olacak enerji yaşıtlarına ilişki içinde kullanımı ve ihtiyati normlara (örneğin, bir ifade) bu farklı bir şekilde yapıldı ise -azaltın enerji kullanımının bir sinyal hakkında bu aynı fikir veren insanlar bilgi farklı bir ayar? En iyi tasarlanmış ve deneyler iyi işletilen için dış geçerliliği ile ilgili kaygılar ele zor bulunmaktadır. Geçmişte, dış geçerliliği hakkında bu tartışmalar sıkça prosedürleri farklı bir şekilde yapılması, ya da farklı bir yerde, ya da farklı insanlarla olsaydı ne olurdu hayal etmeye çalışıyorum bir odada oturan insanların sadece bir avuç idi. Neyse ki, dijital çağ bu veriler içermeyen spekülasyonlara ötesine taşımak ve ampirik dış geçerliliğini değerlendirmek için araştırmacılar sağlar.
Elde edilen sonuçlar nedeniyle Schultz et al. (2007) Opower adında bir şirket daha yaygın tedavi dağıtmak için Amerika Birleşik Devletleri'nde programları ile ortaklık, çok heyecan verici idi. Tasarımına göre Schultz et al. (2007) , Opower iki ana modülden bir ifade ile komşularına bir hanenin elektrik kullanımı göreceli gösteren ve biri enerji kullanımını düşürmek için ipuçları veren vardı Ev Enerji Raporları (Şekil 4.6) özelleştirilmiş oluşturdu. Ardından, araştırmacılar ile işbirliği içinde, Opower Ev Enerji Raporları etkisini değerlendirmek için kontrollü deneyler randomize koştu. Bu deneylerde tedaviler genellikle eski moda salyangoz yoluyla fiziksel olarak genellikle teslim edildi rağmen posta-sonuç fiziksel dünyada dijital cihazları (örneğin, güç metre) kullanılarak ölçüldü. Aksine el ile her evi ziyaret araştırma görevlileri bu bilgileri toplama yerine, Opower deneyleri tüm güç okumaları erişmek için araştırmacıların sağlayan enerji şirketleri ile işbirliği içinde yapıldı. Bu nedenle, bu kısmen dijital alan deneyleri düşük değişken maliyetle büyük ölçekte gerçekleştirilmiştir.
Amerika Birleşik Devletleri'nde yaklaşık 10 kamu hizmeti şirketleri tarafından sunulan 600.000 hane içeren deneyler ilk sette, Allcott (2011) Ev Enerji Raporu% 1,7 oranında elektrik tüketimini düşürdü bulundu. Diğer bir deyişle, çok daha büyük, daha çok farklı coğrafi çalışmadan elde edilen sonuçlar ile ilgili sonuçlar niteliksel benzer Schultz et al. (2007) . Ama, etki büyüklüğü küçüktü: in Schultz et al. (2007) tanımlayıcı ve injektif normlar koşulu (ifadeli bir) hane% 5 oranında kendi elektrik kullanımını azalttı. Bu farklılığın kesin nedeni bilinmemektedir, ancak Allcott (2011) bir üniversite tarafından desteklenen bir çalışmanın parçası olarak el yazısıyla bir ifadeyi alan bir gelen bir kitle üretilen raporun bir parçası olarak yazdırılan ifadeyi almaktan daha davranışları üzerinde büyük bir etkiye sahip olabileceğini iddia elektrik şirketi.
Dahası, daha sonraki araştırmalarda, Allcott (2015) ek 8 milyon hane içeren bir ek 101 deneyler bildirdi. Bu sonraki 101 deneylerde Ev Enerji Raporu insanların elektrik tüketimini azaltmak için neden devam etti, ama etkileri daha küçük idi. Bu düşüşün kesin nedeni bilinen değil, ama Allcott (2015) raporunun etkinliği aslında katılımcıların farklı türde uygulanan çünkü zamanla azalan ortaya çıktı iddia. Daha spesifik olarak, daha çevreci alanlarda yarar daha fazlaydı önceki programı benimsemek ve müşterilerinin tedaviye daha duyarlı. daha az çevresel müşterileri ile kamu programını kabul edilen, etkinliği azalmaya çıktı. Böylece, deneylerde randomizasyon tedavi ve kontrol grubu benzer olmasını sağlar gibi, araştırma sitelerinde randomizasyon tahminleri (geri örnekleme ile ilgili Bölüm 3 düşünmek) daha genel bir nüfusa katılımcı bir grup genelleştirilmiş edilebilmesini sağlar. Araştırma siteleri rastgele örnekleme değilseniz, o zaman genelleyebilecek bile bir mükemmel tasarlanmış ve deney-can sorunlu gerçekleştirdi.
Birlikte, bu 111 deneyler-10 Allcott (2011) ve 101 Allcott (2015) Amerika'nın her yerinden yaklaşık 8,5 milyon hane -involved. Onlar sürekli Ev Enerji Raporları ortalama elektrik tüketimi, California 300 evlerinden orijinal Schultz bulguları ve meslektaşları destekleyen bir sonuç azalttığını göstermektedir. Sadece bu özgün sonuçlara kopyalayan ötesinde, takip deneyler de etkinin boyutu konuma göre değişir olduğunu göstermektedir. Bu deney seti de kısmen dijital alan denemeleri hakkında iki genel puan göstermektedir. İlk olarak, araştırmacılar deneyler çalışan maliyeti düşük olduğunda dış geçerliliği hakkında adres endişeleri deneysel olarak mümkün olacak ve sonuç zaten veriler her zaman açık sistem tarafından ölçülen ise bu durum oluşabilir. Bu nedenle, araştırma önceden kaydedilmiş olan diğer ilginç ve önemli davranışlar için bakmak dışarı olabilir ve daha sonra bu mevcut ölçüm altyapısının üstünde deney tasarımı gerektiğini göstermektedir. İkinci olarak, deneylerin bu seti dijital alan deneyleri sadece online olmadığını bize hatırlatır; giderek onlar yapılı çevrede sensörler tarafından ölçülen birçok sonuçları ile her yerde olacağını bekliyoruz.
geçerlilik-istatistiksel sonuca geçerlilik, iç geçerlilik dört tip, yapı geçerliği, dış geçerlik-sağlayan araştırmacılar belirli bir deney sonuçları daha genel bir sonucunu desteklemektedir olup olmadığını değerlendirmek yardımcı olmak için bir zihinsel kontrol listesi. Analog yaş deneyleri ile karşılaştırıldığında, dijital çağ deneylerde ampirik dış geçerliğini ele kolay olmalı ve iç geçerliliğini sağlamak için kolay olmalıdır. (Bu Opower deneylerle durum olmamasına rağmen) Öte yandan, yapı geçerliliği sorunları muhtemelen dijital yaş deneylerinde daha zorlu olacak.