4.4.1 Geçerlilik

Bu çeviri bir bilgisayar tarafından oluşturuldu. ×

4.4.1 Geçerlilik

Geçerlilik Bir denemenin sonuçları daha genel bir sonucu destekler ne kadar anlamına gelir.

Hiçbir deney mükemmel değildir ve araştırmacılar olası sorunları tanımlamak için geniş bir kelime hazinesi geliştirmişlerdir. Geçerlik , belirli bir deneyin sonucunun daha genel bir sonuca ne kadar destek sağladığı ile ilgilidir. Sosyal bilimciler geçerliliği dört ana türe (Shadish, Cook, and Campbell 2001, chap. 2) yararlı bulmuşlardır: istatistiksel sonuç geçerliliği, iç geçerlilik, yapı geçerliliği ve dışsal geçerlilik (Shadish, Cook, and Campbell 2001, chap. 2) . Bu kavramlara hakim olmak, bir deneyin tasarımını ve analizini eleştirmek ve geliştirmek için bir zihinsel kontrol listesi sunacak ve diğer araştırmacılarla iletişim kurmanıza yardımcı olacaktır.

İstatistiksel sonuç geçerliliği , deneyin istatistiksel analizinin doğru yapılıp yapılmadığı üzerine odaklanır. Schultz et al. (2007) , böyle bir soru, onların $p$ değerlerini doğru olarak hesaplayıp hesaplamadıklarına odaklanabilir. Deney tasarlama ve analiz etme konusundaki istatistiksel ilkeler bu kitabın kapsamı dışındadır, ancak dijital çağda temel olarak değişmemişlerdir. Ancak, değişmiş olan şey, dijital deneylerdeki veri ortamının, tedavi etkilerinin heterojenliğini tahmin etmek için makine öğrenme yöntemlerini kullanmak gibi yeni fırsatlar yaratmasıdır (Imai and Ratkovic 2013) .

İçsel geçerlilik , deney prosedürlerinin doğru bir şekilde gerçekleştirilip gerçekleştirilmediğine odaklanır. Schultz et al. (2007) , iç geçerlilik ile ilgili sorular randomizasyon, tedavi sunumu ve sonuçların ölçülmesi etrafında odaklanabilir. Örneğin, araştırma görevlilerinin elektrik sayaçlarını güvenilir bir şekilde okumadığından endişelenebilirsiniz. Aslında, Schultz ve meslektaşları bu sorun hakkında endişeliydiler ve iki kez birer metrelik bir örnek aldılar; Neyse ki, sonuçlar aslında aynıydı. Genel olarak, Schultz ve meslektaşlarının deneyi yüksek içsel geçerliliğe sahip gibi görünmektedir, ancak bu her zaman geçerli değildir: karmaşık alan ve çevrimiçi deneyler genellikle doğru insanlara doğru tedaviyi sunmakta ve sonuçların herkes için ölçülmesiyle sonuçlanmaktadır. Neyse ki, dijital çağ iç geçerlilik konusundaki endişeleri azaltmaya yardımcı olabilir, çünkü tedavinin, bunları alması beklenenlere ulaştırılmasını ve tüm katılımcılar için sonuçları ölçmesini sağlamak artık daha kolay.

Yapı geçerliliği , verilerle teorik yapılar arasındaki eşleşmeyi merkezler. Bölüm 2'de tartışıldığı gibi, yapılar, sosyal bilimcilerin neden oldukları soyut kavramlardır. Ne yazık ki, bu soyut kavramların her zaman net tanımları ve ölçümleri yoktur. Schultz et al. (2007) , tedbirli sosyal normların elektrik kullanımını azaltabileceği iddiası, araştırmacıların “tedbirli sosyal normları” (örneğin, bir ifade) manipüle edecek ve “elektrik kullanımını” ölçecek bir tedavi tasarlamasını gerektirmektedir. Analog deneylerde, birçok araştırmacı kendi tedavilerini tasarladı ve kendi sonuçlarını ölçtü. Bu yaklaşım, mümkün olduğu kadar, deneylerin incelenen soyut yapılarla eşleşmesini sağlar. Araştırmacıların tedavileri yürütmek için şirketlerle veya hükümetlerle işbirliği yaptığı ve sonuçları ölçmek için her zaman açık veri sistemlerini kullandığı dijital deneylerde, deney ile kuramsal yapılar arasındaki eşleşme daha az sıkı olabilir. Bu nedenle, yapı geçerliliğinin dijital deneylerde analog deneylere göre daha büyük bir endişe kaynağı olacağını umuyorum.

Son olarak, dışsal geçerlilik , bu deneyin sonuçlarının diğer durumlara genelleştirilip yorumlanamayacağı üzerine odaklanır. Schultz et al. (2007) , bu aynı düşüncenin - insanlara akranlarıyla ilişki içinde enerji kullanımı hakkında bilgi sağlaması ve bir tedbirler (örneğin, bir ifade) sinyali vermesinin - başka bir şekilde yapılsaydı, enerji kullanımını azaltıp azaltmayacağını sorabilirdi. farklı bir ortamda. En iyi tasarlanmış ve iyi işlenmiş deneyler için, dış geçerlilik ile ilgili endişeler en zor adreslerdir. Geçmişte, dışsal geçerliliğe ilişkin bu tartışmalar, prosedürlerin farklı bir şekilde, farklı bir yerde veya farklı katılımcılar ile gerçekleştirilmesi durumunda neler olacağını hayal etmeye çalışan bir odada oturan bir grup insandan daha fazla bir şey içermiyordu. . Neyse ki, dijital çağ, araştırmacıların bu veri içermeyen spekülasyonların ötesine geçmelerini ve dışsal geçerliliği ampirik olarak değerlendirmelerini sağlıyor.

Çünkü Schultz et al. (2007) çok heyecanlıydı, Opower adında bir şirket, Amerika Birleşik Devletleri'nde tedaviyi daha yaygın bir şekilde uygulamak için yardımcı programlarla ortaklık kurdu. Schultz et al. (2007) , Opower, iki ana modüle sahip olan özelleştirilmiş Ev Enerji Raporları oluşturmuştur: biri, bir ifade ile komşularına göre elektrik kullanımının gösterilmesi ve enerji kullanımının azaltılmasına yönelik öneriler sunan bir kişi (şekil 4.6). Ardından, araştırmacılarla işbirliği içinde, Opower, bu Ev Enerji Raporlarının etkilerini değerlendirmek için randomize kontrollü deneyler yürütmüştür. Her ne kadar bu deneylerdeki tedaviler, genellikle eski moda salyangoz posta yoluyla fiziksel olarak teslim edilmiş olsa da, sonuç fiziksel dünyada (örneğin, güç ölçüm cihazları) dijital cihazlar kullanılarak ölçülmüştür. Dahası, bu bilgiyi her bir evi ziyaret eden araştırma görevlileri ile elle toplamak yerine, Opower deneylerinin tümü, araştırmacıların güç okumalarına erişmelerini sağlayan güç şirketleri ile ortaklaşa yapıldı. Bu nedenle, bu kısmen dijital alan deneyleri, düşük değişken maliyette büyük bir ölçekte gerçekleştirilmiştir.

Şekil 4.6: Ev Enerji Raporlarında bir Sosyal Karşılaştırma Modülü ve bir Eylem Adımları Modülü vardı. Allcott'un (2011) izni ile yeniden üretildi, şekil 1 ve 2.

Şekil 4.6: Ev Enerji Raporlarında bir Sosyal Karşılaştırma Modülü ve bir Eylem Adımları Modülü vardı. Allcott (2011) izni ile yeniden Allcott (2011) , şekil 1 ve 2.

Allcott (2011) , 10 farklı siteden 600.000 hane içeren ilk deney Allcott (2011) , Ev Enerjisi Raporunun elektrik tüketimini düşürdüğünü bulmuştur. Diğer bir deyişle, daha geniş, daha coğrafi olarak farklı bir çalışmanın sonuçları, Schultz et al. (2007) . Dahası, 101 farklı Allcott (2015) sekiz milyon ilave hane içeren sonraki araştırmalarda, Allcott (2015) , Ev Enerji Raporu'nun sürekli olarak elektrik tüketimini düşürdüğünü buldu. Bu çok daha büyük deney grubu, herhangi bir tek deneyde görülmeyecek ilginç bir yeni örüntüyü ortaya çıkardı: etkinin boyutu daha sonraki deneylerde azaldı (şekil 4.7). Allcott (2015) , bu düşüşün, zamanla farklı tedavi türlerine uygulandığından kaynaklandığını belirtti. Daha spesifik olarak, daha çevre odaklı müşterilere sahip programlar daha önce programı daha önce benimsemişlerdi ve müşterileri tedaviye daha duyarlıydı. Daha az çevre odaklı müşterilere sahip olan programlar, programı benimserken, etkinliğinin azaldığı görülmüştür. Bu nedenle, deneylerde rastgeleleştirme gibi, tedavi ve kontrol grubunun benzer ve randomizasyonun, araştırma alanlarında olmasını sağladığı gibi, tahminlerin bir grup katılımcıdan daha genel bir popülasyona genelleştirilebilmesini sağlar (örnekleme ile ilgili olarak bölüm 3'e kadar düşünün). Araştırma alanları rastgele örneklenmezse, o zaman genelleme - mükemmel tasarlanmış ve yönetilen bir deneyde bile - sorun yaratabilir.

Şekil 4.7: Ev Enerjisi Raporunun elektrik tüketimi üzerindeki etkisini test eden 111 deneyin sonuçları. Programın daha sonra kabul edildiği yerlerde, daha küçük etkilere sahip olma eğilimindeydi. Allcott (2015) , bu modelin önemli bir kaynağının, daha çevre odaklı müşterileri olan sitelerin programı daha erken benimseme olasılıklarının daha yüksek olduğunu öne sürmektedir. Allcott (2015) uyarlanmıştır Allcott (2015) , şekil 3.

Birlikte, bu 111 deneme - Allcott (2011) 10 ve Allcott (2015) 101, Amerika Birleşik Devletleri'nin her yerinden yaklaşık 8.5 milyon hane halkı oluşturdu. Sürekli olarak, Ev Enerji Raporlarının ortalama elektrik tüketimini azalttığını, sonuçta Schultz ve Kaliforniya'daki 300 evdeki iş arkadaşlarının orijinal bulgularını desteklediğini gösteriyor. Bu orijinal sonuçları kopyalamanın ötesinde, takip deneyleri de etkinin büyüklüğünün lokasyona göre değiştiğini göstermektedir. Bu deney grubu, kısmen dijital alan deneyleri ile ilgili iki genel noktayı da göstermektedir. İlk olarak, araştırmacılar, çalışma deneylerinin maliyeti düşük olduğunda, dış geçerlilik hakkındaki endişeleri ampirik olarak ele alabileceklerdir ve eğer sonuç her zaman açık bir veri sistemi tarafından ölçülüyorsa bu durum ortaya çıkabilir. Bu nedenle, araştırmacıların halihazırda kaydedilmiş olan diğer ilginç ve önemli davranışlara dikkat etmeleri ve daha sonra bu mevcut ölçüm altyapısının üstünde deney tasarlamaları gerektiğini öne sürmektedir. İkincisi, bu deney grubu bize dijital alan deneylerinin sadece çevrimiçi olmadığını hatırlatır; giderek artan bir şekilde, yerleşik ortamda sensörler tarafından ölçülen birçok sonuçla her yerde olacağımı umuyorum.

Dört geçerlilik türü - istatistiksel sonuç geçerliliği, iç geçerlilik, yapı geçerliliği ve dışsal geçerlilik - araştırmacıların belirli bir denemeden elde edilen sonuçların daha genel bir sonucu destekleyip desteklemediğini değerlendirmelerine yardımcı olmak için zihinsel bir kontrol listesi sunmaktadır. Analog yaş deneyleri ile karşılaştırıldığında, dijital çağ deneylerinde, ampirik olarak dışsal geçerliliği ele almak daha kolay olmalı ve içsel geçerliliği sağlamak da daha kolay olmalıdır. Diğer taraftan, yapı geçerliliği sorunları dijital çağ deneylerinde, özellikle de şirketlerle ortaklık içeren dijital alan deneylerinde daha zor olacaktır.