[ , ] Berinsky ve meslektaşları (2012) , üç klasik deneyi çoğaltarak MTurk'u değerlendirdiler. Tversky and Kahneman (1981) tarafından klasik Asya Hastalığı çerçeveleme deneyini Tversky and Kahneman (1981) . Sonuçlarınız Tversky ve Kahneman'ınkilerle eşleşiyor mu? Sonuçlarınız Berinsky ve meslektaşları ile uyuşuyor mu? Ne olursa olsun - bu, bize MTurk'u anket denemeleri için kullanmamızı öğretir mi?
[ , Schultz et al. (2007) yazarlarından biri olan sosyal psikolog Robert Cialdini, “Kesmek zorundayız” başlıklı biraz yanık kağıtta Schultz et al. (2007) , çoğunlukla, laboratuar deneylerini yürüten bir disiplinde (psikoloji) saha deneyleri yaparken karşılaştığı zorluklar nedeniyle, profesör olarak görevinden erken emekli olduğunu yazmıştır (Cialdini 2009) . Cialdini'nin makalesini okuyun ve ona dijital deneylerin olasılıkları ışığında ayrıldığını tekrar gözden geçirmesini isteyen bir e-posta yazın. Endişelerini ele alan belirli araştırma örneklerini kullanın.
[ Başlangıçtaki küçük başarıların kilitlenip kilitlenmediğini belirlemek için, van de Rijt ve meslektaşları (2014) rastgele seçilen katılımcılara başarı sağlayan dört farklı sisteme müdahale ettiler ve daha sonra bu keyfi başarının uzun vadeli etkilerini ölçtüler. Benzer deneyler yapabileceğiniz diğer sistemleri düşünebilir misiniz? Bu sistemleri bilimsel değer, algoritmik karıştırıcılık (bölüm 2'ye bakınız) ve etik konular açısından değerlendiriniz.
[ , ] Bir deneyin sonuçları katılımcılara bağlı olabilir. Bir deneme oluşturun ve ardından iki farklı işe alım stratejisi kullanarak MTurk'da çalıştırın. Deney ve işe alım stratejilerini seçmeye çalışın, böylece sonuçlar mümkün olduğunca farklı olacaktır. Örneğin, işe alım stratejileriniz sabah ve akşam katılımcıları işe almak veya yüksek ve düşük ücretle katılımcıları telafi etmek olabilir. İşe alım stratejisindeki bu tür farklılıklar, farklı katılımcı havuzlarına ve farklı deneysel sonuçlara yol açabilir. Sonuçlarınız ne kadar farklı çıktı? Bu, MTurk'ta deneyler yapmak hakkında ne gösteriyor?
[ , , ] Duygusal Bulaşma deneyini planladığınızı düşünün (Kramer, Guillory, and Hancock 2014) . Her koşulda katılımcı sayısını belirlemek için Kramer (2012) tarafından daha erken gözlemsel bir çalışmanın sonuçlarını kullanın. Bu iki çalışma mükemmel uyuşmuyor, bu nedenle yaptığınız tüm varsayımları açıkça listelediğinizden emin olun:
[ , , ] Bir önceki soruyu tekrar yanıtlayın, fakat bu kez Kramer (2012) daha önceki gözlemsel çalışmasını kullanmak yerine, Lorenzo Coviello et al. (2014) .
[ ] Hem Margetts et al. (2011) ve van de Rijt ve ark. (2014) bir dilekçeyi imzalayan kişilerin işlemlerini inceleyen deneyler yaptı. Bu çalışmaların tasarımlarını ve bulgularını karşılaştırır ve karşılaştırır.
[ Dwyer, Maki, and Rothman (2015) , sosyal normlar ve çevresel-çevresel davranışlar arasındaki ilişki üzerine iki alan denemesi gerçekleştirdiler. İşte onların makalelerinin özeti:
“Çevresel davranışları teşvik etmek için psikoloji bilimi nasıl kullanılabilir? İki çalışmada, kamu banyolarında enerji tasarrufu davranışını teşvik etmeyi amaçlayan müdahaleler, tanımlayıcı normların ve kişisel sorumluluğun etkilerini inceledi. Çalışma 1'de, ışık durumu (yani, açık veya kapalı), bir kişi boş bir banyoya girmeden önce, bu ayar için açıklayıcı normu işaret etmeden manipüle edildi. Katılımcılar, girdiklerinde kapalı olsalar bile, ışıkları söndürme olasılıklarının daha yüksek olduğunu belirttiler. 2. Çalışmada, ışığı kapatma normunun bir konfederasyon tarafından gösterildiği bir ek koşul dahil edilmiştir, ancak katılımcılar bunu açmaktan sorumlu değildir. Kişisel sorumluluk, sosyal normların davranış üzerindeki etkisini yönetmiştir; Katılımcılar ışığın açılmasından sorumlu olmadığında, normun etkisi azaldı. Bu sonuçlar, açıklayıcı normların ve kişisel sorumluluğun, çevre müdahalelerinin etkinliğini nasıl düzenleyebileceğini göstermektedir. ”
Makalelerini okuyun ve çalışmanın bir çoğaltmasını tasarlayın 1.
[ , ] Önceki soru üzerine bina, şimdi tasarımınızı gerçekleştirin.
[ ] MTurk'tan katılan katılımcıları kullanan deneyler hakkında önemli tartışmalar oldu. Paralel olarak, aynı zamanda, lisans öğrencisi nüfuslarından işe alınan katılımcıları kullanan deneyler hakkında da önemli tartışmalar olmuştur. Türkler ve lisans öğrencilerini araştırma katılımcıları olarak karşılaştıran ve karşılaştıran iki sayfalık bir not yazın. Karşılaştırmanız hem bilimsel hem de lojistik konularla ilgili bir tartışmayı içermelidir.
[ ] Jim Manzi'nin Uncontrolled (2012) adlı kitabı, iş dünyasındaki deneyimin gücüne harika bir giriş niteliğindedir. Kitapta şu hikayeyi aktardı:
“Bir zamanlar gerçek bir işletme dehasının, deneylerin gücünün derin, sezgisel bir şekilde altını çizen, kendini üreten bir milyarderle bir toplantıdaydım. Firması, geleneksel bilgelik olması gerektiği gibi, tüketicileri çekecek ve satışları artıracak büyük vitrinli vitrinler yaratmaya çalışan önemli kaynaklar harcadı. Uzmanlar tasarımdan sonra tasarımı dikkatlice test ettiler ve bireysel test gözden geçirme oturumlarında, her yeni ekran tasarımının satışlar üzerinde önemli bir nedensel etkisi olmadığını gösteren bir süre boyunca. Kıdemli pazarlama ve merchandising yöneticileri, bu tarihsel test sonuçlarını toto'da gözden geçirmek için CEO'yla bir araya geldi. Tüm deneysel verileri sunduktan sonra, geleneksel bilgeliğin yanlış olduğu sonucuna vardılar - bu pencere vitrinleri satışları artırmıyor. Onların önerilen eylemi, bu alandaki maliyetleri ve çabayı azaltmaktı. Bu, deneyselliğin geleneksel bilgeliği tersine çevirme yeteneğini çarpıcı bir şekilde göstermiştir. CEO'nun yanıtı basitti: 'Benim sonucum, tasarımcıların çok iyi değil.' Onun çözümü mağaza teşhir tasarımındaki çabayı arttırmak ve yeni insanlara bunu yapmaktı. ” (Manzi 2012, 158–9)
Hangi tür geçerlilik CEO'nun endişesidir?
[ Bir önceki soru üzerine, deneylerin sonuçlarının tartışıldığı toplantıda olduğunuzu hayal edin. Sorulabilecek dört soru nedir - her bir geçerlilik türü için (istatistik, yapı, iç ve dış) hangisi?
[ Bernedo, Ferraro, and Price (2014) , Ferraro, Miranda, and Price (2011) açıklanan su tasarrufu müdahalesinin yedi yıllık etkisini incelediler (bkz. Şekil 4.11). Bu yazıda Bernedo ve meslektaşları, tedavinin gerçekleşmesinden sonra hareket etmiş ve hareket etmemiş hanehalklarının davranışlarını karşılaştırarak etkinin ardındaki mekanizmayı da anlamaya çalışmışlardır. Yani kabaca, tedavinin evi mi yoksa ev sahibi mi etkilediğini görmeye çalıştılar.
[ ] Schultz et al. (2007) , Schultz ve meslektaşları, tanımlayıcı ve ihtiyati normların farklı bir çevresel davranış üzerindeki etkisi üzerine (havlu yeniden kullanım) iki bağlamda (bir otel ve bir devremülk kat mülkiyeti) bir dizi üç deney gerçekleştirmişlerdir (Schultz, Khazian, and Zaleski 2008) .
[ Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) , elektrik faturalarının tasarımını incelemek için bir dizi laboratuar benzeri deney gerçekleştirmişlerdir. İşte soyut olarak şöyle tarif eder:
“Ankete dayalı bir deneyde, her katılımcı nispeten yüksek elektrik kullanımına sahip bir aile için varsayımsal bir elektrik faturası gördü. Bu, (a) tarihsel kullanım, (b) komşularla karşılaştırmalar ve (c) cihaz arızaları ile tarihsel kullanım hakkında bilgiler. Katılımcılar, tüm bilgi türlerini (a) tabloları, (b) çubuk grafikleri ve (c) simge grafiklerini içeren üç formattan birinde gördüler. Üç ana bulgu hakkında rapor veriyoruz. Birincisi, tüketiciler her tablodaki bir elektrik kullanım bilgisini en çok bir tablo halinde sunulduğunda, belki de tabloların basit nokta okumayı kolaylaştırmasından dolayı anladılar. İkincisi, elektrik tasarrufu için tercihler ve niyetler, formattan bağımsız olarak, tarihsel kullanım bilgileri için en güçlü olanıydı. Üçüncüsü, daha düşük enerji okuryazarlığı olan bireyler, tüm bilgileri daha az anladı ”.
Diğer takip çalışmalarından farklı olarak, Canfield, Bruin, and Wong-Parodi (2016) ilginin ana sonucu, davranış değil, davranış olarak bildirilmiştir. Enerji tasarrufu sağlayan daha geniş bir araştırma programında bu tür çalışmanın güçlü ve zayıf yönleri nelerdir?
[ , Smith and Pell (2003) paraşütlerin etkinliğini gösteren çalışmaların bir hiciv meta analizini sundu. Onlar sonuçlandırdı:
“Kötü sağlığı önlemeye yönelik birçok müdahalede olduğu gibi, paraşütlerin etkinliği randomize kontrollü çalışmalar kullanılarak titiz bir değerlendirmeye tabi tutulmamıştır. Kanıt temelli tıp savunucuları, yalnızca gözlemsel veriler kullanılarak değerlendirilen müdahalelerin benimsenmesini eleştirmiştir. Kanıt temelli tıbbın en radikal kahramanlarının, çift kör, randomize, plasebo kontrollü, paraşütle ilgili bir crossover denemesine katılıp organize olmuş olması durumunda herkesin yarar sağlayabileceğini düşünüyoruz. ”
New York Times gibi deneysel kanıtların fetişleştirilmesine karşı çıkan bir genel okur gazetesi için uygun bir op-ed yazın. Belirli somut örnekler verin. İpucu: Ayrıca bkz. Deaton (2010) ve Bothwell et al. (2016) .
[ , , Bir tedavi etkisinin fark-fark-fark tahmincileri, ortalama-ortalama tahmin edicilerden daha hassas olabilir. Online bir deneyi yürütmek için farklılık farkı yaklaşımının değerini açıklayan bir başlangıç sosyal medya şirketinde A / B testinden sorumlu bir mühendise bir not yazın. Not, problemin bir ifadesini içermelidir, fark-fark tahmincisinin, ortalamada ortalama tahmin ediciden daha iyi olduğu ve basit bir simülasyon çalışmasının hangi koşullar altında olacağı hakkında bir sezgi içermelidir.
[ , ] Gary Loveman, Harvard Business School'da dünyanın en büyük casino şirketlerinden biri olan Harrah'ın CEO'su olmadan profesördü. Harrah'a taşındığında, Loveman şirketi, müşterinin davranışları hakkında muazzam miktarda veri toplayan, sıkça rastlanan bir sadakat programı ile şirketi dönüştürdü. Bu sürekli ölçüm sisteminin üstünde, şirket deneyler yapmaya başladı. Örneğin, bir kuponun, belirli bir kumar modeli olan müşteriler için ücretsiz bir otel gecesi üzerindeki etkisini değerlendirmek için bir deneme çalıştırabilirler. Loveman, Harrah'ın gündelik iş uygulamalarına denemenin önemini şöyle anlatıyor:
“Kadınları taciz etmiyorsunuz, çalmıyorsunuz ve bir kontrol grubunuz olmalı. Bu sizin işinizi Harrah'da kaybedebileceğin şeylerden biri - kontrol grubu yürütmemek. ” (Manzi 2012, 146)
Yeni bir çalışana, Loveman'ın neden bir kontrol grubu sahibi olmanın bu kadar önemli olduğunu düşündüğünü açıklayan bir e-posta yazın. Noktanızı göstermek için bir örneği (gerçek ya da uydurulmuş) eklemeyi denemelisiniz.
[ , ] Yeni bir deney, aşı alımı konusunda metin mesajı hatırlatıcılarının alınmasının etkisini tahmin etmeyi amaçlamaktadır. Her biri 600 uygun hastaya sahip olan yüz elli klinik, katılmaya isteklidir. Çalışmak istediğiniz her klinik için 100 $ sabit bir maliyet var ve göndermek istediğiniz her bir metin mesajı için 1 $ maliyeti. Ayrıca, üzerinde çalıştığınız tüm klinikler sonucu (bir kişiye aşı olup olmadığı) sonucu ücretsiz olarak ölçecektir. 1000 dolarlık bir bütçeniz olduğunu varsayalım.
[ , ] Online dersler ile ilgili önemli bir sorun, yıpratmadır: Kursları başlatan çoğu öğrenci ayrılıyor. Bir çevrimiçi öğrenme platformunda çalıştığınızı ve platformdaki bir tasarımcının öğrencilerin dersten ayrılmasını önlemeye yardımcı olacağını düşündüğü görsel bir ilerleme çubuğu yarattığını düşünün. İlerleme çubuğunun öğrenciler üzerindeki etkisini büyük bir hesaplamalı sosyal bilim dersinde test etmek istersiniz. Denemede ortaya çıkabilecek herhangi bir etik meseleyi ele aldıktan sonra, siz ve meslektaşlarınız, kursun ilerleme çubuğunun etkilerini güvenilir şekilde tespit etmek için yeterli öğrenciye sahip olamayacağından endişeleniyorsunuz. Aşağıdaki hesaplarda, öğrencilerin yarısının ilerleme çubuğunu alacağını ve yarısının olmadığını kabul edebilirsiniz. Ayrıca, herhangi bir girişim olmadığını varsayabilirsiniz. Diğer bir deyişle, katılımcıların yalnızca tedaviyi veya kontrolü aldıklarından etkilendiklerini varsayabilir; Diğer insanların tedavi veya kontrol almasıyla etkilenmezler (daha resmi bir tanım için, bkz. Gerber and Green (2012) Bölüm 8 Gerber and Green (2012) ). Yaptığınız ek varsayımları takip edin.
[ , , ] Bir teknoloji şirketinde veri bilimcisi olarak çalıştığınızı hayal edin. Pazarlama departmanından bir kişi, yeni bir çevrimiçi reklam kampanyası için yatırım getirisini (YG) ölçmek için planladıkları bir denemeyi değerlendirmede sizden yardım ister. ROI, kampanyadan elde edilen net kârın kampanyanın maliyetine bölünmesiyle tanımlanır. Örneğin, satış üzerinde hiçbir etkisi olmayan bir kampanya% 100'lük bir YG'ye sahip olacaktır; Üretilen karların maliyetlere eşit olduğu bir kampanyanın 0 ROI'si olacaktır; ve üretilen kârın iki katına çıkarıldığı bir kampanya, maliyetin% 200'lük bir ROI'ye sahip olacağını belirtti.
Denemeyi başlatmadan önce, pazarlama departmanı size daha önceki araştırmalarına dayanarak aşağıdaki bilgileri sağlar (aslında, bu değerler Lewis ve Rao'da (2015) bildirilen gerçek çevrimiçi reklam kampanyaları için tipiktir):
Önerilen bu deneyi değerlendiren bir not yazın. Notunuz, oluşturduğunuz bir simülasyondan kanıt kullanmalı ve iki ana konuyu ele almalıdır: (1) Bu denemeyi planlandığı şekilde başlatmanızı önerir misiniz? Öyleyse neden? Değilse neden olmasın? Bu kararı vermek için kullandığınız ölçütlerden emin olun. (2) Bu deney için hangi örneklem boyutunu önerirsiniz? Yine, bu kararı vermek için kullandığınız kriterler konusunda emin olun.
İyi bir not bu özel durumu ele alacaktır; Daha iyi bir not, bu davadan bir şekilde genelleştirilecektir (örneğin, kararın, kampanyanın etkisinin büyüklüğünün bir fonksiyonu olarak nasıl değiştiğini gösterecektir); ve büyük bir not tam olarak genelleştirilmiş bir sonuç sunacaktır. Notunuz, sonuçlarınızı göstermeye yardımcı olması için grafikler kullanmalıdır.
İşte iki ipucu. Öncelikle, pazarlama departmanı size gereksiz bilgiler vermiş olabilir ve size gerekli bilgileri vermemiş olabilir. İkincisi, R kullanıyorsanız, rlnorm () işlevinin pek çok kişinin beklediği şekilde çalışmadığından emin olun.
Bu aktivite size güç analizi, simülasyonlar oluşturma ve sonuçlarınızı kelimeler ve grafiklerle iletme konusunda pratik verecektir. YG'yi hesaplamak için tasarlanan deneyleri değil, herhangi bir deney için güç analizi yapmanıza yardımcı olur. Bu aktivite, istatistiksel test ve güç analizi ile ilgili bazı deneyimlerinizin olduğunu varsayar. Güç analizine aşina değilseniz, Cohen (1992) “A Power Primer” yazmasını tavsiye ederim.
Bu etkinlik, RA Lewis and Rao (2015) , masal deneylerin bile temel bir istatistiksel kısıtlamasını canlı bir şekilde gösteren güzel bir makalesinden esinlenmiştir. Başlangıçta “Geri Dönüşlerin Reklam Verme Ölümüne Yakın Etkisiz” başlıklı kışkırtıcı başlığı olan makaleleri, milyonlarca müşteriyi içeren dijital deneylerde bile çevrimiçi reklamların yatırım getirisini ölçmenin ne kadar zor olduğunu gösteriyor. Daha genel olarak, RA Lewis and Rao (2015) , dijital çağ deneyleri için özellikle önemli olan temel bir istatistiksel gerçeği göstermektedir: gürültülü sonuç verilerinin ortasında küçük tedavi etkilerini tahmin etmek zordur.
[ , ] Önceki soruyla aynı şeyi yapın, ancak simülasyondan ziyade, analitik sonuçları kullanmalısınız.
[ , , ] Önceki soruyla aynı şeyi yapın, ancak hem simülasyon hem de analitik sonuçları kullanın.
[ , , ] Yukarıda açıklanan notu yazdığınızı ve pazarlama departmanından birisinin bir parça yeni bilgi sağladığını düşünün: deney öncesi ve sonrası satışlar arasında 0.4 korelasyon olmasını bekliyorlar. Bu, notunuzdaki önerileri nasıl değiştirir? (İpucu: fark kestirimcisi ve fark farkı kestiricisi hakkında daha fazla bilgi için bölüm 4.6.2'ye bakınız.)
[ , ] Yeni bir web tabanlı istihdam-yardım programının etkinliğini değerlendirmek için, bir üniversite, son okul yılına giren 10.000 öğrenci arasında randomize bir kontrol çalışması yürütmüştür. Eşsiz bir giriş bilgisine sahip ücretsiz bir abonelik, rastgele seçilen 5.000 öğrenciye özel bir e-posta davetiyesi yoluyla gönderilirken, diğer 5.000 öğrenci kontrol grubundaydı ve bir aboneliği yoktu. On iki ay sonra, bir takip anketi (yanıt vermeyen), hem tedavi hem de kontrol gruplarında öğrencilerin% 70'inin seçtikleri alanda tam zamanlı istihdam sağladığını göstermiştir (tablo 4.6). Böylece, web tabanlı hizmetin hiçbir etkisi olmadı.
Ancak, üniversitedeki akıllı bir veri bilimcisi verilere biraz daha yakından baktı ve tedavi grubundaki öğrencilerin sadece% 20'sinin e-postayı aldıktan sonra hesaba giriş yaptığını gördüler. Dahası, ve şaşırtıcı bir şekilde, web sitesine giriş yapanlardan sadece% 60'ı, seçtikleri alanda tam zamanlı istihdam sağlamıştı. Bu, giriş yapmayanların oranından daha düşük ve insanlar için oranın altındaydı. kontrol durumunda (tablo 4.7).
İpucu: Bu soru, bu bölümde ele alınan materyalin ötesine geçer, ancak deneylerde yaygın olan sorunları ele alır. Bu tip deneysel tasarıma bazen teşvik edici tasarım denir çünkü katılımcılar tedaviye katılmaya teşvik edilirler. Bu problem, tek taraflı uyumsuzluk olarak adlandırılanın bir örneğidir (bkz. Gerber and Green (2012) 5. bölümü).
[ ] Daha fazla incelemeden sonra, önceki soruda açıklanan deneyin daha da karmaşık olduğu ortaya çıktı. Kontrol grubundaki kişilerin% 10'unun hizmete erişim için ödedikleri ortaya çıkmış ve% 65'lik bir istihdam oranı ile sonuçlanmıştır (Tablo 4.8).
İpucu: Bu soru, bu bölümde ele alınan materyalin ötesine geçer, ancak deneylerde yaygın olan sorunları ele alır. Bu problem, iki taraflı uyumsuzluk olarak adlandırılanın bir örneğidir (bkz. Gerber and Green (2012) bkz. Bölüm 6 Gerber and Green (2012) ).
grup | Boyut | İş oranı |
---|---|---|
Web sitesine erişim verildi | 5000 | % 70 |
Web sitesine erişim izni verilmedi | 5000 | % 70 |
grup | Boyut | İş oranı |
---|---|---|
Web sitesine erişim sağlandı ve giriş yaptı | 1.000 | % 60 |
Web sitesine erişim sağladı ve hiç giriş yapmadı | 4000 | % 72.5 |
Web sitesine erişim izni verilmedi | 5000 | % 70 |
grup | Boyut | İş oranı |
---|---|---|
Web sitesine erişim sağlandı ve giriş yaptı | 1.000 | % 60 |
Web sitesine erişim sağladı ve hiç giriş yapmadı | 4000 | % 72.5 |
Web sitesine erişim izni verilmedi ve bunun için ödeme yapılmadı | 500 | % 65 |
Web sitesine erişim verilmedi ve bunun için ödeme yapmadı | 4.500 | 70.56% |