Dijital çağ, uygulamada daha zor örnekleme yapmakta ve olasılık dışı örnekleme için yeni fırsatlar yaratmaktadır.
Örnekleme tarihinde, iki rakip yaklaşım vardır: olasılık örnekleme yöntemleri ve olasılıksız örnekleme yöntemleri. Her iki yaklaşım da örneklemenin ilk günlerinde kullanılmasına rağmen, olasılık örneklemesi baskın hale gelmiştir ve pek çok sosyal araştırmacının olasılıksız örneklemeyi büyük bir şüphecilikle görmesi öğretilmektedir. Bununla birlikte, aşağıda açıklayacağım gibi, dijital çağın yarattığı değişiklikler, araştırmacıların olasılık dışı örneklemeyi yeniden gözden geçirme zamanı geldiğini göstermektedir. Özellikle, olasılık örneklemenin pratikte yapılması zorlaşmıştır ve olasılık dışı örnekleme daha hızlı, daha ucuz ve daha iyi hale gelmektedir. Daha hızlı ve daha ucuz araştırmalar sadece kendi başlarına değil, daha sık anketler ve daha büyük örnek büyüklükleri gibi yeni fırsatlara olanak tanır. Örneğin, olasılık dışı yöntemler kullanılarak, Kooperatif Kongre Seçme Çalışması (CCES), olasılık örneklemeyi kullanan önceki çalışmalardan yaklaşık 10 kat daha fazla katılımcıya sahip olabilir. Bu çok daha büyük örnek, politik araştırmacıların alt gruplar ve sosyal bağlamlardaki tutum ve davranışlardaki çeşitliliği incelemelerini sağlar. Ayrıca, bu eklenmiş ölçeğin tümü, tahminlerin kalitesinde azalmadan geldi (Ansolabehere and Rivers 2013) .
Şu anda, sosyal araştırma için örnekleme baskın yaklaşım olasılık örneklemedir . Muhtemel örneklemede, hedef popülasyonun tüm üyeleri, örneklenmenin bilinen, sıfır olmayan bir olasılığına sahiptir ve örneklenen tüm insanlar ankete cevap vermektedir. Bu şartlar yerine getirildiğinde, zarif matematiksel sonuçlar, bir araştırmacının örneklemi kullanarak hedef kitle hakkında çıkarımlarda bulunma kabiliyeti hakkında kanıtlanabilir garantiler sunmaktadır.
Ancak gerçek dünyada, bu matematiksel sonuçların altında yatan koşullar nadiren karşılanmaktadır. Örneğin, çoğu zaman kapsama hataları ve yanıt vermiyor. Bu problemlerden dolayı, araştırmacılar örneklemlerinden hedef kitlelere çıkarım yapmak için sıklıkla çeşitli istatistiksel düzenlemeler yapmak zorundadırlar. Bu nedenle, kuramsal olarak güçlü kuramsal güvencelere sahip olan teoride , olasılık örneklemesi ile uygulamada olasılık örneklemesini birbirinden ayırt etmek önemlidir; bu da böyle bir garanti sunmaz ve çeşitli istatistiksel düzenlemelere bağlıdır.
Zaman içinde, teoride olasılık örneklemesi ile uygulamada olasılık örneklemesi arasındaki farklar artmaktadır. Örneğin, yüksek kaliteli, pahalı araştırmalarda bile yanıt vermeyen oranlar artmaktadır (Şekil 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Yanıt vermeyen oranlar, ticari telefon anketlerinde çok daha yüksektir - bazen% 90 gibi yüksek bir orana sahiptir (Kohut et al. 2012) . Yanıt vermedeki bu artışlar, tahminlerin kalitesini tehdit etmektedir çünkü tahminler, araştırmacıların yanıt vermeyenlere uyum sağlamak için kullandıkları istatistiksel modellere giderek daha fazla bağımlıdır. Dahası, kalite anketindeki bu düşüşler, anket araştırmacılarının yüksek yanıt oranlarını sürdürmeleri için gittikçe artan çabalarına rağmen gerçekleşmiştir. Bazı insanlar, kalitenin düşürülmesi ve artan maliyetin bu ikiz eğilimlerinin anket araştırmasının temelini tehdit ettiğinden korkuyorlar (National Research Council 2013) .
Olasılık örnekleme yöntemleri için büyüyen zorlukları olmuştur, aynı zamanda, aynı zamanda olasılık dışı örnekleme yöntemleri heyecanlı gelişmeler olmuştur. Olasılık dışı örnekleme yöntemlerinin çeşitli stilleri vardır, ancak ortak olan tek şey olasılık örneklemesinin matematiksel çerçevesine kolayca sığamayacaklarıdır (Baker et al. 2013) . Başka bir deyişle, olasılıksız örnekleme yöntemlerinde, herkesin bilinen ve sıfırdan oluşma olasılığı yoktur. Muhtemel olmayan örnekleme yöntemleri sosyal araştırmacılar arasında korkunç bir üne sahiptir ve bunlar, Literary Digest fiyasko (daha önce tartışılan) ve “Dewey Defeats Truman” gibi, araştırmacılar tarafından yapılan en önemli başarısızlıklardan bazılarıdır. 1948 cumhurbaşkanlığı seçimleri (şekil 3.6).
Dijital çağ için uygun olan bir olasılık dışı örnekleme, çevrimiçi panellerin kullanılmasıdır . Çevrimiçi panelleri kullanan araştırmacılar, bazı panel sağlayıcılarına (genellikle bir şirket, hükümet veya üniversiteye), anketler için yanıt verenler olarak hizmet vermeyi kabul eden geniş ve çeşitli bir grup oluşturmaya dayanmaktadır. Bu panel katılımcıları genellikle çevrimiçi banner reklamlar gibi çeşitli ad hoc yöntemler kullanılarak işe alınır. Daha sonra, bir araştırmacı, istenen özelliklere (örneğin, yetişkinlerin ulusal temsilcisi) sahip bir örneklem grubuna erişim için panel sağlayıcısına ödeme yapabilir. Bu çevrimiçi paneller olasılık dışı yöntemlerdir, çünkü herkesin bilinen, sıfır olmayan bir olasılığa sahip olma olasılığı yoktur. Her ne kadar olasılık dışı online paneller sosyal araştırmacılar tarafından kullanılıyor olsa da (örneğin, CCES), bunlardan gelen tahminlerin kalitesi hakkında hala bir tartışma var (Callegaro et al. 2014) .
Bu tartışmalara rağmen, sosyal araştırmacıların olasılık dışı örneklemeyi yeniden gözden geçirmesinin zamanının doğru olmasının iki nedeni olduğunu düşünüyorum. İlk olarak, dijital çağda, olasılık dışı örneklerin toplanması ve analizinde birçok gelişme olmuştur. Bu yeni yöntemler geçmişte sorunlara neden olan metotlardan yeterince farklıdır ve bunların “olasılıksız örnekleme 2.0” olarak düşünülmesinin mantıklı olduğunu düşünmekteyim. Araştırmacıların olasılıksız örneklemeyi yeniden gözden geçirmelerinin ikinci sebebi, olasılıkların örneklemesinden kaynaklanmaktadır. Uygulama giderek zorlaşıyor. Yanıt vermeme oranlarının yüksek olduğu durumlarda (şu an gerçek araştırmalarda olduğu gibi), yanıt verenlerin dahil edilmeleri için gerçek olasılıklar bilinmemektedir ve bu nedenle olasılık örnekleri ve olasılık dışı örnekler birçok araştırmacının inandığı kadar farklı değildir.
Daha önce de söylediğim gibi, olasılık dışı örneklemler, çoğu sosyal araştırmacı tarafından, araştırma araştırmalarının ilk günlerindeki en utanç verici başarısızlıkların bazılarındaki rollerinden dolayı, büyük bir şüphecilikle görülüyor. Olasılık dışı örneklerle ne kadar uzağa ulaştığımızın açık bir örneği, Wei Wang, David Rothschild, Sharad Goel ve Andrew Gelman (2015) tarafından yapılan bir araştırmanın olasılıksız bir örneklemi kullanarak 2012 ABD seçiminin sonucunu doğru bir şekilde geri kazanmasıdır. Amerikalı Xbox kullanıcıları — kesinlikle Amerikalı olmayan bir örneklemdir. Araştırmacılar Xbox oyun sisteminden katılımcıları işe aldılar ve beklediğiniz gibi Xbox örneği erkekleri ve çarpık gençleri eğitti: 18 ila 29 yaşındakiler seçmenlerin% 19'unu oluşturuyor ancak Xbox örneğinin% 65'i ve erkekler Seçmenlerin% 47'sini oluşturuyor ancak Xbox örneğinin% 93'ünü oluşturuyor (Şekil 3.7). Bu güçlü demografik önyargılardan dolayı, ham Xbox verileri seçim geri dönüşlerinin zayıf bir göstergesiydi. Barack Obama üzerinden Mitt Romney için güçlü bir zafer öngördü. Yine bu, ham, düzeltilmemiş olasılık dışı örneklerin tehlikelerine başka bir örnektir ve Literary Digest fiyaskoyu hatırlatır.
Bununla birlikte, Wang ve meslektaşları bu sorunların farkındaydı ve tahminler yaparken rastgele olmayan örnekleme süreçlerine uyum sağlamaya çalıştılar. Özellikle, tabakalama hatalarını ve yanıt vermeyen olasılık örneklerini ayarlamak için yaygın olarak kullanılan bir teknik olan tabakalaşma sonrası kullanmışlardır.
Ana tabakalaşma sonrası ana fikir, bir örneklemden gelen tahminin geliştirilmesine yardımcı olmak için hedef kitle hakkında yardımcı bilgiler kullanmaktır. Wang ve meslektaşları, olasılık dışı örneklemlerinden tahminler yapmak için post-tabakalaşma kullanıldıklarında, popülasyonu farklı gruplara ayırdılar, her gruptaki Obama desteğini tahmin ettiler ve daha sonra genel bir tahmin yapmak için grup tahminlerinin ağırlıklı ortalamasını aldılar. Örneğin, halkı iki gruba böldüler (kadın ve erkek), Obama'nın kadın ve erkekler arasındaki desteğini tahmin ettiler ve daha sonra Obama için genel bir destek alarak kadınlara verdikleri gerçeğin hesaba katılması için ağırlıklı bir ortalama aldılar. Seçmenlerin% 53'ü ve erkeklerin% 47'si. Kabaca, tabakalaşma sonrası, grupların boyutları hakkında yardımcı bilgiler getirerek dengesiz bir örneği düzeltmeye yardımcı olur.
Tabakalaşma sonrası anahtar doğru grupları oluşturmaktır. Nüfusu homojen gruplara ayırabilecek olursanız, her bir gruptaki herkes için cevap eğilimleri aynıdır, sonra tabakalaşma, tarafsız tahminler üretecektir. Diğer bir deyişle, cinsiyete göre post-katmanlaştırma, tüm erkeklerin tepki eğilimi varsa ve tüm kadınların aynı tepki eğilimine sahip olması durumunda tarafsız tahminler üretecektir. Bu varsayım, gruplar arası homojen cevap-eğilimler olarak adlandırılır ve ben bu bölümün sonunda matematiksel notlarda biraz daha açıklarım.
Tabii ki, cevap eğilimlerinin tüm erkekler ve tüm kadınlar için aynı olamayacağı düşünülüyor. Bununla birlikte, grupların sayısı arttıkça homojen cevap-eğilimleri-grup içi varsayım daha makul olur. Daha fazla grup oluşturursanız, kabaca, homojen gruplar halinde doğramak daha kolay olur. Örneğin, tüm kadınların aynı tepki eğilimine sahip olması mantıksız görünebilir, ancak 18-29 yaşlarındaki, üniversiteden mezun olan ve Kaliforniya'da yaşayan tüm kadınlar için aynı tepki eğiliminin olması daha makul görünebilir. . Bu nedenle, tabakalaşma sonrası grupların sayısı arttıkça, yöntemi desteklemek için gereken varsayımlar daha makul hale gelir. Bu gerçek göz önüne alındığında, araştırmacılar genellikle tabakalaşma için çok sayıda grup oluşturmak istemektedir. Bununla birlikte, grupların sayısı arttıkça, araştırmacılar farklı bir problemle karşılaşmaktadır: veri kısıtlılığı. Eğer her grupta sadece az sayıda insan varsa, tahminler daha belirsiz olacaktır ve katılımcı olmayan bir grubun olduğu aşırı durumlarda, tabakalaşma tamamen sona ermektedir.
Grup içi homojen yanıt-eğilim-varsayımının kabul edilebilirliği ile her grupta makul örneklem büyüklüğü talebi arasındaki bu içsel gerilimin iki yolu vardır. İlk olarak, araştırmacılar her grupta makul örnek büyüklüklerini sağlamaya yardımcı olan daha büyük, daha çeşitli bir örnek toplayabilir. İkincisi, gruplar içinde tahmin yapmak için daha karmaşık bir istatistiksel model kullanabilirler. Ve aslında, bazen araştırmacılar, Wang ve meslektaşlarının Xbox'tan yanıt verenleri kullanarak yaptıkları seçimle yaptıkları gibi, her ikisini de yapıyorlar.
Bilgisayarla yapılan röportajlarla olasılık dışı bir örnekleme yöntemi kullandıkları için (Bölüm 3.5'de bilgisayarla yapılan görüşmeler hakkında daha fazla konuşacağım), Wang ve meslektaşları çok ucuz veri toplamaya sahip oldular, bu da 345,858 benzersiz katılımcıdan bilgi toplamasını sağladı. seçim yoklama standartlarına göre çok büyük bir rakam. Bu büyük örneklem büyüklüğü onları çok sayıda tabakalaşma sonrası grup oluşturmaya yöneltmiştir. Post-tabakalaşma tipik olarak nüfusun yüzlerce gruba ayrılmasını içerirken, Wang ve meslektaşları nüfusu cinsiyet (2 kategori), ırk (4 kategori), yaş (4 kategori), eğitim (4 kategori), eyalet tarafından tanımlanan 176.256 gruba ayırdı. (51 kategori), parti kimliği (3 kategori), ideoloji (3 kategori) ve 2008 oyu (3 kategori). Diğer bir deyişle, düşük maliyetli veri toplama ile sağlanan büyük örnek büyüklükleri, onların tahmin sürecinde daha makul bir varsayım yapmasını sağlamıştır.
Bununla birlikte, 345,858 benzersiz katılımcıyla bile, Wang ve meslektaşlarının neredeyse hiç katılımcısı olmadığı birçok grup vardı. Bu nedenle, her gruptaki desteği tahmin etmek için çok düzeyli regresyon adı verilen bir teknik kullandılar. Esasen, Obama'nın belirli bir grup içindeki desteğini tahmin etmek için, çok düzeyli regresyon, yakından ilişkili birçok gruptan bilgi topladı. Örneğin, Obama'nın 18 ila 29 yaş arasındaki kadın Hispanikler arasındaki desteği tahmin etmeye çalışmayı hayal edin, üniversite mezunu olanlar, kendilerini ılımlı olarak özdeşleştiren ve 2008'de Obama'ya oy veren Demokratlar kayıtlı. Bu çok çok spesifik bir grup ve örnekte bu özelliklere sahip hiç kimse yoktur. Bu nedenle, bu grup hakkında tahminler yapmak için, çok düzeyli regresyon, çok benzer gruplardaki insanlardan gelen tahminleri bir araya getirmek için istatistiksel bir model kullanır.
Bu nedenle, Wang ve meslektaşları, çok düzeyli gerileme ve tabakalaşma sonrası birleştirme yaklaşımını kullandılar, böylece stratejilerini çok katmanlı gerileme, tabakalaşma veya daha sevgiyle, “ P. ”Wang ve meslektaşları Xbox'ı olasılık dışı örneklemden tahmin yapmak için Bay P.'ı kullandıklarında, Obama'nın 2012 seçiminde aldığı genel desteğe çok yakın tahminler ürettiler (şekil 3.8). Aslında, tahminleri geleneksel kamuoyu anketlerinin toplamından daha doğruydu. Dolayısıyla, bu durumda, istatistiksel düzenlemeler - özellikle Bay P. - olasılık dışı verilerdeki önyargıları düzeltmek için iyi bir iş yapar gibi görünmektedir; Düzeltilmemiş Xbox verilerindeki tahminlere baktığınızda açıkça görülebilen önyargılar.
Wang ve meslektaşlarının çalışmasından iki ana ders var. İlk olarak, düzeltilmemiş olasılık dışı numuneler kötü tahminlere yol açabilir; Bu, birçok araştırmacının daha önce duyduğu bir ders. Bununla birlikte ikinci ders, olasılıkla analiz edildiğinde, olasılık dışı örneklerin aslında iyi tahminler üretebilmeleri; Olasılık dışı örnekler, Literary Digest fiyasko gibi bir şeye otomatik olarak yol açmaz.
Bir olasılık örnekleme yaklaşımı ile olasılıksız bir örnekleme yaklaşımı kullanmak arasında karar vermeye çalışıyorsanız, zor bir seçim ile karşı karşıya kalırsınız. Bazen araştırmacılar hızlı ve katı bir kural isterler (örneğin, olasılık örnekleme yöntemlerini kullanırlar), ancak böyle bir kuralı sunmak giderek zorlaşmaktadır. Araştırmacılar, uygulamada olasılıklı örnekleme yöntemleri arasında zorlu bir tercihle karşı karşıya kalmaktadırlar - ki bu da giderek daha pahalı ve kullanımlarını haklı kılan teorik sonuçlardan çok uzaktır - ve olasılık dışı örnekleme yöntemleri - daha ucuz ve daha hızlıdır, ancak daha az tanıdık ve daha çeşitlidir. Bununla birlikte, net olmayan bir şey, olasılık dışı örneklerle veya temsili olmayan büyük veri kaynakları ile çalışmak zorunda kaldığınızda (Bölüm 2'ye geri dönün), o zaman, tabakalaşma ve sonrasını kullanarak yapılan tahminlere inanmak için güçlü bir sebep vardır. İlgili teknikler, düzeltilmemiş ham tahminlerden daha iyi olacaktır.