Temsil hedef nüfusa için katılımcıların çıkarımlar yapıyor.
Ankete katılanlardan daha büyük nüfusa ulaşırken ortaya çıkabilecek hata türlerini anlamak için, 1936 ABD başkanlık seçimlerinin sonucunu tahmin etmeye çalışan Literary Digest saman anketini ele alalım. 75 yıldan daha önce olmasına rağmen, bu çöküşün bugün hala araştırmacılara öğretmek için önemli bir dersi var.
Literary Digest , popüler bir genel ilgi dergisi idi ve 1920'de başlayarak cumhurbaşkanlığı seçimlerinin sonuçlarını tahmin etmek için kamuoyu yoklamaları başlattılar. Bu tahminleri yapmak için, bir çok insana oy pusulası gönderecekler ve daha sonra iade edilen oy pusulalarını toplayacaklardı; Literary Digest , aldıkları oy pusulalarının “ağırlıklı, düzeltilmiş veya yorumlanmamış” olduğunu gururla bildirdiler. Bu prosedür, 1920, 1924, 1928 ve 1932'deki seçimlerin kazananlarını doğru olarak tahmin etti. 1936'da, Büyük Buhranın ortasında, Edebiyat Digest , isimleri ağırlıklı olarak telefon rehberlerinden ve otomobil sicil kayıtlarından gelen 10 milyon kişiye oy verdi. Metodolojilerini şöyle tarif ettiler:
“DIGEST'in pürüzsüz çalışan makinesi, tahmini gerçekleri zor olgulara indirgemek için otuz yıllık tecrübenin hızlı bir şekilde geçmesiyle hareket ediyor… Bu hafta 500 kalem günde bir milyon adresin dörtte birinden fazlasını ortaya çıkardı. Her gün, New York'ta, motorlu şeritli Fourth Avenue'nin yukarısındaki büyük bir odada, 400 işçi, kırk kent bloklarını kırmaya yetecek milyonlarca basılı maddeyi adreslenmiş zarflara kaydırdı. Her saat, DIGEST'in kendi Postanesi Merkezinde, üç gişe rekoru kırma makinası mühürlenmiş ve beyazı damgalıyor; yetenekli posta çalışanları, onları şişkin posta çantalarına çevirdi; filo DIGEST kamyonları posta trenlerini eksprese ettiler. . . Gelecek hafta, bu on milyondan gelen ilk cevaplar, üç kez kontrol edilen, doğrulanmış, beş kez çapraz-sınıflandırılmış ve toplamlanmış olarak işaretlenmiş oy pusulalarına başlayacak. Son rakam atlatılıp kontrol edildiyse, geçmiş deneyim bir ölçüt ise, ülke gerçek halk oylarının yüzde kırk oranının kırk milyon [seçmen] inin bir oranını bilecektir ”(22 Ağustos 1936).
Literary Digest'in boyutunun fetişleştirilmesi, bugün herhangi bir “büyük veri” araştırmacısına anında tanınabilir. 10 milyonluk oy pusulası dağıtıldığında, inanılmaz bir 2.4 milyon geri dönüş yapıldı - bu, modern siyasi anketlerden yaklaşık 1000 kat daha büyük. Bu 2.4 milyon katılımcıdan karar açıktı: Alf Landon görevdeki Franklin Roosevelt'i yenecekti. Ancak, aslında, Roosevelt bir heyelanda Landon'u yendi. Edebiyat Özeti bu kadar çok veriyle nasıl ters gidebilir? Modern örnekleme anlayışımız, Literary Digest’in hatalarını net bir şekilde ortaya koyuyor ve gelecekte de benzer hatalardan kaçınmamıza yardımcı oluyor.
Örneklemeyle ilgili açıkça düşünmek, dört farklı insan grubunu dikkate almamızı gerektirir (Şekil 3.2). İlk grup hedef nüfusdur ; Araştırmacının ilgi alanı olarak tanımladığı grup budur. Edebiyat Özeti söz konusu olduğunda, hedef nüfus 1936 başkanlık seçimlerinde oy kullanmıştı.
Bir hedef kitleye karar verdikten sonra, bir araştırmacının örnekleme için kullanılabilecek kişilerin listesini geliştirmesi gerekir. Bu listeye örnekleme çerçevesi denir ve üzerindeki insanlar çerçeve popülasyonu olarak adlandırılır. İdeal olarak, hedef nüfus ve çerçeve popülasyonu tam olarak aynı olurdu, ancak pratikte bu çoğu zaman geçerli değildir. Örneğin, Edebiyat Özeti söz konusu olduğunda çerçeve nüfusu, isimleri ağırlıklı olarak telefon rehberlerinden ve otomobil sicil kayıtlarından gelen 10 milyon kişiydi. Hedef popülasyon ve çerçeve popülasyonu arasındaki farklar kapsama hatası olarak adlandırılır. Kapsama hatası kendi başına problemleri garanti etmez. Bununla birlikte, çerçeve popülasyonundaki insanlar sistem popülasyonunda olmayan hedef popülasyondaki kişilerden sistematik olarak farklıysa, kapsamaya eğilim gösterebilir. Aslında bu, Edebiyat Özeti anketinde tam olarak ne olduğunu. Çerçeve popülasyonundaki insanlar Alf Landon'u destekleme eğiliminde olma eğilimindeydiler çünkü kısmen zenginlerdi (hem telefonların hem de otomobillerin 1936'da nispeten yeni ve pahalı olduğunu hatırlattı). Yani, Literary Digest anketinde, kapsama hatası kapsama eğilimine yol açtı.
Çerçeve popülasyonunu tanımladıktan sonra, bir sonraki adım, örneklem grubunu seçmek için bir araştırmacı içindir; Bunlar araştırmacıların röportaj yapmaya çalışacakları insanlar. Örnek, çerçeve popülasyonundan farklı özelliklere sahipse, örnekleme örnekleme hatasını verebilir. Bununla birlikte, Literary Digest fiyasko söz konusu olduğunda, örneklem yoktu - dergi, çerçeve popülasyonundaki herkese başvurdu - ve bu nedenle örnekleme hatası yoktu. Pek çok araştırmacı örnekleme hatasına odaklanma eğilimindedir - bu genellikle anketlerde rapor edilen hata payı tarafından yakalanan tek hata türüdür, ancak Literary Digest fiyasko bize hem rastlantısal hem de sistematik olan tüm hata kaynaklarını dikkate almamız gerektiğini hatırlatır.
Son olarak, örnek bir nüfus seçtikten sonra, bir araştırmacı tüm üyeleriyle röportaj yapmaya çalışır. Başarılı bir şekilde görüşme yapılan kişiler, katılımcı olarak adlandırılır. İdeal olarak, örnek popülasyonu ve cevap verenler tam olarak aynı olurdu, ancak pratikte cevapsızlık var. Yani, örnekte seçilen insanlar bazen katılmazlar. Cevap veren kişiler cevap vermeyenlerden farklı ise, o zaman yanıt vermeme önyargısı olabilir . Cevapsız önyargı, Literary Digest anketiyle ikinci ana sorundu. Oy kullananların sadece% 24'ü cevap vermiş ve Landon'u destekleyenlerin tepki vermesi daha muhtemeldir.
Temsiliyet fikirlerini ortaya koymanın bir örneği olmanın ötesinde, Literary Digest anketi, araştırmacıların, rasgele örneklemenin tehlikeleri hakkında uyaran, tekrarlanan bir hikâyedir. Ne yazık ki, bu hikayeden birçok kişinin çizdiği dersin yanlış olduğunu düşünüyorum. Hikayenin en yaygın ahlakı, araştırmacıların olasılık dışı örneklerden (yani, katılımcıları seçmek için katı olasılık temelli kurallar olmayan örneklerden) hiçbir şey öğrenememesidir. Ancak, bu bölümde daha sonra göstereceğim gibi, bu doğru değil. Bunun yerine, bu hikayeye gerçekten iki tane ahlak olduğunu düşünüyorum; 1936'da olduğu gibi bugün de doğru olan ahlaklar. Birincisi, büyük miktarda gelişigüzel toplanan veriler, iyi bir tahminde bulunmayı garanti etmeyecektir. Genel olarak, çok sayıda katılımcıya sahip olmak tahminlerin varyansını azaltır, ancak bu durum önyargıyı mutlaka azaltmaz. Birçok veriyle, araştırmacılar bazen yanlış şeyin kesin bir tahminini yapabilirler; Tam olarak yanlış olabilirler (McFarland and McFarland 2015) . Literary Digest fiyaskosunun ikinci ana dersi, araştırmacıların, tahminlerini yaparken örneklerinin nasıl toplandığını hesaba katmaları gerektiğidir. Başka bir deyişle, Literary Digest anketindeki örnekleme süreci bazı katılımcılara sistematik olarak çarpıtıldığından, araştırmacıların bazı katılımcıları diğerlerinden daha fazla ağırlıklandıran daha karmaşık bir tahmin sürecini kullanmaları gerekiyordu. Bu bölümün ilerleyen bölümlerinde, size, bu aşamalardan, daha iyi tahminler yapabilmenizi sağlayacak bir ağırlıklandırma prosedürü (tabakalaşma sonrası) göstereceğim.