Örnek olmayan genellemeler için temsili olmayan veriler kötüdür, ancak örneklem içi karşılaştırmalar için oldukça yararlı olabilir.
Bazı sosyal bilimciler, belirli bir ülkedeki tüm yetişkinler gibi iyi tanımlanmış bir popülasyondan olasılıklı bir rasgele örneklemden gelen verilerle çalışmaya alışkındırlar. Bu tür veriler temsili veriler olarak adlandırılır , çünkü örnek daha büyük popülasyonu “temsil eder”. Pek çok araştırmacı temsili verileri ödüllendirmektedir ve bazıları için temsili veriler titiz bilim ile eş anlamlıdır, oysa temsil edici olmayan veriler ise aşağılama ile eş anlamlıdır. En uç noktada, bazı şüpheciler, temsili olmayan verilerden hiçbir şeyin öğrenilemeyeceğine inanmaktadır. Eğer doğruysa, bu büyük veri kaynaklarından öğrenilebilecek şeyleri ciddi bir şekilde sınırlandıracaktır, çünkü bunların çoğu temsilci değildir. Neyse ki, bu şüpheciler sadece kısmen haklıdır. Temsili olmayan verilerin açıkça uygun olmadığı belirli araştırma hedefleri vardır, ancak bunun gerçekten yararlı olabileceği başka şeyler de vardır.
Bu ayrımı anlamak için, bilimsel bir klasik düşünelim: John Snow, Londra'daki 1853-54 kolera salgınını araştırdı. O zamanlar birçok doktor koleraya “kötü hava” dan geldiğine inanıyordu, ancak Snow bunun bulaşıcı bir hastalık olduğuna inanıyordu, belki de kanalizasyonla dolu içme suyuyla yayıldı. Bu fikri test etmek için Snow, şimdi doğal bir deney olarak adlandırabileceğimizden faydalandı. İki farklı su şirketi olan Lambeth ve Southwark & Vauxhall'ın kolera oranlarını karşılaştırdı. Bu şirketler benzer hanelara hizmet ettiler, ancak önemli bir şekilde farklılaşıyorlardı: 1849'da - salgın hastalığın başlamasından birkaç yıl önce - Lambeth, Londra'daki ana kanalizasyon tahliyesinden giriş noktasındaki giriş noktasını harekete geçirirken, Southwark & Vauxhall, giriş borusunu aşağı doğru akıyordu. kanalizasyon deşarjı. Kar, iki şirketin hizmet verdiği hanelerde koleradan ölüm oranlarını karşılaştırdığında, müşterilerinin lağım suyundan arındırılmış suyu tedarik eden Southwark & Vauxhall müşterilerinin koleradan ölme olasılığının 10 kat daha fazla olduğunu gördü. Bu sonuç, Kar'ın Londra'daki kişilerin temsili bir örneğine dayanmasa da, kolera nedeniyle ilgili argümanı için güçlü bilimsel kanıtlar sağlar.
Ancak bu iki şirketin verileri farklı bir soruyu cevaplamak için ideal olmazdı: Salgın sırasında Londra'daki kolera prevalansı neydi? Bu ikinci soru için de önemli olan, Londra'dan bir temsilci örneğinin olması daha iyi olurdu.
Snow'in çalışmasının gösterdiği gibi, temsili olmayan verilerin oldukça etkili olabileceği bazı bilimsel sorular var ve bunların uygun olmadığı başka şeyler de var. Bu iki tür soruyu ayırt etmenin bir ham yolu, bazı soruların örneklem içi karşılaştırmalarla ilgili olması ve bazılarının örnek dışı genellemelerle ilgili olmasıdır. Bu ayrım, epidemiyolojide bir başka klasik çalışma ile daha da açıklanabilir: sigara içmenin kansere neden olduğunu göstermede önemli rol oynayan İngiliz Doktorlar Çalışması. Bu çalışmada, Richard Doll ve A. Bradford Hill, birkaç yıl boyunca yaklaşık 25.000 erkek doktoru izlemiş ve ölüm oranları, çalışma başladığında sigara içtikleri miktara göre karşılaştırmıştır. Doll ve Hill (1954) güçlü bir maruz kalma-tepki ilişkisi bulmuşlardır: daha çok sayıda insan sigara içmiş, akciğer kanserinden ölme olasılığı daha yüksektir. Tabii ki, bu gruptaki erkek doktorlara dayanarak tüm İngiliz insanlar arasında akciğer kanseri prevalansını tahmin etmek akıllıca olmaz, ancak örneklem içi karşılaştırma sigara içmenin akciğer kanserine neden olduğuna dair kanıt sağlar.
Şimdi örneklem içi karşılaştırmalar ve örneklem dışı genellemeler arasındaki farkı gösterdim, iki uyarısı sırayla. Birincisi, bir erkek İngiliz doktor örneğinde bulunan bir ilişkinin kadın, İngiliz doktorlar veya erkek İngiliz fabrika işçileri veya dişi Alman fabrika işçileri ya da diğer birçok gruptan oluşan bir örnekte ne ölçüde yer alacağı hakkında doğal sorular vardır. Bu sorular ilginç ve önemlidir, ancak bir örneklemden bir popülasyona genelleştirebileceğimiz boyuttan farklıdırlar. Örneğin, erkek İngiliz doktorlarda bulunan sigara ve kanser arasındaki ilişkinin muhtemelen bu diğer gruplarda benzer olacağını düşündüğünüze dikkat edin. Bu ekstrapolasyon yeteneğiniz, erkek İngiliz doktorların herhangi bir popülasyondan olasılıksal rastlantısal bir örnek olması gerçeğinden kaynaklanmaz; daha ziyade, sigara ve kanseri birbirine bağlayan mekanizma anlayışından gelmektedir. Böylece çekildiği nüfusuna bir örnekten genelleme büyük ölçüde istatistiksel bir konudur, ancak başka gruba bir grupta bulunan desen taşınabilirliği ilgili sorular büyük ölçüde istatistiksel olmayan bir konudur (Pearl and Bareinboim 2014; Pearl 2015) .
Bu noktada, bir kuşkucu, sosyal örüntülerin çoğunun, gruplar arasında sigara ve kanser arasındaki ilişkiden daha az nakledilebileceğine işaret edebilir. Ve katılıyorum. Kalıpların nakledilebileceği ölçüde, sonuç olarak teori ve kanıtlara dayalı olarak karar verilmesi gereken bilimsel bir sorudur. Otomatik olarak kalıpların taşınabilir olacağı varsayılmamalıdır, ne de taşınmayacakları varsayılmalıdır. Ulaşılabilirlik ile ilgili bu biraz soyut sorular, lisans öğrencilerine çalışarak, insan davranışları hakkında ne kadar araştırmacı tarafından öğrenilebileceği konusundaki tartışmaları takip ettiyseniz size tanıdık olacaktır (Sears 1986, [@henrich_most_2010] ) . Ancak bu tartışmalara rağmen, araştırmacıların lisans öğrencilerine bir şey öğrenemediklerini söylemek mantıksız olurdu.
İkinci uyarı, temsili olmayan verilere sahip araştırmacıların çoğu Kar veya Bebek ve Tepesi kadar dikkatli olmadıklarıdır. Bu yüzden, araştırmacılar, temsilci olmayan verilerden örneklem dışı bir genelleme yapmayı denediğinde neyin ters gidebileceğini göstermek için, Andranik Tumasjan ve meslektaşlarının (2010) 2009 Alman parlamento seçimleriyle ilgili bir çalışmadan bahsetmek istiyorum. 100.000'den fazla tweet'i analiz ederek, bir siyasi partiden bahseden tweetlerin oranının, partinin parlamento seçimlerinde aldıkları oyların oranıyla eşleştiğini gördüler (şekil 2.3). Diğer bir deyişle, esas olarak özgür olan Twitter verilerinin, temsili verilere vurgu yapmaları nedeniyle pahalı olan geleneksel kamuoyu anketlerinin yerini alabileceği ortaya çıkmıştır.
Muhtemelen Twitter hakkında bildiğiniz şeyleri göz önünde bulundurarak, bu sonuca hemen şüpheyle yaklaşmalısınız. 2009'da Twitter'daki Almanlar, Alman seçmenlerinin olasılıklı bir rasgele örneği değildi ve bazı tarafların taraftarları, siyaseti diğer tarafların destekçilerinden çok daha fazla tweet atabiliyorlardı. Dolayısıyla, hayal edebileceğiniz olası tüm önyargıların bir şekilde iptal edileceği, böylelikle bu verinin Alman seçmenlerinin doğrudan yansıyacağı şeklinde şaşırtıcı görünmektedir. Aslında, Tumasjan et al. (2010) gerçek olamayacak kadar iyi olduğu ortaya çıktı. Andreas Jungherr, Pascal Jürgens ve Harald Schoen (2012) tarafından hazırlanan bir makale, orijinal analizin aslında Twitter'da en çok bahseden siyasi partiyi dışarıda bıraktığına işaret etti: Korsan Parti, hükümet düzenlemesiyle mücadele eden küçük bir parti İnternetin Korsan Parti analize dahil edildiğinde, Twitter'ın seçim sonuçlarının korkunç bir yordayıcısı olduğu belirtiliyor (Şekil 2.3). Bu örnekte gösterildiği gibi, örnek dışı genellemeler yapmak için temsilci olmayan büyük veri kaynaklarını kullanmak çok yanlış olabilir. Ayrıca, 100.000 tweet bulunduğunun aslında ilgisiz olduğunu fark etmelisiniz: Birçok temsili olmayan veriler hala temsili değil, anketleri tartıştığımda 3. Bölüm'e geri döneceğim bir tema.
Sonuç olarak, birçok büyük veri kaynağı iyi tanımlanmış bazı popülasyonlardan temsili örnekler değildir. Örneklemden, çizildiği popülasyona kadar genelleme sonuçları gerektiren sorular için bu ciddi bir sorundur. Ancak örneklem içi karşılaştırmalar hakkındaki sorular için, araştırmacılar örneklerinin özellikleri hakkında açık oldukları ve teorik veya ampirik kanıtlarla taşınabilme konusundaki iddiaları destekledikleri sürece, temsili olmayan veriler güçlü olabilir. Aslında, umuyorum ki, büyük veri kaynakları araştırmacıların birçok temsilci olmayan grupta örneklem içi karşılaştırmalar yapmalarına olanak tanıyacak ve tahminimce birçok farklı gruptan elde edilen tahminlerin olasılıksal bir rassaldan tek bir tahminden ziyade sosyal araştırmayı ilerletmek için daha fazla çaba göstereceğidir. Numune.