Büyük veri kümeleri sona bir yoludur; kendileri içinde bir amaç değildir.
Büyük veri kaynaklarının en çok tartışılan özelliği, BÜYÜK olduklarıdır. Örneğin, pek çok makale, analiz ettikleri veriler hakkında - ve bazen de övünerek - tartışmaya başlar. Örneğin, Google Books corpus'ta kelime kullanım eğilimlerini inceleyen Science'da yayınlanan bir makale aşağıdakileri içermektedir (Michel et al. 2011) :
“[Bizim] cesedimiz 500 milyardan fazla kelime, İngilizce (361 milyar), Fransızca (45 milyar), İspanyolca (45 milyar), Almanca (37 milyar), Çince (13 milyar), Rusça (35 milyar) ve İbranice içerir. (2 milyar). En eski eserler 1500'lü yıllarda yayınlandı. İlk on yıl, birkaç yüz bin kelime içeren, yılda sadece birkaç kitap ile temsil edilmektedir. 1800'e gelindiğinde, cenaze yılda 98 milyon kelime büyür; 1900, 1,8 milyar; ve 2000, 11 milyar. Ceset bir insan tarafından okunamaz. Sadece 2000 yılından sadece İngilizce dil girişlerini okumaya çalışmış olsaydınız, 200 kelime / dk'lık makul hızda, yiyecek veya uyku için kesinti olmaksızın, 80 yıl sürecektir. Harf dizisi insan genomundan 1000 kat daha uzundur: Eğer düz bir çizgide yazmış olsaydınız, Ay'a ulaşır ve 10 defa geri döner. ”
Bu verilerin ölçeği hiç şüphesiz etkileyici ve biz de Google Kitaplar ekibinin bu verileri kamuya açıklamasından dolayı şanslıyız (aslında, bu bölümün sonundaki bazı faaliyetler bu verileri kullanıyor). Ancak, böyle bir şey gördüğünüzde şunu sormalısınız: tüm bu veriler gerçekten bir şey yapıyor mu? Veriler Ay'a ve sadece bir kez geri ulaşabilirse aynı araştırmayı yapmış olabilirler mi? Eğer veriler sadece Everest Dağı'nın tepesine veya Eyfel Kulesi'nin tepesine ulaşabilirse?
Bu durumda, yaptıkları araştırma aslında, uzun bir zaman diliminde çok büyük bir sözcükler bütünü gerektiren bazı bulgulara sahiptir. Örneğin, keşfettikleri bir şey, dilbilgisinin evrimi, özellikle düzensiz fiil çekimi oranındaki değişikliklerdir. Bazı düzensiz fiiller oldukça nadir olduğundan, zaman içindeki değişiklikleri tespit etmek için büyük miktarda veriye ihtiyaç vardır. Bununla birlikte, araştırmacılar, büyük veri kaynağının büyüklüğünü bir son olarak ele alıyor gibi görünüyor; “daha fazla veriyi nasıl ezberleyebileceğime bak” - daha önemli bir bilimsel hedefe ulaşmaktan çok daha önemli.
Tecrübemde, nadir olayların incelenmesi, büyük veri setlerinin etkinleştirmeye yöneldiği üç spesifik bilimsel amaçtan biridir. İkincisi, Raj Chetty ve meslektaşlarının (2014) ABD'deki sosyal hareketlilik üzerine yaptığı bir çalışma ile gösterilebileceği gibi heterojenlik çalışmasıdır. Geçmişte, birçok araştırmacı ebeveynlerin ve çocukların yaşam çıktılarını karşılaştırarak sosyal hareketlilik üzerinde çalışmışlardır. Bu literatürden tutarlı bir bulgu, avantajlı ebeveynlerin avantajlı çocuk sahibi olma eğiliminde olmalarıdır, ancak bu ilişkinin gücü zaman içinde ve ülkeler arasında farklılık göstermektedir (Hout and DiPrete 2006) . Daha yakın zamanlarda, Chetty ve meslektaşları vergi kayıtlarını Amerika Birleşik Devletleri'ndeki bölgeler arası nesiller arası hareketlilikteki heterojenliği tahmin etmek için 40 milyon insandan kullanabildiler (Şekil 2.1). Örneğin, bir çocuğun alt gelir dilimindeki bir aileden başlayarak ulusal gelir dağılımının en üst dilimine ulaşma olasılığının Kaliforniya San Jose'de yaklaşık% 13 olduğunu, ancak Charlotte, Kuzey Carolina'da yaklaşık% 4 olduğunu bulmuşlardır. Bir an için şekil 2.1'e bakarsanız, kuşaklar arası hareketliliğin neden bazı yerlerde diğerlerinden daha yüksek olduğunu merak etmeye başlayabilirsiniz. Chetty ve meslektaşları da tam olarak aynı soruna sahipti ve yüksek hareketlilik alanlarının daha az konut ayrılığı, daha az gelir eşitsizliği, daha iyi ilkokullar, daha büyük sosyal sermaye ve daha büyük aile istikrarı olduğunu gördüler. Elbette, bu korelasyonlar tek başına bu faktörlerin daha fazla hareketliliğe neden olduğunu göstermez, ancak Chetty ve meslektaşlarının sonraki çalışmalarda yaptıkları tam iş olan muhtemel mekanizmaları ortaya çıkarır. Bu projede verilerin büyüklüğünün nasıl önemli olduğuna dikkat edin. Chetty ve meslektaşları 40 milyondan fazla 40 bin kişinin vergi kayıtlarını kullansalardı, bölgesel heterojenliği tahmin edemezlerdi ve bu varyasyonu yaratan mekanizmaları tanımlamaya çalışmak için daha sonraki araştırmaları yapamazlardı.
Son olarak, nadir olayları incelemek ve heterojenliği incelemekle birlikte, büyük veri setleri de araştırmacıların küçük farklılıkları tespit etmelerine olanak tanımaktadır. Aslında, sektördeki büyük verilere odaklanmanın büyük bir kısmı bu küçük farklılıklar ile ilgilidir: Bir reklamdaki% 1 ile% 1,1 arasındaki tıklama oranı arasındaki farkı güvenilir şekilde tespit etmek, ekstra gelirde milyonlarca dolar anlamına gelebilir. Bununla birlikte, bazı bilimsel ortamlarda, bu küçük farklılıklar istatistiksel olarak anlamlı olsalar bile, özellikle önemli olmayabilir (Prentice and Miller 1992) . Ancak, bazı politika ayarlarında, toplu olarak görüntülendiklerinde önemli hale gelebilirler. Örneğin, iki halk sağlığı müdahalesi varsa ve biri diğerinden biraz daha etkiliyse, o zaman daha etkili müdahaleyi seçmek, binlerce ek can kurtarmasını sağlayabilir.
Her ne kadar bigness genellikle doğru kullanıldığında iyi bir özellik olsa da, bunun bazen kavramsal bir hataya yol açabileceğini fark ettim. Bazı nedenlerden dolayı, bigness araştırmacıların verilerinin nasıl üretildiğini görmezden gelmelerine yol açıyor gibi görünüyor. Bilinç, rastgele hata hakkında endişelenme ihtiyacını azaltırken, aslında sistematik hatalar, verilerin nasıl oluşturulduğuna dair önyargılardan kaynaklanan aşağıda tanımlayacağım hata türleri hakkında endişelenme ihtiyacını artırır . Örneğin, bu bölümde daha sonra açıklayacağım bir projede, araştırmacılar 11 Eylül 2001'de terörist saldırıya karşı tepkinin yüksek çözünürlüklü duygusal bir zaman çizelgesini üretmek için üretilen mesajları kullandılar (Back, Küfner, and Egloff 2010) . Araştırmacılar çok sayıda mesaja sahip olduklarından, gözlemledikleri örüntülerin - gün boyunca öfkenin arttığını - endişelenen varyasyonlarla açıklanıp açıklanamayacağı konusunda endişelenmelerine gerek yoktu. Bu kadar çok veri vardı ve model tüm istatistiksel istatistiksel testlerin bunun gerçek bir model olduğunu öne sürdüğü kadar açıktı. Ancak, bu istatistiksel testler verilerin nasıl oluşturulduğunun bilgisizliğiydi. Aslında, birçok modelin gün boyunca daha fazla ve anlamsız mesajlar üreten tek bir botla ilişkilendirilebileceği ortaya çıktı. Bu botun kaldırılması, makaledeki bazı önemli bulguları tamamen ortadan (Pury 2011; Back, Küfner, and Egloff 2011) . Basitçe, sistematik hata hakkında düşünmeyen araştırmacılar, otomatik bir bot tarafından üretilen anlamsız mesajların duygusal içeriği gibi önemsiz bir miktarın kesin bir tahminini almak için büyük veri setlerini kullanma riskiyle karşı karşıyadır.
Sonuç olarak, büyük veri kümeleri kendi içinde bir son değildir, ancak nadir olayların incelenmesi, heterojenlik tahmini ve küçük farklılıkların tespiti dahil olmak üzere belirli türden araştırmalara olanak sağlayabilir. Büyük veri setleri de, bazı araştırmacıların, verilerin nasıl oluşturulduğunu görmezden gelmelerine yol açıyor gibi görünmektedir; bu da, önemsiz bir miktarın kesin bir tahminini elde etmelerine yol açabilir.