2.3.1.1 Büyük

Büyük veri kümeleri sona bir yoludur; kendileri içinde bir amaç değildir.

Büyük veri üç iyi özelliklerinin ilk en tartışılmıştır: bu büyük verilerdir. Birçok kişi, kişi başına bilgi bir sürü ya da zamanla birçok gözlemler: Bu veri kaynakları üç farklı şekilde büyük olabilir. Büyük bir veri kümesini sahip nadir olaylar okuyan küçük farklar tespit ve gözlemsel verilerden nedensel tahminlerde bulunurken, araştırma-ölçme heterojenite bazı özel türlerini tanır. Aynı zamanda ıslaklık belirli bir tip yol gibi görünüyor.

boyutu özellikle yararlı olduğu için ilk şey özel alt gruplar için tahminler yapmak için ortalamaların ötesine taşınıyor. Örneğin, Gary King Jennifer Pan ve Molly Roberts (2013) Çin'de sosyal medya mesajlar hükümet tarafından sansür olacağını olasılığını ölçülür. Tek başına silinmesi bu ortalama olasılık, hükümetin bazı konuları değil, diğerleri censors neden anlamak için çok yararlı değildir. kendi veri kümesi 11 milyon Mesajları dahil çünkü Ama, Kral ve arkadaşları da 85 ayrı kategoride (Pekin örneğin, pornografi, Tibet ve Trafik) yazılarda için sansür olasılığı için tahminler üretti. Farklı kategorilerde yayınlar için sansür olasılığını karşılaştırarak, hükümetin mesajların belirli türde censors nasıl ve neden daha iyi anlamak mümkün. 11 bin mesaj (yerine 11 milyon mesaj) ile, bu kategori özgü tahminler üretmek mümkün olmazdı.

İkincisi, boyut nadir olayların okuyor için özellikle yararlıdır. Örneğin, Goel ve arkadaşları (2015) tweets viral gidebilirsiniz farklı şekillerde okumak istedim. Yeniden tweets büyük kaskadlar son derece nadir yaklaşık biri olduğu için 3.000-onların analiz için yeterince büyük kaskadlar bulmak için bir milyardan fazla tweet çalışmak için gerekli.

Üçüncü olarak, büyük veri kümeleri küçük farklılıkları tespit etmek için araştırmacılar sağlar. Aslında, sektöründe büyük verilere odak çok bu küçük farklar hakkında: güvenilir ekstra gelir milyonlarca dolar içine çevirebilir bir reklamı% 1 ve% 1.1 tıklama oranı arasındaki farkın tespit. Bazı bilimsel ortamlarda, böyle küçük farklar (onlar istatistiksel olarak anlamlı olsa bile) önemli özellikle olmayabilir. toplamda bakıldığında Ancak, bazı politika ayarlarında, böyle küçük farklılıklar önemli hale gelebilir. Örneğin, iki halk sağlığı müdahaleleri ve bir sonra ek binlerce hayat kurtaran bitebileceğini daha etkili müdahale geçiş, biraz daha etkili bir diğerinden daha var eğer toplamak vardır.

Son olarak, büyük veri kümeleri büyük gözlemsel verilerden nedensel tahminler yapmak için yeteneğini artırır. Büyük veri setleri temelde, gözlemsel verilerden nedensel çıkarımlar yapma eşleşen ve doğal deneyler-iki teknik araştırmacılar gözlemsel gelen nedensel iddialarda bulunmak için geliştirilmiş olan veri-hem büyük büyük veri setleri yarar sorunları değişmez rağmen. Ben açıklamak ve ben araştırma stratejilerini açıklayan bu bölümün ilerleyen daha ayrıntılı olarak bu iddiayı göstermek gerekir.

büyüklük genellikle doğru kullanıldığında iyi bir özellik olsa da, ben büyüklük yaygın bir kavramsal hataya götürür fark ettik. Nedense, büyüklük kendi veri oluşturulan nasıl görmezden araştırmacıların yol gibi görünüyor. Büyüklük rastgele hata endişelenecek ihtiyacını azaltmak olsa da, aslında sistematik hatalar hakkında endişelenmenize gerek, ben bunun altında daha fazla anlatacağım tür hata verileri oluşturulur ve toplanan nasıl önyargıları ortaya çıkar artar. Küçük bir veri kümesi ise, rasgele hata ve sistematik hata hem önemli olabilir, ama büyük bir veri kümesi rasgele hata uzakta ortalama ve sistematik hata hakim olabilir edilir. Yanlış bir şey kesin bir tahmin almak için onların büyük veri setlerini kullanarak sona erecek sistematik hata hakkında sanmıyorum Araştırmacılar; onlar tam yanlış olacaktır (McFarland and McFarland 2015) .