Büyük verileriniz ne kadar büyük olursa olsun, muhtemelen istediğiniz bilgiye sahip değilsiniz.
Çoğu büyük veri kaynağı, araştırmanız için isteyeceğiniz bilgilere sahip olmadıkları için eksiktir . Bu, araştırma dışındaki amaçlarla oluşturulmuş verilerin ortak bir özelliğidir. Birçok sosyal bilimci, ihtiyaç duyulan soruyu sormayan mevcut bir anket gibi, eksiklikle uğraşma deneyimine zaten sahipti. Ne yazık ki, eksiklik sorunları büyük verilerde daha fazla olma eğilimindedir. Benim deneyimlerime göre, büyük veriler sosyal araştırmalar için yararlı üç tür bilgiyi kaçırıyor: katılımcılarla ilgili demografik bilgiler, diğer platformlardaki davranışlar ve teorik yapıları işlevsel hale getirmek için veriler.
Üç tür eksiklikten, teorik yapıları işlemek için eksik veri sorunu çözmek en zor olanıdır. Ve tecrübelerime göre, çoğu zaman yanlışlıkla gözden kaçıyor. Kabaca, teorik yapılar , sosyal bilimcilerin teorik bir yapıyı inceledikleri ve işlevsel hale getirdikleri, bu yapıyı gözlemlenebilir verilerle ele geçirmenin bir yolunu öneren soyut fikirlerdir. Ne yazık ki, bu basit sondaj süreci genellikle oldukça zor çıkıyor. Örneğin, daha zeki olan insanların daha fazla para kazandığını iddia eden basit iddiayı ampirik olarak test etmeye çalışalım. Bu iddiayı test etmek için “istihbarat” ölçmeniz gerekir. Ama zeka nedir? Gardner (2011) aslında sekiz farklı zeka biçiminin olduğunu savundu. Ve bu zeka biçimlerini doğru bir şekilde ölçebilecek prosedürler var mı? Psikologların muazzam miktarda çalışmasına rağmen, bu soruların hala kesin cevapları yoktur.
Bu nedenle, nispeten basit bir iddia - daha zeki olan daha fazla para kazananlar bile - ampirik olarak değerlendirmek zor olabilir, çünkü verilerdeki teorik yapıları işlemek zor olabilir. Önemli fakat operasyonelleştirilmesi zor olan diğer teorik yapı örnekleri arasında “normlar”, “sosyal sermaye” ve “demokrasi” yer alır. Sosyal bilimciler kuramsal yapılar ile veri yapısı geçerliliği arasındaki (Cronbach and Meehl 1955) . Yapıların bu kısa listesinin öne sürdüğü gibi, yapı geçerliliği, sosyal bilimcilerin çok uzun zamandır mücadele ettikleri bir sorundur. Fakat benim deneyimlerimde, yapı geçerliliği sorunları, araştırma amaçları için yaratılmayan verilerle çalışırken daha da fazladır (Lazer 2015) .
Bir araştırma sonucunu değerlendirirken, yapı geçerliliğini değerlendirmek için hızlı ve kullanışlı bir yol, genellikle yapılarla ifade edilen ve kullanılan veriler açısından yeniden ifade edilen sonucu almaktır. Örneğin, daha zeki olan kişilerin daha fazla para kazandığını gösteren iki varsayımsal çalışmayı düşünün. İlk çalışmada, araştırmacı, Raven Progressive Matrices Test (iyi çalışılmış analitik zeka testi) (Carpenter, Just, and Shell 1990) üzerinde iyi puan alan kişilerin, vergi beyannamelerinde daha yüksek gelir elde ettiklerini bulmuşlardır. İkinci çalışmada, araştırmacı, daha uzun kelime kullanan Twitter'daki insanların lüks markalardan söz etme olasılıklarının daha yüksek olduğunu bulmuştur. Her iki durumda da, bu araştırmacılar daha zeki olan insanların daha fazla para kazandığını gösterdiklerini iddia edebilirler. Bununla birlikte, ilk çalışmada, teorik yapılar, veriler tarafından iyi bir şekilde işlevselleştirilirken, ikincisinde de değildir. Ayrıca, bu örnekte gösterildiği gibi, daha fazla veri yapı geçerliliği ile ilgili sorunları otomatik olarak çözmemektedir. İkinci çalışmanın sonuçlarından bir milyon tweet, bir milyar tweet veya bir trilyon tweet içerip içermediğinden şüphe etmelisiniz. Yapı geçerliliği fikrine aşina olmayan araştırmacılar için, tablo 2.2, dijital iz verilerini kullanarak teorik yapıları işlevselleştiren bazı çalışma örnekleri sunmaktadır.
Veri kaynağı | Teorik yapı | Referanslar |
---|---|---|
Bir üniversiteden e-posta kayıtları (yalnızca meta veriler) | Sosyal ilişkiler | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo'daki sosyal medya mesajları | Sivil katılım | Zhang (2016) |
E-posta bir firmadan (meta veri ve tam metin) giriş yapar | Bir organizasyonda kültürel uyum | Srivastava et al. (2017) |
Teorik yapıları yakalamak için eksik verilerin problemi çözülmek için oldukça zor olsa da, diğer ortak eksiklik türleri için ortak çözümler vardır: eksik demografik bilgiler ve diğer platformlardaki davranışlarla ilgili eksik bilgiler. İlk çözüm, ihtiyacınız olan verileri toplamaktır; Sizi, anketlerden bahsettiğimde 3. bölümde anlatacağım. İkinci ana çözüm, bilim insanlarının kullanıcı-özellik çıkarımını ne dediğini ve sosyal bilimcilerin empati çağıracağını yapmaktır . Bu yaklaşımda, araştırmacılar bazı insanlar üzerinde sahip oldukları bilgileri diğer insanların niteliklerini çıkarmaları için kullanırlar. Üç olası bir çözüm, çoklu veri kaynaklarını birleştirmektir. Bu sürece bazen kayıt bağlantısı denir. Bu süreç için benim en sevdiğim metafor, Dunn (1946) tarafından, kayıt bağlantısı üzerine yazılmış ilk yazının ilk paragrafında yazılmıştır:
“Dünyadaki her insan bir Hayat Kitabı yaratır. Bu Kitap doğumla başlar ve ölümle biter. Sayfaları hayattaki başlıca olayların kayıtlarından oluşur. Kayıt bağlantısı, bu kitabın sayfalarını bir birime toplama işlemine verilen addır. ”
Dunn bu pasajı yazdığında, Hayat Kitabının doğum, evlilik, boşanma ve ölüm gibi büyük yaşam olaylarını içerebileceğini hayal ediyordu. Ancak, insanlar hakkında çok fazla bilgi kaydedildiğine göre, Hayat Kitabı inanılmaz farklı bir portre olabilir, eğer bu farklı sayfalar (yani, dijital izlerimiz) birbirine bağlanabiliyorsa. Bu Hayat Kitabı araştırmacılar için harika bir kaynak olabilir. Ancak, 6. bölümde (Etik) açıklayacağım gibi, her türlü etik dışı amaç için kullanılabilecek bir harabe (Ohm 2010) veritabanı da denilebilir.