Büyük veri kaynakları her yerdedir, ancak bunları sosyal araştırma için kullanmak zor olabilir. Tecrübemde, veri için “bedava öğle yemeği yok” kuralı gibi bir şey var: eğer bir çok şeyi toplayıp toplamazsanız, o zaman muhtemelen bu konuda çok fazla düşünmeniz gerekecek. analiz ediyor.
Günümüzün büyük veri kaynakları - ve muhtemelen yarın - 10 karaktere sahip olma eğilimindedir. Bunlardan üçü genellikle (ama her zaman değil) araştırma için faydalıdır: büyük, her zaman açık ve reaktif değildir. Yedi genellikle (ama her zaman değil) araştırma için sorunludur: eksik, erişilemez, temsili olmayan, sürüklenen, algoritmik olarak karışık, kirli ve hassas. Bu özelliklerin birçoğu nihayetinde ortaya çıkmaktadır, çünkü sosyal araştırma amacıyla büyük veri kaynakları yaratılmamıştır.
Bu bölümdeki fikirlere dayanarak, büyük veri kaynaklarının sosyal araştırmalar için en değerli olacağı üç ana yol olduğunu düşünüyorum. İlk olarak, araştırmacıların rakip teorik tahminler arasında karar vermelerini sağlayabilirler. Bu tür çalışmalara örnek olarak Farber (2015) (New York Taksi sürücüleri) ve King, Pan, and Roberts (2013) (Çin'deki sansür) dahildir. İkincisi, büyük veri kaynakları, artık yayınlama yoluyla politika için geliştirilmiş ölçüm sağlayabilir. Bu tür bir çalışmanın örneği Ginsberg et al. (2009) (Google Grip Eğilimleri). Son olarak, büyük veri kaynakları araştırmacıların deney yapmadan nedensel tahminler yapmalarına yardımcı olabilir. Bu tür çalışmalara örnek olarak Mas and Moretti (2009) (verimlilik üzerindeki akran etkileri) ve Einav et al. (2015) (başlangıç fiyatının eBay'deki ihalelere etkisi). Bununla birlikte, bu yaklaşımların her biri, araştırmacıların, tahmin etmek için önemli olan bir miktarın tanımı ya da rakip tahminleri yapan iki teori gibi, veriye çok şey getirmelerini gerektirme eğilimindedir. Bu yüzden, büyük veri kaynaklarının neler yapabileceğini düşünmenin en iyi yolu, ilginç ve önemli sorular sorabilecek araştırmacılara yardımcı olabilecekleridir.
Sonuç olarak, büyük veri kaynaklarının veri ve teori arasındaki ilişki üzerinde önemli bir etkiye sahip olabileceğini düşünmeye değer olduğunu düşünüyorum. Şimdiye kadar, bu bölüm teori odaklı ampirik araştırma yaklaşımını ele almıştır. Ancak büyük veri kaynakları, araştırmacıların deneysel olarak teorileştirmeyi de mümkün kılmaktadır. Yani, ampirik gerçeklerin, desenlerin ve bulmacaların dikkatli bir şekilde birikmesiyle, araştırmacılar yeni teoriler kurabilirler. Bu alternatif, teoriye ilk-veri yaklaşımı yeni değildir ve en zoru Barney Glaser ve Anselm Strauss (1967) tarafından topraklanmış teori çağrısı ile eklemlenmiştir. Bununla birlikte, bu veri-ilk yaklaşım, dijital çağda yapılan araştırmalar etrafında gazeteciliğin bazılarında iddia edildiği gibi “teorinin sonu” anlamına gelmemektedir (Anderson 2008) . Daha ziyade, veri ortamı değiştikçe, veri ve teori arasındaki ilişkide yeniden dengelenmeyi beklemeliyiz. Veri toplamanın pahalı olduğu bir dünyada, yalnızca teorilerin önerebileceği verileri toplamak en mantıklı olacaktır. Ancak, muazzam miktarda verinin ücretsiz olarak sunulduğu bir dünyada, bir veri-ilk yaklaşımını denemek mantıklıdır (Goldberg 2015) .
Bu bölümde de belirttiğim gibi, araştırmacılar insanları izleyerek çok şey öğrenebilirler. Önümüzdeki üç bölümde, veri koleksiyonumuzu şekillendirirsek ve insanlarla daha doğrudan sorular sorarak (bölüm 3), deneyler yürütürken (bölüm 4) ve hatta onları dahil ederek daha fazla ve farklı şeyler öğrenebileceğimizi anlatacağım. Araştırma sürecinde doğrudan (bölüm 5).