Iyi verilerle iyi bir soru birleştirmek eğer basit sayma ilginç olabilir.
Her ne kadar sofistike bir dille konuşulsa da, birçok sosyal araştırma gerçekten sadece bir şeyleri saymaktadır. Büyük veri çağında, araştırmacılar her zamankinden daha fazla sayabiliyorlar, ancak bu, sadece gelişigüzel saymaya başlaması gerektiği anlamına gelmez. Bunun yerine, araştırmacılar şunu sormalıdır: Hangi şeyler saymaya değer? Bu tamamen öznel bir mesele gibi görünebilir, ancak bazı genel kalıplar vardır.
Çoğu zaman öğrenciler sayma araştırmalarını şunları söyleyerek motive ederler: Hiç kimsenin daha önce sayılmadığı bir şeyi sayacağım. Örneğin, bir öğrenci birçok insanın göçmenler üzerinde çalıştığını söyleyebilir ve birçok insan ikizler üzerinde çalışmıştır, ancak hiç kimse göçmen ikizleri üzerinde çalışmamıştır. Tecrübemde, motivasyonu yokluğum olarak adlandırdığım bu strateji, genellikle iyi bir araştırmaya yol açmaz. Olmaksızın motivasyon, orada bir delik olduğunu söylemek gibi bir şeydir ve bunu doldurmak için çok sıkı çalışacağım. Ama her deliğin doldurulması gerekmiyor.
Yokluğa itimat etmek yerine, daha iyi bir stratejinin, önemli veya ilginç (ya da her ikisi de ideal) olan araştırma soruları aramak olduğunu düşünüyorum. Bu terimlerin her ikisinin de tanımlanması biraz zor ama önemli araştırmaları düşünmenin bir yolu da, ölçülebilir bir etkisinin olması ya da politika yapıcılar tarafından önemli bir karar vermesidir. Örneğin, işsizlik oranının ölçülmesi önemlidir çünkü politika kararlarını yönlendiren ekonominin bir göstergesidir. Genel olarak, araştırmacıların neyin önemli olduğuna dair oldukça iyi bir fikirleri olduğunu düşünüyorum. Yani, bu bölümün geri kalanında sayımın ilginç olduğunu düşündüğüm iki örnek vereceğim. Her durumda, araştırmacılar gelişigüzel saymıyorlardı; daha ziyade, sosyal sistemlerin nasıl çalıştığı hakkında daha genel fikirlere dair önemli bilgiler ortaya koyan çok özel ortamlarda sayıyorlardı. Başka bir deyişle, bu özel sayma alıştırmalarını ilginç kılan şeylerin çoğu, verilerin kendisi değil, daha genel fikirlerden kaynaklanmaktadır.
Saymanın basit gücünün bir örneği, Henry Farber'in (2015) New York Şehri taksi şoförlerinin davranışları üzerine yaptığı çalışmalardan gelmektedir. Bu grup doğal olarak ilginç görünmese de, işgücü ekonomisinde birbiriyle rekabet eden iki kuramı test etmek için stratejik bir araştırma sitesidir . Farber'in araştırması için, taksi şoförlerinin çalışma ortamı hakkında iki önemli özellik var: (1) saatlik ücretler, hava koşulları gibi faktörlere bağlı olarak günden güne değişiyor ve (2) İş her gün kararlarına göre dalgalanabilir. Bu özellikler, saatlik ücretler ve çalışılan saatler arasındaki ilişki hakkında ilginç bir soruna yol açar. Ekonomideki neoklasik modeller, taksi şoförlerinin saatlik ücretlerin daha yüksek olduğu günlerde daha fazla çalışacağını öngörmektedir. Alternatif olarak, davranışsal ekonomi modelleri, tam tersini öngörür. Eğer sürücüler belirli bir gelir hedefi belirlediyse - günlük 100 $ demek - ve bu hedefe ulaşana kadar çalışıyorlarsa, sürücüler daha fazla para kazandıkları günlerde daha az çalışacaklardır. Örneğin, hedef bir kazanan olsaydınız, iyi bir günde dört saat (saatte 25 dolar) ve kötü bir günde beş saat (saatte 20 dolar) çalışabilirsiniz. Öyleyse, sürücüler, daha yüksek saatlik ücretlerle (neoklasik modellerin öngördüğü şekilde) veya daha düşük saatlik ücretlerle (davranışsal ekonomik modellerin öngördüğü gibi) daha fazla saatle günlerce çalışmaktadırlar mı?
Bu soruyu cevaplamak için Farber, 2009'dan 2013'e kadar New York City kabinler tarafından alınan her taksi gezisi hakkında veri topladı, şu anda kamuya açık veriler. Şehrin kullanması gereken elektronik sayaçlarla toplanan bu veriler, her yolculuk hakkında bilgi içerir: başlangıç zamanı, başlangıç konumu, bitiş zamanı, bitiş yeri, ücret ve ipucu (ipucu bir kredi kartıyla ödenmişse) . Bu taksi ölçer verilerini kullanarak Farber, çoğu sürücünün ücretlerin daha yüksek olduğu günlerde, neoklasik teori ile tutarlı olarak daha fazla çalıştığını tespit etti.
Bu ana bulguya ek olarak, Farber, heterojenlik ve dinamiklerin daha iyi anlaşılması için verilerin büyüklüğünü kullanabilmiştir. Zamanla, yeni sürücülerin kademeli olarak yüksek ücretli günlerde daha fazla saat çalışmayı öğrendiğini (örneğin neoklasik modelin öngördüğü gibi davranmayı öğrendiklerini) fark etti. Ve daha çok hedef kazananlar gibi davranan yeni sürücüler, taksi şoförleri olmayı bırakma eğilimindedir. Mevcut sürücülerin gözlemlenen davranışlarını açıklamaya yardımcı olan bu daha ince bulguların ikisi de veri kümesinin büyüklüğü nedeniyle mümkün olmuştur. Kısa bir süre içinde az sayıdaki taksi (Camerer et al. 1997) kâğıt açma kâğıtlarını kullanan daha önceki çalışmalarda tespit edilmeleri imkansızdı (Camerer et al. 1997) .
Farber'in çalışması, büyük bir veri kaynağı kullanan bir araştırma için en iyi senaryoya yakındı çünkü şehir tarafından toplanan veriler, Farber'in toplayacağı verilere oldukça yakındı (Farber'in toplamda veri istemesi bir fark olurdu) ücretler - ücretler ve ipuçları - ancak şehir verileri yalnızca kredi kartıyla ödenen ipuçlarını içerir. Ancak, tek başına veriler yeterli değildi. Farber'in araştırmasının anahtarı, bu özel ortamın ötesinde daha büyük etkileri olan bir soruyu, verilere ilginç bir soru getiriyordu.
Bir şeyler saymanın ikinci bir örneği, Çin hükümeti tarafından çevrimiçi sansürle ilgili Gary King, Jennifer Pan ve Molly Roberts (2013) tarafından yapılan araştırmalardan gelmektedir. Ancak bu durumda araştırmacılar kendi büyük verilerini toplamak zorundaydılar ve verilerin eksik olduğu gerçeğiyle uğraşmak zorunda kaldılar.
Kral ve meslektaşları, Çin'deki sosyal medya gönderilerinin on binlerce insanı içerdiği düşünülen muazzam bir devlet aygıtı tarafından sansüre uğramış olmaları nedeniyle motive oldular. Ancak araştırmacılar ve vatandaşlar, bu sansürlerin hangi içeriğin nasıl silineceğine nasıl karar verdiğine dair pek bir fikre sahip değiller. Çin’in akademisyenleri, hangi tür yayınların silinme olasılığının yüksek olduğu konusunda çelişen beklentilere sahipler. Bazıları sansürlerin devlet eleştiren yayınlara odaklandığını düşünürken, diğerleri protestolar gibi kolektif davranışları teşvik eden yayınlara odaklandıklarını düşünüyor. Bu beklentilerden hangisinin doğru olduğunu bulmak, araştırmacıların Çin ve sansür ile meşgul olan diğer otoriter hükümetleri nasıl anladıklarına ilişkin çıkarımlara sahiptir. Bu nedenle, King ve meslektaşları yayınlanmış ve daha sonra silinmiş yayınlar ile yayınlanmış ve daha sonra silinmiş yayınları karşılaştırmak istediler.
Bu Mesajları Toplama farklı bir sayfa ilgili mesajları düzenleri bulma ve daha sonra daha sonra silindi görmek için bu konuları yeniden ziyaret ile 1.000 'den fazla Çinli sosyal medya siteleri-her tarama şaşırtıcı mühendislik Feat çıkıyor. büyük ölçekli web tarama ile ilişkili normal bir mühendislik problemlerine ek olarak, bu projenin birçok sansürlü mesajlar 24 saatten az aşağı alınır çünkü son derece hızlı olması gereken ilave meydan vardı. Başka bir deyişle, yavaş paletli sansür edildi mesajların çok özledim olacaktır. Dahası, tarayıcıların sosyal medya siteleri çalışmaya tepki olarak kendi politikalarını değiştirmek, aksi takdirde erişimi engellemek veya diye algılama kaçma sırasında tüm bu veri toplama yapmak zorunda.
Bu büyük mühendislik görevinin tamamlandığı zaman, Kral ve meslektaşları, her biri varsayılan bir duyarlılık seviyesine sahip, 85 farklı başlıklı konu üzerinde yaklaşık 11 milyon mesaj elde etmişlerdir. Örneğin, yüksek duyarlılık konusu, muhalif sanatçı Ai Weiwei'dir; Orta duyarlılık konusu, Çin para biriminin takdir ve devalüasyonudur ve düşük hassasiyetli bir konu Dünya Kupasıdır. Bu 11 milyonluk mesajın yaklaşık 2 milyonu sansürlendi. Şaşırtıcı bir şekilde, King ve meslektaşları, son derece hassas konulardaki yayınların, orta ve düşük hassasiyetli konulardaki yayınlardan sadece biraz daha fazla sansürlendiğini tespit etti. Diğer bir deyişle, Çin sansürlerinin, Ai Weiwei'den Dünya Kupası'ndan bahseden bir görev olarak bahseden bir yazıyı sansüre uğratma olasılığı yüksektir. Bu bulgular, hükümetin hassas konulardaki tüm mesajları sansürlediği fikrini desteklememektedir.
Bununla birlikte, sansür oranının konuyla ilgili bu basit hesaplaması yanıltıcı olabilir. Örneğin, hükümet Ai Weiwei'yi destekleyen yayınları sansürleyebilir, ancak onun için kritik olan yayınları bırakabilir. Yayınları daha dikkatli bir şekilde ayırt etmek için araştırmacıların her gönderinin duygularını ölçmesi gerekiyordu. Ne yazık ki, çok çalışmasına rağmen, önceden var olan sözlükleri kullanarak tam otomatik algılama yöntemleri, pek çok durumda hala pek iyi değildir (bölüm 2.3.9'da açıklanan 11 Eylül 2001 tarihli duygusal bir zaman çizelgesini oluşturan sorunlara geri dönün). Bu nedenle, Kral ve meslektaşlarının 11 milyon sosyal medya mesajını, (1) devleti eleştirip eleştirmediklerini, (2) devleti desteklediklerini veya (3) olaylarla ilgili konuyla ilgili veya olgusal raporları olup olmadığını belirtmeleri gerekiyordu. Bu, büyük bir işe benziyor, ancak veri biliminde yaygın olan ancak sosyal bilimlerde nispeten nadir görülen güçlü bir hile kullanarak çözüldü: denetimli öğrenme ; Şekil 2.5'e bakınız.
Öncelikle, ön işlem olarak adlandırılan bir adımda, araştırmacılar sosyal medya yazılarını bir doküman-dönem matrisine dönüştürdüler , burada her bir belge için bir satır ve yazının belirli bir kelimeyi (örneğin, protesto veya trafik) içerip içermediğini kaydeden bir sütun vardı. . Daha sonra, bir grup araştırma görevlisi, bir yazı örneğinin duygularını elle etiketledi. Daha sonra, bu el-etiketli veriyi, özelliklerine dayanarak bir gönderinin duyarlılığını ortaya çıkarabilecek bir makine öğrenme modeli oluşturmak için kullandılar. Son olarak, tüm 11 milyon mesajın duygularını tahmin etmek için bu modeli kullandılar.
Böylece, 11 milyon mesajın manuel olarak okunması ve etiketlenmesi yerine - ki bu mantıksal olarak imkansız olurdu - Kral ve meslektaşları elle az sayıda gönderiyi etiketlediler ve daha sonra tüm yayınların duygularını tahmin etmek için denetimli öğrenmeyi kullandılar. Bu analizi tamamladıktan sonra, bir sürgünün silinme olasılığının, devletin devleti ya da devleti destekleyip desteklemediği ile alakasız olduğu sonucuna varmışlardır.
Sonunda, King ve meslektaşları, yalnızca üç tür mesajın düzenli olarak sansürlendiğini keşfettiler: pornografi, sansür eleştirisi ve kolektif eylem potansiyeline sahip olanlar (yani, büyük ölçekli protestolara yol açma olasılığı). Silinen çok sayıda gönderiyi ve silinmemiş yayınları gözlemleyerek, Kral ve meslektaşları sansürcülerin sadece izleyerek ve sayarak nasıl çalıştığını öğrenebildiler. Dahası, bu kitapta ortaya çıkacak bir temayı ön plana çıkarıyor, kullandıkları gözetimli öğrenme yaklaşımı - bazı çıktıların elle etiketlenmesi ve ardından geri kalanını etiketlemek için bir makine öğrenme modeli oluşturma - dijital çağda sosyal araştırmalarda çok yaygındır. . 3. Bölümde (Soru sorma) ve 5'te (Toplu iş birliği oluşturma) şekil 2.5'e çok benzeyen resimler göreceksiniz; Bu, çoklu bölümlerde görünen birkaç fikirden biridir.
Bu örnekler - New York'taki taksi şoförlerinin çalışma davranışı ve Çin hükümetinin sosyal medya sansür davranışları - büyük veri kaynaklarının nispeten basit sayımının bazı durumlarda ilginç ve önemli araştırmalara yol açabileceğini göstermektedir. Ancak her iki durumda da, araştırmacılar büyük veri kaynağına ilginç sorular getirdiler; veri tek başına yeterli değildi.