Pek çok insandan büyük bir veri kaynağı olan birkaç kişiden anket verilerini birleştirmek için bir tahmin modelinin kullanılmasını istemek.
Anketi ve büyük veri kaynaklarını birleştirmenin farklı bir yolu, çoğaltılan soranı arayacağım bir süreçtir. Amplifiye edilmiş bir sorgulamada, bir araştırmacı, veri kaynağı ile tek başına mümkün olmayan bir ölçekte veya tanecikli bir şekilde tahminler üretmek için küçük bir miktardaki anket verisini büyük bir veri kaynağı ile birleştirmek için bir tahmin modelini kullanır. Güçlenen soranın önemli bir örneği, yoksul ülkelerde gelişime rehberlik edecek veri toplamak isteyen Joshua Blumenstock'un çalışmalarından geliyor. Geçmişte, bu tür verileri toplayan araştırmacılar genellikle iki yaklaşımdan birini almak zorunda kalmıştır: örnek anketler veya sayımlar. Araştırmacıların az sayıda insanla röportaj yaptığı örnek anketler, esnek, zamanında ve nispeten ucuz olabilir. Ancak, bu anketler, bir örneğe dayandıkları için, çoğu zaman kararlarında sınırlıdır. Örnek bir anketle, belirli coğrafi bölgeler veya belirli demografik gruplar hakkında tahminler yapmak genellikle zordur. Öte yandan, sayımlar herkese röportaj yapmaya çalışmaktadır ve bu nedenle küçük coğrafi bölgeler veya demografik gruplar için tahminler üretmek için kullanılabilirler. Ancak, sayımlar genellikle pahalı, odakta dardır (yalnızca az sayıda soru içerir) ve zamanında değil (her 10 yılda bir gibi sabit bir programda gerçekleşir) (Kish 1979) . Örnek anketlerle veya sayımlarla sıkışmak yerine, araştırmacıların her ikisinin de en iyi özelliklerini bir araya getirip getiremeyeceğini hayal edin. Araştırmacıların her soruyu her gün her insana sorup soramayacağını düşünün. Açıkça görülüyor ki, her yerde bulunan bu sürekli anket, bir tür sosyal bilim fantezisidir. Ancak, anket sorularını birçok insanın dijital izleri olan az sayıda insandan birleştirerek tahmin etmeye başlayabileceğimiz anlaşılıyor.
Blumenstock'un araştırması, Rwanda'nın en büyük cep telefonu sağlayıcısı ile ortaklık kurmasıyla başladı ve şirket 2005 ile 2009 yılları arasında yaklaşık 1,5 milyon müşteriden anonim işlem kayıtları sağladı. Bu kayıtlar, başlangıç saati, süre gibi her arama ve metin mesajı hakkında bilgi içeriyordu. ve arayan ve alıcının yaklaşık coğrafi konumu. İstatistiksel konular hakkında konuşmadan önce, bu ilk adımın pek çok araştırmacı için en zor olabileceğine işaret etmek gerekir. Bölüm 2'de açıkladığım gibi, büyük veri kaynaklarının çoğu araştırmacılara ulaşılamaz . Özellikle telefon meta-verilerinin erişilmesi imkansızdır çünkü anonimleştirmek temel olarak imkansızdır ve katılımcıların hassas olarak değerlendirebilecekleri bilgileri içerir (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Bu durumda, araştırmacılar verileri korumaya özen gösterdiler ve çalışmaları üçüncü bir tarafın gözetimi altındaydı (yani IRB). Bu etik konulara 6. bölümde daha ayrıntılı olarak döneceğim.
Blumenstock, refahı ve refahı ölçmekle ilgilendi. Ancak bu özellikler doğrudan arama kayıtlarında değildir. Başka bir deyişle, bu arama kayıtları bu araştırma için eksiktir - büyük veri kaynaklarının ortak bir özelliği 2. bölümde ayrıntılı olarak tartışılmıştır. Ancak, muhtemelen arama kayıtlarının servet hakkında dolaylı olarak bilgi sağlayabilecek bazı bilgilere sahip olması muhtemeldir. iyi varlık. Bu olasılık göz önünde bulundurulduğunda, Blumenstock, birisinin arama kayıtlarına dayanarak bir ankete nasıl cevap vereceğini tahmin etmek için bir makine öğrenme modelini eğitmenin mümkün olup olmadığını sordu. Bu mümkün olsaydı, Blumenstock bu modeli 1,5 milyon müşterinin anket cevaplarını tahmin etmek için kullanabilirdi.
Böyle bir modeli inşa etmek ve eğitmek için, Kigali Fen ve Teknoloji Enstitüsü'nden Blumenstock ve araştırma görevlileri yaklaşık bin müşteriden oluşan rasgele bir örneklemi çağırdı. Araştırmacılar projenin hedeflerini katılımcılara açıkladılar, anket cevaplarını arama kayıtlarına bağlama rızasını istediler ve daha sonra kendilerine bir servet ve refahı ölçmek için bir dizi soru sordular. radyo? ”ve“ Bir bisikletiniz var mı? ”(kısmi bir liste için bkz. şekil 3.14). Anketteki tüm katılımcılar mali olarak telafi edildi.
Daha sonra, Blumenstock makine öğrenmesinde yaygın olarak kullanılan iki aşamalı bir prosedür kullandı: özellik mühendisliği ve ardından denetimli öğrenme. İlk olarak, özellik mühendisliği aşamasında, görüşme yapılan herkes için, Blumenstock çağrı kayıtlarını her bir kişi hakkında bir dizi özelliğe dönüştürdü; veri bilimcileri bu özellikleri “özellikler” olarak adlandırabilirler ve sosyal bilimciler onlara “değişkenler” diyebilirlerdi. Örneğin, her insan için, Blumenstock etkinlikle toplam gün sayısını, bir kişinin temasta olduğu farklı insanların sayısını hesapladı. Airtime harcanan para miktarı, vb. Eleştirel olarak, iyi özellik mühendisliği araştırma ortamı hakkında bilgi gerektirir. Örneğin, ulusal ve uluslararası aramaları birbirinden ayırmak önemliyse (uluslararası olarak arayan insanlar daha varlıklı olabilir), bu özellik özellik mühendisliği aşamasında yapılmalıdır. Ruanda'yı çok az anlayan bir araştırmacı bu özelliği içermeyebilir ve daha sonra modelin öngörücü performansı acı çeker.
Daha sonra, denetlenen öğrenme aşamasında, Blumenstock, her bir kişinin kendi özelliklerine göre anket yanıtını tahmin etmek için bir model oluşturdu. Bu durumda, Blumenstock lojistik regresyon kullandı, ancak çeşitli başka istatistiksel veya makine öğrenme yaklaşımları kullanmış olabilirdi.
Peki ne kadar iyi çalışıyordu? Blumenstock çağrı kayıtlarından elde edilen özellikleri kullanarak “Bir telsiz sahibi misiniz?” Ve “Bisikletiniz var mı?” Gibi sorulara verilen yanıtları tahmin edebildi mi? Tahmin modelinin performansını değerlendirmek için Blumenstock, veri bilimlerinde yaygın olarak kullanılan ancak nadiren sosyal bilimlerde kullanılan bir çapraz doğrulama yöntemi kullanmıştır. Çapraz geçerliliğin amacı, bir modelin tahmin performansının, onu eğiterek ve farklı veri alt kümeleri üzerinde test ederek adil bir değerlendirmesini sağlamaktır. Özellikle, Blumenstock, verilerini her biri 100 kişiden oluşan 10 parçaya böldü. Daha sonra, modelini eğitmek için parçalardan dokuzunu kullandı ve eğitilen modelin tahmini performansı kalan yığın üzerinde değerlendirildi. Bu prosedürü 10 kez tekrarladı; her veri parçası, validasyon verileri olarak bir tur attı ve sonuçların ortalaması alındı.
Tahminlerin doğruluğu bazı özellikler için yüksekti (şekil 3.14); Örneğin, bir radyo sahibi olsaydı, Blumenstock% 97.6 doğrulukla tahmin edebilirdi. Bu etkileyici görünebilir, ancak karmaşık bir tahmin yöntemini basit bir alternatifle karşılaştırmak her zaman önemlidir. Bu durumda, herkesin en yaygın cevabı vereceğini öngörmek basit bir alternatiftir. Örneğin, yanıt verenlerin% 97,3'ü bir radyoya sahip olduğunu bildirmiştir, bu yüzden Blumenstock herkesin bir radyoya sahip olduğunu bildireceğini tahmin etseydi,% 97.3'lük bir doğruluğa sahip olurdu ve bu da şaşırtıcı bir şekilde daha karmaşık prosedürünün performansına benzerdi (% 97.6 doğruluk). . Diğer bir deyişle, tüm fantezi veriler ve modelleme, tahmin doğruluğunu% 97,3'ten% 97,6'ya çıkarmıştır. Ancak “Bisiklet sahibi misiniz?” Gibi başka sorular için tahminler% 54,4'ten% 67,6'ya yükseldi. Daha genel olarak, Şekil 3.15, bazı özellikler için Blumenstock'un basit başlangıç tahminini yapmanın ötesinde bir gelişme göstermediğini, ancak diğer özellikler için bazı iyileştirmelerin olduğunu göstermiştir. Ancak, bu sonuçlara baktığımızda, bu yaklaşımın özellikle umut verici olduğunu düşünmeyebilirsiniz.
Ancak, bir yıl sonra, Blumenstock ve iki meslektaşları (Gabriel Cadamuro ve Robert On), Science'da daha iyi sonuçlar elde eden bir makale yayınladılar (Blumenstock, Cadamuro, and On 2015) . Bu gelişmenin iki ana nedeni vardı: (1) daha sofistike yöntemler kullandılar (ör., Mühendisliğe yeni bir yaklaşım ve özelliklerden gelen yanıtları tahmin etmek için daha karmaşık bir model) ve (2) bireylere verilen yanıtları bulmaya çalışmak yerine anket soruları (örneğin, “Bir radyo sahibiniz mi?”), bir karma varlık endeksi elde etmeyi denediler. Bu teknik gelişmeler, örneklemdeki insanlar için serveti tahmin etmek için arama kayıtlarını kullanma konusunda makul bir iş yapabilecekleri anlamına geliyordu.
Bununla birlikte, örneklemdeki insanların zenginliğini tahmin etmek, araştırmanın nihai amacı değildi. Nihai hedefin, gelişmekte olan ülkelerde yoksulluğun doğru ve yüksek çözünürlüklü tahminlerini üretmek için örnek anketler ve sayımların en iyi özelliklerinden bazılarını birleştirmek olduğunu unutmayın. Bu hedefe ulaşma kabiliyetlerini değerlendirmek için Blumenstock ve meslektaşları modellerini ve verilerini kullanarak arama kayıtlarındaki 1,5 milyon insanın refahını tahmin etmekteydi. Ve arama kayıtlarında gömülü olan coğrafi bilgiyi kullandılar (her bir aramanın en yakın hücre kulesinin yerini de içerdiğini hatırlayın), her bir kişinin yaklaşık ikamet yerini tahmin etsin (şekil 3.17). Bu iki tahmin bir araya getirildiğinde, Blumenstock ve meslektaşları, abone zenginliklerinin son derece ince bir mekânsal taneciklikte coğrafi dağılımını tahmin ettiler. Örneğin, Ruanda'nın 2,148 hücresindeki (ülkenin en küçük idari birimi) her birinin ortalama servetini tahmin edebilirler.
Bu tahminler, bu bölgelerdeki gerçek yoksulluk seviyesine ne kadar uyuyordu? Bu soruyu cevaplamadan önce, şüpheci olmak için pek çok neden olduğu gerçeğini vurgulamak istiyorum. Örneğin, bireysel düzeyde öngörülerde bulunma yeteneği oldukça gürültülüdür (şekil 3.17). Ve belki de daha önemlisi, cep telefonu olan kişiler cep telefonu olmayan kişilerden sistematik olarak farklı olabilir. Böylelikle, Blumenstock ve meslektaşları daha önce anlattığım 1936 Literary Digest anketini önyargılı olan türden hata türlerinden muzdarip olabilirler.
Tahminlerinin kalitesine dair bir fikir sahibi olmak için, Blumenstock ve meslektaşlarının bunları başka bir şeyle karşılaştırmaları gerekiyordu. Neyse ki, çalışmalarıyla aynı zamanlarda, başka bir grup araştırmacı, Ruanda'da daha geleneksel bir sosyal araştırma yürütüyordu. Yaygın olarak kabul edilen Demografik ve Sağlık Araştırması programının bir parçası olan bu diğer anket, büyük bir bütçeye sahipti ve yüksek kaliteli, geleneksel yöntemler kullanmıştı. Bu nedenle, Nüfus ve Sağlık Araştırması'nın tahminleri makul olarak altın standart tahminler olarak kabul edilebilir. İki tahmin karşılaştırıldığında, oldukça benzerlerdi (şekil 3.17). Başka bir deyişle, küçük bir anket verisini arama kayıtları ile birleştirerek, Blumenstock ve meslektaşları altın standart yaklaşımlardan gelenlerle karşılaştırılabilir tahminler üretebildiler.
Şüpheci bu sonuçları hayal kırıklığı olarak görebilir. Sonuç olarak, bunları görmenin bir yolu, büyük veri ve makine öğrenimi kullanarak, Blumenstock ve meslektaşlarının mevcut yöntemlerle daha güvenilir bir şekilde yapılabilecek tahminler üretebildiklerini söylemektir. Fakat bu çalışma hakkında iki nedenden ötürü düşünmenin doğru yol olduğunu düşünmüyorum. İlk olarak, Blumenstock ve meslektaşlarından elde edilen tahminler yaklaşık 10 kat daha hızlı ve 50 kat daha ucuzdu (maliyetler değişken maliyetler açısından ölçüldüğünde). Bu bölümde daha önce tartıştığım gibi, araştırmacılar maliyetlerini tehlikede görmezden geliyor. Bu durumda, örneğin, maliyetlerdeki dramatik düşüş, her birkaç yılda bir olmaktan ziyade, Nüfus ve Sağlık Araştırmaları için standart olduğu gibi, her ay bu tür bir araştırmanın yürütülebileceği anlamına gelmektedir. Bu, araştırmacılar ve politika için çok sayıda avantaj sağlayacaktır. vericiler. Şüphecinin görüşünü ele almamanın ikinci sebebi, bu çalışmanın birçok farklı araştırma durumuna göre şekillendirilebilecek temel bir reçete oluşturmasıdır. Bu tarifin sadece iki bileşeni ve iki adımı vardır. Bileşenler (1) geniş ama ince (yani, her insan için ihtiyacınız olan bilgiyi değil, birçok insanı vardır) ve (2) dar fakat kalın bir anket olan büyük bir veri kaynağıdır. birkaç kişi, ama bu insanlar hakkında ihtiyacınız olan bilgilere sahipler). Bu bileşenler daha sonra iki adımda birleştirilir. İlk olarak, her iki veri kaynağındaki kişiler için, anket cevaplarını tahmin etmek için büyük veri kaynağını kullanan bir makine öğrenme modeli oluşturun. Ardından, büyük veri kaynağındaki herkesin anket cevaplarını uygulamak için bu modeli kullanın. Bu nedenle, eğer bir çok kişiye sormak istediğinize dair bir soru varsa, büyük veri kaynağına önem vermese bile , onların cevabını tahmin etmek için kullanılabilecek kişilerden büyük bir veri kaynağı arayınız . Yani, Blumenstock ve meslektaşları doğal olarak arama kayıtlarını önemsemedi; Onlar sadece araştırma kayıtlarını önemsediler, çünkü onlar baktıkları anket cevaplarını tahmin etmek için kullanılabilirlerdi. Bu karakteristik - sadece büyük veri kaynağındaki dolaylı ilgi - daha önce açıkladığım gömülü sormadan farklı bir şekilde sorulmasını sağlar.
Sonuç olarak, Blumenstock'un güçlendirilmiş sorgulama yaklaşımı, altın standart bir anketten elde edilen tahminlere benzer tahminler üretmek için büyük bir veri kaynağı ile anket verilerini birleştirdi. Bu özel örnek ayrıca, güçlendirilmiş soru sorma ve geleneksel araştırma yöntemleri arasındaki bazı alıştırmaları açıklığa kavuşturmaktadır. Amplifiye edilmiş sorgulama tahminleri daha zamanında, büyük ölçüde daha ucuz ve daha ayrıntılıydı. Ancak, diğer yandan, bu türden çoğaltılmış soran için henüz güçlü bir teorik temel yoktur. Bu tek örnek, bu yaklaşımın ne zaman işe yarayıp yaramayacağını göstermez ve bu yaklaşımı kullanan araştırmacıların özellikle büyük veri kaynaklarına kimlerin dahil edildiği ve kimin dahil edilmediğinin neden olduğu olası önyargılardan endişe duyması gerekir. Ayrıca, çoğaltılmış sorgulama yaklaşımının henüz tahminleri etrafında belirsizliği ölçmek için iyi bir yolu yoktur. Neyse ki, çoğaltılmış sorgulamanın istatistikte üç büyük alana (Rao and Molina 2015) küçük alan tahmini (Rao and Molina 2015) , imputation (Rubin 2004) ve model tabanlı post-tabakalaşmaya (ki bu da Bay P. ile yakından ilişkilidir (Rubin 2004) derin bağlantıları vardır. bu bölümde daha önce tarif ettiğim yöntem) (Little 1993) . Bu derin bağlantılar nedeniyle, çoğaltılmış sorgulamanın metodolojik temellerinin çoğunun yakında geliştirilmesini bekliyorum.
Son olarak, Blumenstock'un ilk ve ikinci girişimlerini karşılaştırmak, dijital çağ sosyal araştırmaları hakkında önemli bir dersi de göstermektedir: başlangıç, son değildir. Yani, birçok kez, ilk yaklaşım en iyisi olmayacak, ancak araştırmacılar çalışmaya devam ederse, işler daha iyi olabilir. Daha genel olarak, dijital çağda sosyal araştırmaya yeni yaklaşımları değerlendirirken, iki ayrı değerlendirme yapmak önemlidir: (1) Bu şimdi ne kadar iyi çalışıyor? ve (2) Bu, veri ortamı değiştikçe ve araştırmacılar soruna daha fazla dikkat gösterdikçe, bu gelecekte ne kadar iyi olacak? Araştırmacılar ilk değerlendirme türünü yapmak için eğitilmiş olsalar da, ikincisi genellikle daha önemlidir.