Büyük veri oluşturulur ve araştırma dışında amaçlar için hükümetler tarafından toplanır. Araştırma için, bu veriler kullanılarak, bu nedenle, yeniden amaç gerektirir.
sosyal araştırmanın bir idealize görünümü bir bilim adamı, bir fikri olan ve daha sonra bu fikri test etmek için veri toplamayı hayal eder. Araştırmanın bu tarz araştırma sorusu ile veri arasındaki sıkı uyum yol açar, ancak tek bir araştırmacı genellikle, büyük, zengin ve ulusal temsilcisi veri olarak ihtiyaç duydukları veri toplamak için gerekli kaynaklara sahip değilsiniz çünkü sınırlıdır. Böyle Genel Sosyal Anketi (GSS), Amerikan Ulusal Seçim Çalışması (ANES), ve Gelir Dinamikleri Panel Çalışması (PSID) Bu nedenle, geçmişte sosyal bir çok araştırma kullandı büyük ölçekli sosyal anketler. Bu büyük ölçekli anket genellikle araştırmacı bir ekip tarafından çalıştırılan ve birçok araştırmacı tarafından kullanılabilir veri oluşturmak için tasarlanmıştır. Bu büyük ölçekli araştırmaların gol Çünkü, büyük bir özenle veri toplama tasarımı ve araştırmacılar tarafından kullanılmak üzere elde edilen veri hazırlama konur. Bu veriler araştırmacılar tarafından ve araştırmacılar içindir.
Dijital çağ kaynakları kullanarak en sosyal araştırma, ancak, temelden farklıdır. Bunun yerine araştırmacılar tarafından ve araştırmacılar için toplanan verilerin kullanılması, yarattığı ve bu tür bir kar yapan bir hizmet veren, ya da bir yasayı tatbik olarak kendi amaçları için işletmeler ve hükümetler tarafından toplanan veri kaynakları kullanır. Bu iş ve hükümet veri kaynakları büyük veri çağrılacak gelmiş. Büyük verilerle araştırma yaparken başlangıçta araştırma için oluşturulan verilerle araştırma yaparken farklıdır. Örneğin, karşılaştırın, böyle Genel Sosyal Anketi (GSS) gibi geleneksel kamuoyu anketi ile Twitter gibi bir sosyal medya sitesi,. Twitter'ın ana hedefleri kullanıcılarına bir hizmet sunmak için ve bir kar yapmak için vardır. Bu hedeflere ulaşma sürecinde, Twitter kamuoyunun bazı yönlerini incelemek için yararlı olabilir verileri oluşturur. Ama, Genel Sosyal Anketi (GSS) aksine, Twitter sosyal araştırma öncelikle odaklı değildir.
dönem büyük veri sinir bozucu belirsiz olduğunu ve grupları birlikte çok farklı şeyler. Sosyal araştırma amaçları için, ben iki büyük veri kaynaklarının birbirinden ayırt yararlı olduğunu düşünüyorum. Hükümet, idari kayıtlar ve iş idari kayıtlardan Hükümet idari kayıtlar rutin faaliyetlerinin bir parçası olarak hükümetler tarafından oluşturulan verilerdir. kayıtların Bu tür-tür geçmiş, evlilik ve ölüm kayıtları ama hükümetler giderek doğum toplama ve analiz formları detaylı kayıtlar yeniliyor okuyan demograf olarak araştırmacılar tarafından kullanılmıştır. Örneğin, New York, hükümetin şehirdeki her taksi içinde dijital metre yüklü. Bu metre sürücü, başlangıç saati ve yeri, durdurma zamanı ve yeri ve ücret dahil olmak üzere her taksi yolculuğu hakkında her türlü veri kaydı. Bu bölümde daha sonra anlatacağım bir çalışmada, Henry Farber (2015) saatlik ücretler ve çalışılan saat sayısı arasındaki ilişki hakkında çalışma ekonomisi temel bir tartışma ele bu verileri yeniden işlevlendirilmesi.
Sosyal araştırmalar için büyük verinin ikinci ana tip iş idari kayıtlardır. Bu iş rutin faaliyetlerinin bir parçası olarak oluşturmak ve toplamak verilerdir. Bu iş, idari kayıtlar çoğunlukla dijital izleri olarak adlandırılan ve arama motoru sorgu günlükleri, sosyal medya yayınları gibi şeyleri içerir ve cep telefonlarından arama kayıtlarının edilir. Kritik, bu iş, idari kayıtlar sadece online davranış hakkında değildir. Örneğin, check-out tarayıcılar kullanın mağazalar işçi verimliliği gerçek zamanlı tedbirleri yaratıyor. Ben hakkında daha sonra bu bölümde anlatacağım bir çalışmada, Alexandre Mas ve Enrico Moretti (2009) bir işçi verimliliği akranları verimlilik etkilenen nasıl incelemek için bu süpermarket check-out verileri yeniden işlevlendirilmesi.
Bu örneklerin her ikisi de gösterdiği gibi, repurposing fikri büyük verilerinden öğrenme esastır. Benim durumumda, sosyal bilimciler ve veri bilim adamları bu çok farklı repurposing yaklaşım. araştırma için tasarlanmış verilerle çalışmaya alışkın olan Sosyal bilimciler, gücünü görmezden repurposed verilerle sorunlara işaret hızlı. Öte yandan, veri bilim adamları kendi zayıflıklarını görmezden repurposed verilerin yararlarını işaret hızlı. Doğal olarak, en iyi yaklaşım, bir melez olurdu. Bu araştırmacılar veri hem iyi hem de kötü ve daha sonra onlardan öğrenmek için nasıl anlamaya bu yeni kaynaklar özelliklerini anlamak gerekir olduğunu. Ve, bu bölümün geri kalanı için planıdır. Sonra, ben iş ve hükümet idari verilerin on ortak özelliklerini anlatacağız. Bundan sonra, bu veriler, iyi bu verilerin özelliklerine uygun yaklaşımlar birlikte kullanılabilir üç araştırma yaklaşımlar anlatacağız.