يتم إنشاء البيانات الكبيرة والتي تم جمعها من قبل الحكومات لأغراض أخرى غير البحث. استخدام هذه البيانات لأغراض البحث، وبالتالي، يتطلب تطويعها لأغراض أخرى.
وجهة نظر المثالية للبحوث الاجتماعية يتصور عالما وجود فكرة وثم جمع البيانات لاختبار هذه الفكرة. هذا النمط من البحوث يؤدي إلى نوبة ضيق بين مسألة البحوث والبيانات، لكنه محدود لأن الباحث الفردي في كثير من الأحيان لا تملك الموارد اللازمة لجمع البيانات التي يحتاجون إليها، مثل البيانات الكبيرة، الغنية، وعلى الصعيد الوطني النيابية. ولذلك، فإن الكثير من البحوث الاجتماعية في الماضي تستخدم المسوح الاجتماعية على نطاق واسع، مثل المسح الاجتماعي العام (الشاباك)، ودراسة الانتخابات الوطنية الأمريكية (ANES)، ودراسة فريق ديناميات الدخل (PSID). يتم تشغيل هذه الدراسة على نطاق واسع عموما من قبل فريق من الباحثين وأنها مصممة لإنشاء البيانات التي يمكن استخدامها من قبل العديد من الباحثين. لأن أهداف هذه الدراسات على نطاق واسع، ويتم وضع عناية كبيرة في تصميم جمع البيانات وإعداد البيانات الناتجة لاستخدامها من قبل الباحثين. هذه البيانات من قبل الباحثين والباحثين.
معظم البحوث الاجتماعية باستخدام مصادر العصر الرقمي، ومع ذلك، يختلف اختلافا جذريا. بدلا من استخدام البيانات التي تم جمعها من قبل الباحثين والباحثين، ويستخدم مصادر البيانات التي تم إنشاؤها والتي تم جمعها من قبل الشركات والحكومات لأغراضها الخاصة مثل تحقيق الربح، وتوفير الخدمات، أو تدير القانون. وتأتي مصادر البيانات التجارية والحكومية هذه ليتم استدعاؤها البيانات الكبيرة. ابحاثا مع البيانات كبيرة يختلف عن ابحاثا مع البيانات التي تم إنشاؤها في الأصل لأغراض البحث. مقارنة، على سبيل المثال، وهو موقع التواصل الاجتماعي، مثل تويتر، مع استطلاع للرأي العام التقليدي مثل المسح الاجتماعي العام (الشاباك). الأهداف الرئيسية تويتر هي لتقديم خدمة لمستخدميها وتحقيق الربح. في عملية تحقيق هذه الأهداف، تويتر يخلق البيانات التي قد تكون مفيدة لدراسة جوانب معينة من الرأي العام. ولكن، على عكس المسح الاجتماعي العام (الشاباك)، والتغريد ليس التركيز في المقام الأول على البحوث الاجتماعية.
البيانات الكبيرة المصطلح غامضا محبط، ويجمع العديد من الأشياء المختلفة. لأغراض البحوث الاجتماعية، وأعتقد أنه من المفيد أن نميز بين نوعين من مصادر البيانات الكبيرة: السجلات الإدارية الحكومية والسجلات الإدارية الأعمال السجلات الإدارية الحكومية هي البيانات التي تم إنشاؤها من قبل الحكومات كجزء من أنشطتها الروتينية. وقد استخدمت هذه الأنواع من السجلات من قبل الباحثين في الماضي مثل الديموغرافيا دراسة الولادة، والسجلات، ولكن الزواج، والموت الحكومات بجمع والافراج عن سجلات مفصلة في أشكال analyzable على نحو متزايد. على سبيل المثال، تثبيت حكومة مدينة نيويورك متر الرقمية داخل كل سيارة أجرة في المدينة. هذه العدادات تسجل جميع أنواع البيانات حول كل ركوب سيارة أجرة بما في ذلك السائق، ووقت البدء والمكان، والوقت توقف، والمكان، والأجرة. في دراسة انا اقول لاحقا في هذا الفصل، هنري فاربر (2015) أغراض أخرى هذه البيانات لمعالجة النقاش الأساسية في اقتصاديات العمل حول العلاقة بين الأجور بالساعة وعدد ساعات العمل.
النوع الرئيسي الثاني لبيانات هائلة للبحوث الاجتماعية والسجلات الإدارية الأعمال. هذه هي البيانات التي الأعمال خلق وجمع كجزء من أنشطتها الروتينية. وغالبا ما تسمى هذه السجلات الإدارية الأعمال آثار الرقمية، وتشمل أشياء مثل سجلات الاستعلام محرك البحث، وظائف وسائل الاعلام الاجتماعية، وسجلات المكالمات من الهواتف المحمولة. الأهم من ذلك، هذه السجلات الإدارية الأعمال ليست فقط حول السلوك عبر الإنترنت. على سبيل المثال، ومخازن التي تستخدم الماسحات الضوئية تحقق من تخلق التدابير في الوقت الحقيقي من إنتاجية العمال. في دراسة انا اقول لكم عنها لاحقا في هذا الفصل، الكسندر ماس وإنريكو موريتي (2009) أغراض أخرى هذا السوبر ماركت بيانات المغادرة لدراسة كيفية تأثر الإنتاجية للعمال من قبل إنتاجية أقرانهم.
لأن كلا من هذه الأمثلة توضح أن فكرة تطويعها لأغراض أخرى أساسية للتعلم من البيانات الكبيرة. في تجربتي، وعلماء الاجتماع وعلماء البيانات يقترب إلى هذا تطويعها لأغراض أخرى مختلفة جدا. علماء الاجتماع، الذين اعتادوا على العمل مع البيانات المصممة للبحوث ويسارعون أن نشير إلى مشاكل مع البيانات أغراض أخرى في حين تجاهل قوتها. من ناحية أخرى، والعلماء بيانات يسارعون أن نشير إلى فوائد البيانات أغراض أخرى في حين تجاهل نقاط ضعفها. وبطبيعة الحال، فإن أفضل نهج يكون هجين. هذا هو والباحثين في حاجة إلى فهم خصائص هذه المصادر الجديدة للبيانات سواء كانت جيدة أو سيئة، ومن ثم معرفة كيفية التعلم منها. و، وهذا هو خطة للفترة المتبقية من هذا الفصل. بعد ذلك، سوف أصف عشر الخصائص المشتركة للبيانات الإدارية رجال الأعمال والحكومة. بعد ذلك، سأذكر ثلاثة مناهج البحث التي يمكن استخدامها مع هذه البيانات، والنهج التي تناسب بشكل جيد لخصائص هذه البيانات.