დიდი მონაცემები იქმნება და შეგროვებული მთავრობების მიერ სხვა მიზნით, გარდა კვლევა. გამოყენება ამ მონაცემების კვლევა, შესაბამისად, მოითხოვს repurposing.
იდეალიზებულ კალენდარი სოციალური კვლევის წარმოუდგენია მეცნიერი, რომელსაც იდეა და შემდეგ შეგროვება მონაცემები შესამოწმებლად, რომ იდეა. ეს სტილი კვლევის იწვევს მჭიდრო fit შორის კვლევის საკითხი და მონაცემები, მაგრამ ეს არის შეზღუდული, რადგან ინდივიდუალური მკვლევარი ხშირად არ გვაქვს საჭირო რესურსები მონაცემების შეგროვება მათ სჭირდებათ, როგორიცაა დიდი, მდიდარი და ეროვნულ-წარმომადგენლის მონაცემები. აქედან გამომდინარე, ბევრი სოციალური კვლევის წარსულში გამოიყენება მასშტაბური სოციალური კვლევები, როგორიცაა ზოგადი სოციალური კვლევა (GSS), ამერიკის ეროვნული საარჩევნო შესწავლა (ANES) და Panel შესწავლა შემოსავლის დინამიკა (PSID). ეს მასშტაბური კვლევის ზოგადად მართავენ მკვლევართა გუნდი და ისინი მიზნად ისახავს შექმნას მონაცემები, რომელიც შეიძლება იქნას გამოყენებული ბევრი მკვლევარი. იმის გამო, რომ მიზნები, ამ მასშტაბური კვლევები, მოეკიდონ შევიდა შექმნასა მონაცემების შეგროვება და ემზადება შედეგად მონაცემები გამოყენებისათვის მკვლევარები. ეს მონაცემები მკვლევარები და მეცნიერები.
ყველაზე სოციალური კვლევის გამოყენებით ციფრული ასაკი წყაროს, ძირეულად განსხვავდება. ნაცვლად გამოყენებით მონაცემების მიერ შეგროვებული მკვლევარები და მკვლევარები, იგი იყენებს მონაცემთა წყაროები, რომლებიც შეიქმნა და შეგროვებული ბიზნესის და მთავრობებს საკუთარი მიზნებისათვის, როგორიცაა მიღების მოგება, რომელიც უზრუნველყოფს მომსახურების, ან ადმინისტრირებას კანონით. ამ მთავრობის და ბიზნესის მონაცემთა წყაროებს არ მოვიდა ეწოდოს დიდი მონაცემები. გამოკვლევა დიდი მონაცემები განსხვავებულია, ვიდრე აკეთებს კვლევის მონაცემები, რომელიც თავდაპირველად შეიქმნა კვლევა. შეადარეთ, მაგალითად, სოციალური მედიის ნახვა, როგორიცაა Twitter, ტრადიციული საზოგადოებრივი აზრის კვლევის როგორიცაა ზოგადი სოციოლოგიური კვლევის (GSS). Twitter- ის მიზნები, რათა უზრუნველყოს მომსახურების თავის მომხმარებლებს და მიიღოს მოგება. პროცესში ამ მიზნების მისაღწევად, Twitter ქმნის მონაცემები, რომ შეიძლება იყოს სასარგებლო შესწავლის გარკვეული ასპექტების საზოგადოებრივი აზრი. თუმცა, განსხვავებით საერთო სოციალური კვლევა (GSS), Twitter არ არის, პირველ რიგში, სოციალური კვლევების.
ტერმინი დიდი მონაცემები frustratingly ბუნდოვანი, და ჯგუფების ერთად ბევრი სხვადასხვა რამ. მიზნებისათვის სოციალური კვლევის, მე ვფიქრობ, რომ ეს არის გამოსადეგი განასხვავოს ორი სახის დიდი მონაცემთა წყაროებს: ადმინისტრაციული ჩანაწერები და ბიზნესის ადმინისტრაციული ჩანაწერი. მთავრობის ადმინისტრაციული ჩანაწერები მონაცემები, რომელიც ქმნის მთავრობები, როგორც ნაწილი მათი ყოველდღიური საქმიანობა. ამ სახის ჩანაწერები უკვე გამოიყენება მიერ მკვლევარები წარსულში, როგორიცაა demographers სწავლობს დაბადების, ქორწინების და სიკვდილის ჩანაწერები, მაგრამ მთავრობები სულ უფრო და უფრო შეგროვება და გათავისუფლების დეტალური ჩანაწერი analyzable ფორმები. მაგალითად, ნიუ-იორკში მთავრობის დაყენებული ციფრული მეტრი შიგნით ყველა ტაქსი ქალაქში. ამ მეტრის ჩაიწეროს ყველა სახის მონაცემები თითოეულ ტაქსით მძღოლის ჩათვლით, დაწყების დრო და ადგილმდებარეობა, გაჩერების დრო და ადგილმდებარეობა, და მგზავრობის. კვლევაში, რომელიც მე გეტყვით მოგვიანებით ამ თავში, Henry Farber (2015) repurposed ეს მონაცემები მივმართო ფუნდამენტური დებატები შრომის ეკონომიკა შორის ურთიერთობა საათობრივი ხელფასი და რაოდენობის საათი მუშაობდა.
მეორე ძირითადი ტიპის დიდი მონაცემები სოციალური კვლევა ბიზნეს ადმინისტრაციული ჩანაწერი. ეს არის მონაცემები, რომ ბიზნესის შექმნა და შეაგროვოს, როგორც ნაწილი მათი ყოველდღიური საქმიანობა. ეს ბიზნეს ადმინისტრაციული ჩანაწერები ხშირად უწოდებენ ციფრული კვალი, და მოიცავს რამ, როგორიცაა საძიებო სისტემა შეკითხვის ჟურნალები, სოციალური მედიის ფორუმზე, და მოვუწოდებთ ჩანაწერების მობილური ტელეფონები. მნიშვნელოვანია, ამ ბიზნეს ადმინისტრაციული ჩანაწერები არ არის მხოლოდ ონლაინ ქცევა. მაგალითად, მაღაზიებში რომ გამოიყენოთ გამშვები out სკანერები ვქმნით რეალურ დროში ღონისძიებების მუშაკი პროდუქტიულობა. კვლევის შედეგების მიხედვით, რომ მე გეტყვით შესახებ მოგვიანებით ამ თავში, ალექსანდრე Mas და Enrico მორეტი (2009) repurposed ამ სუპერმარკეტში გამშვები out მონაცემების შესწავლა მშრომელთა პროდუქტიულობის იმოქმედა პროდუქტიულობა თანატოლებს.
როგორც ამ მაგალითებიდან ჩანს, იდეა repurposing ფუნდამენტური სწავლის დიდი მონაცემები. ჩემი გამოცდილება, სოციალური მეცნიერები და მონაცემები მეცნიერები მივუდგეთ ამ repurposing ძალიან განსხვავებულად. სოციალური მეცნიერები, რომლებიც მიჩვეული მუშაობის მონაცემები განკუთვნილია კვლევის, სწრაფი აღვნიშნო, რომ პრობლემა repurposed მონაცემების ხოლო იგნორირება მისი ძლიერი. მეორეს მხრივ, მონაცემები მეცნიერები სწრაფი აღვნიშნო სარგებელი repurposed მონაცემები, ხოლო იგნორირება მისი სუსტი მხარეები. ბუნებრივია, საუკეთესო მიდგომა იქნება ჰიბრიდული. რომ არის, მკვლევარებმა უნდა გვესმოდეს მახასიათებლები ამ ახალი წყაროების მონაცემთა ორივე კარგი და ცუდი და შემდეგ გაერკვნენ, თუ როგორ უნდა ვისწავლოთ მათგან. და, რომ არის გეგმა დარჩენილი ამ თავში. შემდეგი, მე აღწერს ათი საერთო მახასიათებლები ბიზნესისა და მთავრობის ადმინისტრაციული მონაცემები. ამის შემდეგ, მე აღწერს სამი კვლევითი მიდგომები, რომელიც შეიძლება გამოყენებულ იქნას ამ მონაცემებით, მიდგომები, რომლებიც კარგად შეეფერება მახასიათებლები ამ მონაცემებს.