დიდი მონაცემები იქმნება და აგროვებს კომპანიებსა და მთავრობებს კვლევების გარდა სხვა მიზნებისათვის. კვლევისთვის ამ მონაცემების გამოყენება მოითხოვს რეპროდუცირებას.
პირველი გზა, რომელიც ბევრ ადამიანს ეწევა სოციალური კვლევის ციფრულ ასაკში არის ის, რასაც ხშირად უწოდებენ დიდ მონაცემებს . ამ ტერმინის ფართოდ გავრცელების მიუხედავად, არ არსებობს კონსენსუსი იმის თაობაზე, თუ რა არის დიდი მონაცემები. თუმცა, დიდი მონაცემების ერთ-ერთი ყველაზე გავრცელებული განმარტება ფოკუსირებულია "3 Vs": მოცულობა, მრავალფეროვნება და სიჩქარე. მკაცრად, არსებობს უამრავი მონაცემები, სხვადასხვა ფორმატებში, და ის მუდმივად იქმნება. ზოგიერთი დიდი გულშემატკივარი დიდ მონაცემებს დაამატებს სხვა "Vs", როგორიცაა სიზუსტე და ღირებულება, ხოლო ზოგიერთი კრიტიკოსი დაამატოთ Vs როგორიცაა ბუნდოვანი და ვაკუუმი. იმის ნაცვლად, რომ 3 "Vs" (ან 5 "Vs" ან 7 "Vs"), სოციალური კვლევის მიზნებისათვის, მე ვფიქრობ, რომ უკეთეს ადგილს იწყებს 5 "WS": ვინ, რა, სად , და რატომ. სინამდვილეში, მე ვფიქრობ, რომ დიდი მონაცემთა წყაროების მიერ შექმნილი მრავალი გამოწვევა და შესაძლებლობები მხოლოდ ერთი "W" - დან: რატომ.
ანალოგურ ასაკში კვლევის ჩატარების მიზნით შეიქმნა სოციალური კვლევისთვის გამოყენებული უმრავლესობა. ციფრულ ასაკში, თუმცა, დიდი რაოდენობით მონაცემები იქმნება კომპანიებისა და მთავრობების მიერ კვლევების გარდა, როგორიცაა მომსახურების გაწევა, მოგების მიღება და კანონმდებლობის ადმინისტრირება. კრეატიული ხალხი, თუმცა, მიხვდა, რომ თქვენ შეგიძლიათ რეპროდუცირება ამ კორპორატიული და სამთავრობო მონაცემები კვლევის. ფიქრი უკან 1-ში ხელოვნების ანალოგია, ისევე, როგორც დუჩამპმა ხელოვნების შექმნის ობიექტი შეიმუშავა, მეცნიერებმა ახლა უკვე შეძლონ კვლევის შესაქმნელად მონაცემები.
მიუხედავად იმისა, რომ არსებობს უაღრესად დიდი შესაძლებლობები repurposing, მონაცემების გამოყენებით, რომელიც არ იყო შექმნილი კვლევის მიზნებისათვის ასევე წარმოადგენს ახალ გამოწვევებს. შედარება, მაგალითად, სოციალური მედია სერვისი, როგორიცაა Twitter, ტრადიციული საზოგადოებრივი აზრის კვლევა, როგორიცაა ზოგადი სოციალური კვლევა. Twitter- ის მთავარ მიზანს წარმოადგენს მომხმარებლებისთვის მომსახურების მიწოდება და მოგება. ზოგადი სოციალური კვლევა, მეორეს მხრივ, ორიენტირებულია სოციალურ კვლევებზე ზოგადი დანიშნულების მონაცემების შესაქმნელად, განსაკუთრებით საზოგადოებრივი აზრის კვლევისთვის. ეს განსხვავება მიზნებიდან გამომდინარე ნიშნავს, რომ Twitter- ის მიერ შექმნილი და ზოგადი სოციალური კვლევის შედეგად შექმნილი მონაცემები განსხვავებულ თვისებებს ატარებს, მიუხედავად იმისა, რომ ორივე შეიძლება გამოიყენოს საზოგადოებრივი აზრის შესწავლა. Twitter მუშაობს მასშტაბით და სიჩქარით, რომ ზოგადი სოციალური კვლევა ვერ შეესაბამება, მაგრამ, განსხვავებით გენერალური სოციალური კვლევის, Twitter არ არის ყურადღებით ნიმუში წევრებს და არ მუშაობს რთული შეინარჩუნოს შედარებითი დროთა განმავლობაში. იმის გამო, რომ ეს ორი მონაცემთა წყაროა იმდენად განსხვავებული, არ იცის, რომ სოციალური კვლევა უკეთესია, ვიდრე Twitter ან პირიქით. თუ გსურთ გლობალური განწყობის საათობრივი ღონისძიებები (მაგ., Golder and Macy (2011) ), Twitter საუკეთესოა. მეორეს მხრივ, თუ გსურთ გაიგოთ გრძელვადიანი ცვლილებები ამერიკის შეერთებულ შტატებში არსებული დამოკიდებულების პოლარიზაციაში (მაგალითად, DiMaggio, Evans, and Bryson (1996) ), მაშინ ზოგადი სოციალური კვლევა საუკეთესო არჩევანია. უფრო ზოგადად, ვიდრე ცდილობს, რომ დიდი მონაცემთა წყაროები უფრო კარგი ან უარესია, ვიდრე სხვა სახის მონაცემები, ეს თავი შეეცდება გაერკვია, თუ რომელი სახის კვლევის კითხვებს დიდი მონაცემთა წყაროები აქვს მიმზიდველი თვისებები და რომელთათვისაც შეიძლება არ იყოს იდეალური.
დიდ მონაცემთა წყაროებზე ფიქრისას, ბევრი მკვლევარი დაუყოვნებლივ ფოკუსირებას უწევს კომპანიების მიერ შექმნილი და შეგროვებული ონლაინ მონაცემების შესახებ, როგორიცაა საძიებო სისტემები და სოციალური მედია შეტყობინება. თუმცა, ამ ვიწრო აქცენტი დიდი მონაცემების ორი მნიშვნელოვანი წყაროდან ტოვებს. პირველ რიგში, კორპორატიული დიდი მონაცემთა წყაროები ფიზიკურ სამყაროში ციფრული მოწყობილობიდან მოდის. მაგალითად, ამ თავში მე გეტყვით იმ კვლევის შესახებ, რომელიც შეისწავლის სუპერმარკეტების შემოწმების მონაცემებს, რათა შეისწავლოს, თუ როგორ მუშაობს მუშაკის პროდუქტიულობა მისი თანატოლების (Mas and Moretti 2009) . შემდეგ, მოგვიანებით, მე გეტყვით მკვლევართა შესახებ, რომლებიც იყენებდნენ მობილური ტელეფონების (Blumenstock, Cadamuro, and On 2015) სატელეფონო ჩანაწერები და ელექტრონულ საშუალებებით შექმნილი ბილინგის მონაცემები (Allcott 2015) . როგორც ეს მაგალითები გვიჩვენებს, კორპორატიული დიდი მონაცემთა წყაროები უფრო მეტია, ვიდრე მხოლოდ ონლაინ ქცევა.
ინტერნეტის ქცევის ვიწრო აქცენტით გამოტოვებული დიდი მონაცემების მეორე მნიშვნელოვანი წყაროა მთავრობის მიერ შექმნილი მონაცემები. ეს სამთავრობო მონაცემები, რომლებიც მკვლევარებს უწოდებენ მთავრობის ადმინისტრაციულ ჩანაწერებს , მოიცავს ისეთ საგნებს, როგორიცაა საგადასახადო ჩანაწერები, სკოლის ჩანაწერები და სასიცოცხლო სტატისტიკური ჩანაწერები (მაგალითად, დაბადებისა და გარდაცვალების რეესტრები). მთავრობები ამ ტიპის მონაცემებს ქმნიან, ზოგიერთ შემთხვევაში, ასობით წელია და სოციოლოგებმა სოციოლოგებმა უკვე რამდენჯერმე გამოიყენეს ისინი სოციოლოგი. თუმცა, რა ცვლილება შეიცვალა, ციფრს იძლევა, რომელმაც მკვეთრად იმოქმედა მთავრობებისთვის მონაცემთა შეგროვების, გადაცემის, შენახვისა და ანალიზისთვის. მაგალითად, ამ თავში, მე გეტყვით იმ კვლევის შესახებ, რომ ნიუ იორკის მთავრობის ციფრული ტაქსიდან ამოღებული მონაცემები შრომის ეკონომიკაში (Farber 2015) ფუნდამენტური დებატების (Farber 2015) . მოგვიანებით, მოგვიანებით, მე გეტყვით იმის შესახებ, თუ როგორ იყენებდნენ მთავრობის მიერ შეგროვებული ხმის ჩანაწერები კვლევაში (Ansolabehere and Hersh 2012) და ექსპერიმენტი (Bond et al. 2012) .
ვფიქრობ, რომ გამეორების იდეა ფუნდამენტურია დიდი მონაცემთა წყაროდან სწავლისა და ასე უფრო კონკრეტულად საუბრისას დიდი მონაცემთა წყაროების თვისებები (სექცია 2.3) და როგორ შეიძლება გამოყენებულ იქნას კვლევა (ნაწილი 2.4), მინდა შესთავაზოს ორი ცალი გენერალური რჩევა repurposing. პირველი, ეს შეიძლება იყოს მაცდური ვიფიქროთ განსხვავებით, რომ მე შეიქმნა, როგორც "ნაპოვნი" მონაცემები და "შემუშავებული" მონაცემები. ეს ახლოს არის, მაგრამ ეს არ არის სწორი. მიუხედავად იმისა, რომ მკვლევარების თვალსაზრისით, დიდი მონაცემთა წყაროები "აღმოაჩინეს", ისინი ცაში არ არიან. ამის ნაცვლად, მკვლევართა მიერ "მოძიებული" წყაროები განკუთვნილია ვინმეს მიერ გარკვეული მიზნით. იმის გამო, რომ "ნაპოვნია" მონაცემები განკუთვნილია ვინმეს მიერ, მე ყოველთვის გირჩევთ, რომ მაქსიმალურად გესმოდეთ თქვენი მონაცემების შექმნისა და პროცესების შესახებ. მეორე, როდესაც ხელახლა ხდება მონაცემების გადაწერა, ხშირად ძალზე სასარგებლოა თქვენი პრობლემის იდეალური მონაცემთა წარმოდგენა და შემდეგ შევადაროთ ის იდეალური მონაცემთა ნაკრებს, რომელსაც იყენებთ. თუ თქვენ არ შეაგროვებთ საკუთარ მონაცემებს, სავარაუდოდ მნიშვნელოვანი განსხვავებებია, რაც გინდა და რა გაქვთ. ამ განსხვავებების დანიშვნა ხელს შეუწყობს იმას, თუ რა გინდათ და ვერ გაიგებთ იმ მონაცემებს, რომლებსაც აქვთ ინფორმაცია და შესაძლოა, ახალი მონაცემების შეგროვება.
ჩემი გამოცდილებიდან გამომდინარე, სოციალურ მეცნიერებსა და მონაცემთა მეცნიერებს ძალიან განსხვავდებიან რეპროდუცირება. სოციალურმა მეცნიერებმა, რომლებიც მიჩვეულებიან კვლევისთვის განკუთვნილ მონაცემებთან მუშაობას, როგორც წესი, სწრაფად აღწერენ პრობლემებს საეჭვო მონაცემებით, ხოლო მისი ძლიერი მხარეების იგნორირება. მეორე მხრივ, მონაცემები მეცნიერები, როგორც წესი, სწრაფი აღვნიშნო სარგებელი repurposed მონაცემები ხოლო იგნორირება მისი სისუსტეები. ბუნებრივია, საუკეთესო მიდგომა არის ჰიბრიდი. ანუ, მკვლევარებმა უნდა გაიგონ დიდი მონაცემთა წყაროების მახასიათებლები, როგორც კარგი, ისე ცუდი და შემდეგ გაერკვნენ, თუ როგორ უნდა ვისწავლოთ მათგან. და ეს არის ამ თავში დარჩენილი გეგმა. მომდევნო ნაწილში მე აღწერს დიდი მონაცემთა წყაროების ათი საერთო მახასიათებელს. შემდეგ, მომდევნო ნაწილში მე აღვწერთ სამი კვლევის მიდგომას, რომელიც კარგად იმუშავებს ასეთი მონაცემებით.