დიდი მონაცემთა წყაროები ყველგან არიან, მაგრამ სოციალურ კვლევებში მათი გამოყენება შეიძლება სახიფათო იყოს. ჩემი გამოცდილება, არსებობს რაღაც "არა თავისუფალი სადილი" წესი მონაცემები: თუ არ დააყენა ბევრი სამუშაო შეგროვება მას, მაშინ ალბათ აპირებს უნდა ჩაიდოს ბევრი მუშაობა ვიფიქროთ და გაანალიზება.
დღევანდელი და სავარაუდო ხვალინდელი დიდი წყაროები - 10 თვისს ექნებათ. სამი მათგანი ზოგადად (მაგრამ არა ყოველთვის) გამოსადეგია კვლევისთვის: დიდი, ყოველთვის-და არარეაქტიური. Seven ზოგადად (მაგრამ არა ყოველთვის) პრობლემური კვლევის: არასრული, მიუწვდომელი, nonrepresentative, დრიფტი, ალგორითმიურად confounded, ბინძური, და მგრძნობიარე. ამ მახასიათებლების უმრავლესობა საბოლოო ჯამში წარმოიქმნება, რადგან დიდი მონაცემთა წყაროები სოციალური კვლევის მიზნით არ შეიქმნა.
ამ თავში იდეების გათვალისწინებით, მე ვფიქრობ, რომ არსებობს სამი ძირითადი გზა, რომ დიდი მონაცემთა წყაროები იქნება ყველაზე ღირებული სოციალური კვლევისთვის. პირველ რიგში, მათ საშუალებას მისცემს მკვლევარებს გადაწყვიტონ კონკურენციის თეორიული პროგნოზები. ასეთი სახის ნამუშევრების მაგალითებია Farber (2015) (New York Taxi მძღოლები) და King, Pan, and Roberts (2013) (ცენზურა ჩინეთში). მეორე, დიდი მონაცემთა წყაროები საშუალებას აძლევს გაუმჯობესდეს გაზომვა პოლიტიკისათვის ახლავე გაცვლის გზით. ამგვარი ნამუშევრის მაგალითია Ginsberg et al. (2009) (Google Flu Trends). საბოლოოდ, დიდი მონაცემთა წყაროების დახმარებით მკვლევარებმა შეიძლება გამოიწვიოს მიზეზობრივი შეფასებები ექსპერიმენტების გარეშე. ამგვარი ნიმუშების მაგალითებია Einav et al. (2015) Mas and Moretti (2009) (ეფექტურობის თანატოლების შედეგი) და Einav et al. (2015) (ეფექტი საწყისი ფასი აუქციებზე eBay). თუმცა, თითოეული ეს მიდგომა მოითხოვს მკვლევართა დასამტკიცებლად, რომ ბევრი რამ მოიტანოს მონაცემებით, როგორიცაა განსაზღვრება რაოდენობით, რაც მნიშვნელოვანია, ან შეაფასოს ორი თეორია, რომლებიც კონკურენტულ პროგნოზებს წარმოადგენენ. ამდენად, მე ვფიქრობ, რომ საუკეთესო საშუალებაა ვიფიქროთ იმაში, თუ რა დიდი მონაცემთა წყაროების გაკეთებაა ის არის, რომ მათ შეუძლიათ მკვლევართა დახმარება გაუწიონ საინტერესო და მნიშვნელოვან კითხვებს.
დაასკვნამდე, რომ მიმაჩნია, რომ დიდი მონაცემთა წყაროებს შეიძლება ჰქონდეს მნიშვნელოვანი ეფექტი მონაცემთა და თეორიის ურთიერთობებზე. ჯერჯერობით, ამ თავში მიღებული აქვს თეორიის გამომუშავებული ემპირიული კვლევის მიდგომა. მაგრამ დიდი მონაცემთა წყაროები ასევე საშუალებას აძლევს მკვლევარებს გააკეთონ empirically ორიენტირებული theorizing . ანუ, ემპირიული ფაქტების, ნიმუშების და გამოცდების ფრთხილი დაგროვების გზით, მკვლევარებს შეუძლიათ ახალი თეორიების შექმნა. ეს ალტერნატივა, მონაცემები პირველი მიდგომა თეორიის ახალი არ არის, და ეს იყო ყველაზე იძულებით არტიკულირება Barney Glaser და Anselm Strauss (1967) ერთად მათი მოწოდება დასაბუთებული თეორია. თუმცა, ეს მონაცემები პირველი მიდგომა არ ნიშნავს "თეორიის დასასრულს", როგორც უკვე ითქვა ზოგიერთი ჟურნალისტიკაში ციფრული ასაკის კვლევის გარშემო (Anderson 2008) . უფრო მეტიც, როგორც მონაცემები გარემოს ცვლილებებს, ჩვენ უნდა ველოდოთ გადაჯგუფებას შორის ურთიერთობა და თეორია. სამყაროში, სადაც მონაცემთა შეგროვება ძვირი იყო, ის აზრიანი იყო მხოლოდ იმ მონაცემების შეგროვება, რომელთა თეორიები უფრო სასარგებლო იქნებოდა. მაგრამ მსოფლიოში, სადაც უზარმაზარი რაოდენობით მონაცემები უკვე ხელმისაწვდომია უფასოა, აზრია, რომ ასევე შევეცადოთ მონაცემთა პირველი მიდგომა (Goldberg 2015) .
როგორც ამ თავში ვაჩვენე, მკვლევარებს ბევრი რამის სწავლა შეუძლიათ. მომდევნო სამი თავებში მე აღწერს, თუ როგორ შეგვიძლია უფრო მეტი და სხვა რამის სწავლა, თუ ჩვენ მონაცემთა შეგროვებასა და ადამიანებთან უფრო მეტად ვუკავშირდებით მათ შეკითხვებს (თავი 3), ექსპერიმენტებს (თავი 4), და მათ კვლევის პროცესში პირდაპირ (თავი 5).