დიდი მონაცემების არის საშუალება ბოლომდე; ისინი არ არიან თვითმიზანს.
ყველაზე ფართოდ განიხილება დიდი მონაცემთა წყაროების ფუნქცია, რომ ისინი უფრო დიდია. მაგალითად, ბევრი ნაშრომი იწყებს მსჯელობას და ზოგჯერ ამახინჯებს - რამდენად გაანალიზებულია მონაცემები. მაგალითად, ქაღალდის გამოქვეყნდა მეცნიერების შესწავლის სიტყვა გამოყენების ტენდენციები Google Books corpus მოიცავდა შემდეგ (Michel et al. 2011) :
"ჩვენი კორპუსი შეიცავს 500 მილიარდზე მეტს ინგლისურ ენაზე (361 მილიარდი), ფრანგული (45 მილიარდი), ესპანური (45 მილიარდი), გერმანული (37 მილიარდი), ჩინური (13 მილიარდი), რუსული (35 მილიარდი) და ებრაული (2 მილიარდი). უძველესი ნამუშევრები გამოქვეყნდა 1500-იან წლებში. ადრეული ათწლეულების განმავლობაში წარმოდგენილია მხოლოდ რამდენიმე წიგნი წელიწადში, რომელთაგან შედგება რამდენიმე ასეული ათასი სიტყვა. 1800 წლისთვის კორპუსი წელიწადში 98 მლნ სიტყვას იზრდება. 1900 წლისთვის, 1.8 მილიარდი; და 2000 წლისთვის, 11 მილიარდი. კორპუსი ვერ იკითხება ადამიანის მიერ. თუ 2000 წლიდან მხოლოდ ინგლისური ენის შესწავლის წაკითხვის მცდელობა მხოლოდ 200 სიტყვისა და მინიმუმზე, სასურსათო ან ძილის შეფერხების გარეშე, 80 წელზე დასჭირდება. წერილების თანმიმდევრობა 1000-ჯერ უფრო გრძელია, ვიდრე ადამიანის გენომის: თუ სწორად დავწერე იგი, მთვარეზე მიაღწევდა და 10-ჯერ მეტი ხდებოდა.
ამ მონაცემების მასშტაბი უდავოდ შთამბეჭდავია და ჩვენ ყველა ბედნიერია, რომ Google Books- მა ამ მონაცემებს საჯარო ინფორმაცია გამოაქვეყნა (სინამდვილეში, ამ მონაკვეთის ზოგიერთი აქტივობა ამ მონაცემების გამოყენებისას). მაგრამ, როცა ხედავთ რაღაცას, უნდა იკითხო: არის ის, რომ ყველა ეს მონაცემები მართლაც აკეთებს? შეძლებდნენ იგივე კვლევას, თუ მონაცემთა მიღწევა შეეძლო მთვარეზე და მხოლოდ ერთხელ? რა მოხდება, თუ მონაცემთა მხოლოდ Everest მთაზე ან ეიფელის კოშკის თავზე მიაღწევს?
ამ შემთხვევაში, მათი კვლევა, ფაქტობრივად, აქვს გარკვეული დასკვნები, რომელიც საჭიროებს დიდი კორპუსის სიტყვა ხანგრძლივი დროის განმავლობაში. მაგალითად, ერთი რამ იკვლევენ გრამატიკის ევოლუციას, განსაკუთრებით ცვლილებებს არალეგალური ზმნის კონიუგზე. ვინაიდან ზოგიერთი იშვიათ ზმნა საკმაოდ იშვიათია, დიდი რაოდენობით მონაცემები საჭიროა დროთა განმავლობაში გამოვლენილი ცვლილებები. ხშირად ხშირად მკვლევარები, როგორც ჩანს, დიდ მონაცემთა წყაროს ზომას განიხილავენ - "შეხედე, რამდენი მონაცემები შემიძლია დამძიმებული", ვიდრე სხვა მნიშვნელოვანი სამეცნიერო მიზნების საშუალებით.
ჩემი გამოცდილება, იშვიათი მოვლენების შესწავლა ერთ-ერთია სამი კონკრეტული სამეცნიერო დასასრული, რომლითაც დიდი მონაცემთა ბაზა იწყება. მეორეა ჰეტეროგენურობის შესწავლა, როგორც ჩანს, რაგ ჩეტისა და კოლეგების (2014) მიერ ჩატარებული კვლევა ამერიკის შეერთებულ შტატებში სოციალური მობილობის შესახებ. წარსულში ბევრი მკვლევარი სწავლობდა სოციალურ მობილობას მშობლებისა და შვილების ცხოვრების შედეგების შედარებით. ამ ლიტერატურის თანმიმდევრული მოძიება ისაა, რომ უპირატესობამ მშობლებს უპირატესობა მიანიჭა, მაგრამ ამ ურთიერთობის ძალა მერყეობს დროთა განმავლობაში და ქვეყნებში (Hout and DiPrete 2006) . თუმცა, ცოტა ხნის წინ, ჩეთიმ და კოლეგებმა შეძლეს საგადასახადო ჩანაწერების გამოყენება 40 მილიონიდან, რათა განისაზღვროს ჰეტეროგენულობა ამერიკის შეერთებულ შტატებში რეგიონებში ინტეგრირებადი მობილობისთვის (ფიგურა 2.1). მათ აღმოაჩინეს, მაგალითად, რომ ალბათობა, რომ ბავშვი მიაღწევს დაბრუნება კვინტილში ეროვნული შემოსავლების განაწილების ოჯახის დაწყებული quintile დაახლოებით 13% სან ხოსე, კალიფორნია, მაგრამ მხოლოდ 4% Charlotte, ჩრდილოეთ კაროლინაში. თუ გადავხედავთ ფიგურა 2.1-ს, შეგიძლიათ დაიწყოთ საინტერესო კითხვა, თუ რატომ არის უფრო ზოგადი ინტერნაციონალური მობილობა ზოგიერთ ადგილას, ვიდრე სხვები. ჩეტი და კოლეგებს ზუსტად იგივე კითხვა ჰქონდათ და მათ აღმოაჩინეს, რომ მაღალი მობილობის ადგილებში ნაკლებად საცხოვრებელი სეგრეგაცია, ნაკლები შემოსავლის უთანასწორობა, უკეთესი დაწყებითი სკოლები, უფრო მეტი სოციალური კაპიტალი და ოჯახის სტაბილურობა. რასაკვირველია, ეს კორელაციები მხოლოდ იმას არ აჩვენებს, რომ ამ ფაქტორებს უფრო დიდი მობილურობა მოჰყვება, მაგრამ მათ ვარაუდობენ შესაძლო მექანიზმებს, რომლებიც შეიძლება შემუშავებულ იქნეს შემდგომში, რაც სწორედ ისაა, რაც ჩეთიმ და კოლეგებმა მომდევნო სამუშაოები გააკეთეს. ყურადღება მიაქციეთ, რამდენად მნიშვნელოვანია ამ ზომის მონაცემები ამ პროექტში. თუ ჩეთი და კოლეგები 40 ათასზე მეტი ადამიანის საგადასახადო ჩანაწერებს იყენებდნენ 40 მილიონზე მეტს, ვერ შეძლებდნენ რეგიონული ჰეტეროგენურობის შეფასებას და ვერ შეძლებდნენ შემდგომი კვლევის ჩატარებას, რათა თავიდან იქნეს აცილებული მექანიზმები, რომლებიც ქმნიან ამ ვარიაციას.
საბოლოოდ, იშვიათი მოვლენების შესწავლისა და ჰეტეროგენეობის შესწავლის გარდა, მსხვილი მონაცემებით, მკვლევარს მცირე განსხვავებების აღმოჩენა შეუძლია. სინამდვილეში, ინდუსტრიის დიდ მონაცემებზე დიდი ყურადღება ექცევა ამ მცირე განსხვავებებს: საიმედოდ გამოვლენილია განსხვავება 1% -სა და 1.1% -ზე დაწკაპუნებით, რეკლამის განთავსებაზე, დამატებით შემოსავალში მილიონობით დოლარს გადააწვდის. ზოგიერთ სამეცნიერო პარამეტრებში, თუმცა, ასეთი მცირე განსხვავებები არ შეიძლება იყოს მნიშვნელოვანი, მაშინაც კი, თუ ისინი სტატისტიკურად მნიშვნელოვანია (Prentice and Miller 1992) . მაგრამ, ზოგიერთი პოლიტიკის პარამეტრებში, ისინი შეიძლება გახდეს მნიშვნელოვანი, როდესაც განიხილება საერთო. მაგალითად, თუ არსებობს ორი საზოგადოებრივი ჯანდაცვის ინტერვენცია და ერთი ოდნავ უფრო ეფექტურია, ვიდრე მეორე, მაშინ კრეფა უფრო ეფექტური ჩარევა შეიძლება დასრულდეს გადარჩენის ათასობით დამატებითი სიცოცხლე.
მიუხედავად იმისა, რომ ბაგე კარგია, ზოგადად კარგი გამოყენება, მე შევამჩნიე, რომ ზოგჯერ შეიძლება გამოიწვიოს კონცეპტუალური შეცდომა. გარკვეული მიზეზების გამო, ბიგემის აზრით, მკვლევარები იგნორირებას უკეთებენ თავიანთი მონაცემების გენერირებას. მიუხედავად იმისა, რომ Bigness არ შეამცირებს საჭიროება შემთხვევითი შეცდომის შესახებ, ეს ფაქტიურად ზრდის სისტემურ შეცდომებზე ფიქრის საჭიროებას, შეცდომების ტიპებს, რომლებიც ქვემოთ აღწერს ქვემოთ ჩამოთვლილს, რომლებიც წარმოიქმნება მონაცემთა ბაზაში. მაგალითად, პროექტში მე მოგვიანებით აღვწერე ამ თავში, მკვლევარებმა 2001 წლის 11 სექტემბერს (Back, Küfner, and Egloff 2010) გამოიყენეს ტერორისტული თავდასხმის რეაქციის მაღალი რეზოლუციის ემოციური ვადები (Back, Küfner, and Egloff 2010) . იმის გამო, რომ მკვლევარებს ჰქონდათ დიდი რაოდენობით შეტყობინებები, მათ არ სჭირდებოდათ ფიქრი იმის შესახებ, თუ რამდენად შეინიშნებოდა ისინი, თუ რას იზავდნენ ისინი დღეს - დღის განმავლობაში, რის გამოც შეიძლება აიხსნას შემთხვევითი ვარიაცია. იყო ძალიან ბევრი მონაცემები და ნიმუში იმდენად ნათელი იყო, რომ ყველა სტატისტიკური სტატისტიკური ტესტები ვარაუდობდნენ, რომ ეს იყო ნამდვილი მოდელი. მაგრამ ეს სტატისტიკური ტესტები უცოდინარი იყო იმის შესახებ, თუ როგორ შეიქმნა მონაცემები. სინამდვილეში, აღმოჩნდა, რომ ბევრი ნიმუში იყო ერთი ბოტი, რომელიც უფრო და უფრო უაზრო შეტყობინებებს ქმნიდა მთელი დღის განმავლობაში. ამ ბოტის წაშლა ქაღალდზე რამდენიმე ძირითადი დასკვნა მთლიანად გაანადგურა (Pury 2011; Back, Küfner, and Egloff 2011) . უბრალოდ, მკვლევარები, რომლებიც არ ფიქრობენ სისტემურ შეცდომებზე, აყენებენ თავიანთ დიდ მონაცემთა ბაზების რისკს, რათა მიიღონ არასაკმარისი რაოდენობის ზუსტი შეფასება, როგორიცაა ავტომატური ბოტის მიერ წარმოებული უაზრო შეტყობინებების ემოციური შინაარსი.
საბოლოო ჯამში, დიდი მონაცემები არ დასრულდება, მაგრამ მათ შეუძლიათ გარკვეული სახის კვლევა, მათ შორის იშვიათი მოვლენების შესწავლა, ჰეტეროგენეობის შეფასების და მცირე განსხვავებების გამოვლენის ჩათვლით. დიდი მონაცემებით, ზოგიერთი მკვლევარი, როგორც ჩანს, იგნორირებას უკეთებს, თუ როგორ შეიქმნა მათი მონაცემები, რამაც შეიძლება გამოიწვიოს უმნიშვნელო რაოდენობის ზუსტი შეფასება.