Үлкен көлемді деректер соңына құралы болып табылады; өздері мақсат емес.
Үлкен деректер көздерінің ең көп талқыланған ерекшелігі - олар BIG. Көптеген қағаздар, мысалы, талқылап-кейде мақтана бастайды - қанша деректер талданды. Мәселен, Google кітаптар корпусындағы сөзді пайдалану үрдістерін ғылыми зерттеуде жарияланған мақала келесідей болды (Michel et al. 2011) :
«Біздің корпусымызда 500 миллиардтан астам сөз, ағылшын (361 миллиард), француз (45 миллиард), испан (45 миллиард), неміс (37 миллиард), қытай (13 миллиард), орыс (35 миллиард) (2 млрд.). Ең көне туындылар 1500 жылдары жарияланған. Алғашқы онжылдықтарда бірнеше жүз мың сөзден тұратын жыл сайын бірнеше кітап бар. 1800 жылға қарай корпус жылына 98 миллион сөзге дейін өседі; 1900 жылға қарай 1,8 млрд. ал 2000, 11 млрд. Корпус адамды оқымайды. Егер сіз тек ағылшын тіліндегі жазбаларды тек 2000 жылдан бастап, 200 сөзден / мин. Жылдамдықта тамақтануға немесе ұйқылыққа жол бермей-ақ оқуға тырыссаңыз, ол 80 жасқа толады. Хаттардың реті адамның геномына қарағанда 1000 есе ұзағырақ: Егер сіз оны тікелей сызықпен жазсаңыз, ол Айға жетіп, 10 есеге артатын болады. «
Бұл деректердің ауқымы сөзсіз әсерлі және Google Books кітабының осы деректерді жұртшылыққа жария еткеніне өте қуаныштымыз (іс жүзінде, осы тараудың соңындағы кейбір әрекеттер осы деректерді қолдануға мүмкіндік береді). Бірақ, сіз осындай нәрсені көргенде, сұраңыз: бұл деректер шынымен де бір нәрсе істеп жатыр ма? Егер деректер Ай мен артқа бір рет жетсе, олар бірдей зерттеулерді жүргізе алар ма еді? Егер деректер тек Эверест тауының немесе Эйфель мұнарасының жоғарғы жағына дейін жетсе ше?
Бұл жағдайда олардың зерттеулері, шын мәнінде, ұзақ уақыт бойы сөздердің үлкен корпусын талап ететін кейбір тұжырымдарға ие. Мысалы, олар зерттеп жүрген нәрсе - грамматиканың эволюциясы, әсіресе, дұрыс емес етістіктің ұштасуы жылдамдығындағы өзгерістер. Кейбір кездейсоқ етістіктер өте сирек кездесетіндіктен, уақыт өте келе өзгерістерді анықтайтын деректердің үлкен көлемі қажет. Дегенмен, зерттеушілер үлкен деректер көзінің көлемін соңғы деректер ретінде қарастырады, яғни «қанша деректерді қарауға болатынын» - белгілі бір маңызды ғылыми мақсаттарға жету құралы емес.
Менің тәжірибемде сирек кездесетін оқиғаларды зерттеу үлкен деректер жиынтығы мүмкіндік беретін үш нақты ғылыми мақсаттардың бірі болып табылады. Екіншісі - біртектілікті зерттеу, бұл Радж Четти және әріптестерімен (2014) Құрама Штаттардағы әлеуметтік ұтқырлық туралы зерттеу арқылы суреттеледі. Бұрын көптеген зерттеушілер ата-аналар мен балалар өмірінің нәтижелерін салыстыру арқылы әлеуметтік мобильділікті зерттеді. Осы әдебиеттерден дәйекті түрде іздеу артықшылықты ата-ана балалардың артықшылықтары бар балаларға тән, бірақ бұл қатынастардың беріктігі уақыт пен елдер бойынша өзгереді (Hout and DiPrete 2006) . Алайда жақын арада Четти мен әріптестер АҚШ-та өңірлер бойынша ұрпақаралық мобильділікте әртүрлілікті бағалау үшін 40 миллион адамнан салық есебін қолдана алды (2.1 сур.). Олар, мысалы, төменгі квинтилде тұратын отбасынан шыққан баланың ұлттық табыс табысының ең жоғары квинтильге жету ықтималдығы Сан-Хосе, Калифорния штатында 13% -ды құрайды, бірақ Солтүстік Каролинадағы Шарлотте шамамен 4% ғана. Бір сәтте 2.1 суретке қарасаңыз, кейбір жерлерде ұрпақаралық ұтқырлық неге басқаларға қарағанда неғұрлым жоғары болғанын сұрастыруыңыз мүмкін. Chetty және әріптестері дәл сол мәселеге ие болды және олар жоғары ұтқырлықты аудандарда сегрегацияны азайту, табыс теңсіздігінің аздығы, жақсы бастауыш мектептер, үлкен әлеуметтік капитал және отбасылық тұрақтылықтың көп екенін анықтады. Әрине, бұл қатынастар тек осы факторлар жоғары мобильділікке әкеліп соқтырмайды, бірақ олар әрі қарай жұмыс барысында зерттелетін ықтимал механизмдерді ұсынады, бұл Chetty және әріптестері кейінгі жұмысында. Бұл жобада деректердің мөлшері қаншалықты маңызды екеніне назар аударыңыз. Егер Chetty және әріптестері 40 миллионнан астам емес 40 мың адамның салық есебін қолданған болса, онда олар аймақтық біркелкілікті бағалай алмаған еді және олар осы өзгерістерді жасайтын механизмдерді анықтауға тырысқан емес.
Ақырында, сирек кездесетін оқиғаларды зерттеуден және біртектілікті зерттеуден басқа, үлкен деректер жиынтығы зерттеушілерге шағын айырмашылықтарды анықтауға мүмкіндік береді. Шын мәнінде, өнеркәсіптегі үлкен деректерге көп көңіл бөлінеді, бұл кішігірім айырмашылықтар туралы: жарнамаға қатысты ставкалардың 1% -дан 1,1% -ға дейінгі айырмашылығын сенімді түрде анықтау миллионнан астам долларға қосымша табыс әкелуі мүмкін. Алайда кейбір ғылыми жағдайларда мұндай айырмашылықтар статистикалық маңызды болғанымен де маңызды болмауы мүмкін (Prentice and Miller 1992) . Бірақ, кейбір саясаттың параметрлері бойынша олар жиынтықта қаралған кезде маңызды болуы мүмкін. Мысалы, егер екі қоғамдық денсаулық сақтау шаралары болса, екіншісі бір-біріне қарағанда сәл тиімдірек болса, онда тиімдірек араласуды таңдау мыңдаған қосымша өмірді сақтап қалуы мүмкін.
Дегенмен, үлкен мөлшерде дұрыс пайдаланған кезде жақсы қасиет болса да, кейде ол тұжырымдамалық қатеге әкелуі мүмкін екенін байқадым. Кейбір себептермен, үлкен мәнділік, зерттеушілерге олардың деректерінің қалай қалыптасқанын ескермеуі мүмкін. Бинес-мезгіл кездейсоқ қате туралы алаңдатудың қажеттілігін азайтқанымен, жүйелі қателер туралы алаңдауға деген қажеттілікті, деректердің қалай жасалатынын алдын-алудан туындайтын төмендегі қателер түрлерін көбейтеді . Мысалға, осы тарауда кейінірек сипаттайтын жобада зерттеушілер 11 қыркүйек 2001 жылы жасалған террорлық шабуылға (Back, Küfner, and Egloff 2010) реакцияның жоғары рұқсат етілген эмоционалды уақытын жасау үшін жіберген хабарларды пайдаланды. Зерттеушілер көптеген хабарларға ие болғандықтан, олар байқаған үлгілердің күндізгі уақытта ашулануына байланысты алаңдатудың қажеті жоқ - бұл кездейсоқ өзгерістермен түсіндіріледі. Деректер өте көп болғандықтан, барлық статистикалық статистикалық тестілер бұл шынайы үлгі екенін көрсетті. Бірақ, бұл статистикалық тесттер деректердің қалай жасалатынын білмеді. Шын мәнінде, көптеген модельдер бір күнде күнделікті неғұрлым мағынасыз хабарламалар жасайтын бір ботқа жататыны анықталды. Бұл ботты алып тастау қағаздағы кейбір маңызды нәтижелерді (Pury 2011; Back, Küfner, and Egloff 2011) толығымен жойды. Қарапайым жүйелі қате туралы ойламайтын зерттеушілер автоматтандырылған ботпен жасалынған мағынасыз хабарлардың эмоциялық мазмұны сияқты маңызды емес сандарды дәл бағалау үшін үлкен деректер жиынтығын пайдалану қаупіне ұшырайды.
Қорытындылай келе, үлкен деректер жиынтығы өздігінен аяқталмайды, бірақ олар белгілі бір зерттеу түрлерін, соның ішінде сирек кездесетін оқиғаларды, әртүрлі бағалауды және шағын айырмашылықтарды анықтауды қоса алады. Үлкен деректер жиынтығы, кейбір зерттеушілерге олардың деректерінің қалай құрастырылғанын ескермеуіне әкеліп соқтырады, бұл оларды маңызды емес санын нақты бағалауға әкелуі мүмкін.