Katta ma'lumotlar yig'indisi nihoyasiga bir vositasi; Ular o'zlarini bir uchi emas.
Katta ma'lumot manbalarining eng keng tarqalgan xususiyati bu BIG ekanligidir. Masalan, ko'plab maqolalar qog'ozlarni tahlil qilish va ba'zan maqtash bilan boshlanadi. Misol uchun, " Science" jurnalida Google Kitoblar korpusidagi so'z ishlatish tendentsiyalarini o'rganishda chop etilgan bir maqola quyidagilarni o'z ichiga olgan (Michel et al. 2011) :
"Bizning korpusimiz 500 milliarddan ziyod so'zni, ingliz tilida (361 milliard), frantsuz (45 milliard), ispan (45 milliard), nemis (37 milliard), xitoy (13 milliard), rus (35 milliard) (2 milliard). Eng qadimgi asarlar 1500-yillarda nashr etilgan. Dastlabki o'n yilliklarda bir necha yuz ming so'zdan iborat yiliga bir nechta kitob mavjud. 1800 yilga kelib korpus yiliga 98 mln. 1900 yilga kelib 1,8 mlrd. 2000 yilga kelib, 11 milliardga etdi. Korpusni inson o'qiy olmaydi. Agar 2000 yilda faqat ingliz tilidagi yozuvlarni o'qishga harakat qilsangiz, 200 ta so'z / daqiqalik tezligida, ovqatlanish yoki uyquni kesishmasdan, 80 yil davom etishi kerak edi. Harflar ketma-ketligi inson genomiga nisbatan 1000 barobar ko'proq vaqtni oladi: Agar uni tekis chiziq bilan yozsangiz, Oyga 10 marta etib boradi ".
Ushbu ma'lumotlarning ko'lami shubhasiz ta'sirli va biz Google Kitobi jamoasining ushbu ma'lumotni jamoatchilikka tarqatganidan juda baxtiyormiz (aslida, ushbu bobning oxirida ba'zi tadbirlar ushbu ma'lumotlardan foydalanadi). Ammo, bunday narsalarni ko'rganingizda, siz so'rashingiz kerak: bu ma'lumotlarning barchasi haqiqatan ham qilayotganmi? Agar ular oyga va orqaga faqat bir marta etib borsa, xuddi shu tadqiqotlarni qilishganmi? Agar ma'lumot faqatgina Everest tog'ining tepasiga yoki Eyfel minorasining tepasiga etib borishi mumkin bo'lsa-chi?
Bunday holda, ularning tadqiqotlari, aslida, uzoq vaqt davomida so'zlarning katta bir qismini talab qiluvchi ba'zi topilmalar mavjud. Misol uchun, ular kashf qilgan narsa grammatikaning evolyutsiyasi, ayniqsa tartibsizlik fe'lni konjugatsiya tezligi o'zgarishidir. Ba'zi noqonuniy fe'llar juda kam uchraganligi sababli, katta hajmdagi ma'lumotlar vaqt ichida o'zgarishlarni aniqlash kerak. Ko'pincha, tadqiqotchilar katta ma'lumot manbalarining hajmini oxirigacha ko'rib chiqishadi. "Ko'proq ma'lumotni qidirib topsam" - bu ko'proq muhim ilmiy maqsadga erishish vositasidir.
Mening tajribamga kelsak, noyob hodisalarni o'rganish yirik ma'lumotlar to'plamlari faollashadigan uchta maxsus ilmiy maqsadlardan biridir. Ikkinchisi Qo'shma Shtatlardagi ijtimoiy harakatlanish bo'yicha Raj Cheti va uning hamkasblari (2014) tomonidan olib borilgan tadqiqot natijalariga ko'ra, heterojenlikni o'rganishdir. O'tmishda ko'plab tadqiqotchilar ota-onalar va bolalarning hayotiy natijalarini taqqoslash orqali ijtimoiy harakatlarni o'rganishdi. Ushbu adabiyotlardan izchil topilgan natijalar - bu ota-onalarning farzandlariga ko'proq foyda keltirishi mumkin, ammo bu munosabatlarning kuchi vaqt va davlatlar orasida farq qiladi (Hout and DiPrete 2006) . Yaqin o'tmishda, Chetty va uning hamkasblari Qo'shma Shtatlar hududlari bo'ylab avlodlararo harakatchanlikda bir xillikni baholash uchun 40 million odamdan soliq yozuvlarini ishlatish imkoniyatiga ega edilar (2.1-rasm). Masalan, kichik kvintilda oiladan boshlanadigan milliy daromad taqsimotining eng yuqori kvintiligiga erishish ehtimoli Kaliforniya shtatining San-Xose shahrida taxminan 13% ni tashkil etadi, ammo Shimoliy Karolina shtatidagi Charlotte shtatida faqat taxminan 4% ni tashkil etadi. Agar bir daqiqagacha 2.1-rasmga qarasangiz, ba'zi joylarda nega avlodlararo harakatlanishning boshqalarga qaraganda yuqori bo'lishini so'rashingiz mumkin. Cheti va hamkasblari aynan shunday savolga ega edilar va ular yuqori mobillik sohalari kam yashash taqsimotiga, kam daromadlar tengsizligiga, yaxshi boshlang'ich maktablarga, katta ijtimoiy kapitalga va oiladagi barqarorlikka ega ekanligini aniqladilar. Albatta, bu o'zaro bog'liqlik, bu omillar yuqori harakatga olib kelishi mumkinligini ko'rsatmaydi, ammo Chetty va uning hamkasblari kelgusidagi ishlarda aynan qanday ishlarni amalga oshirishi mumkin bo'lgan mexanizmlarni taklif qilishadi. Ushbu loyihada ma'lumotlar hajmi qanchalik muhimligiga e'tibor bering. Agar Chetty va uning hamkasblari 40 million emas, balki 40 ming kishidan iborat soliq rekordini ishlatganlarida, ular mintaqaviy heterojenlikni taxmin qila olmaydilar va ular bu o'zgarishlarni yaratuvchi mexanizmlarni aniqlab olishga harakat qila olishmaydi.
Va nihoyat, noyob hodisalarni o'rganishdan tashqari, heterojenlikni o'rganish bilan bir qatorda, katta ma'lumotlar to'plamlari tadqiqotchilarga kichik farqlarni aniqlash imkonini beradi. Darhaqiqat, sanoatdagi katta ma'lumotlarga katta e'tibor qaratilgan ushbu kichik farqlar: reklamada 1% dan 1,1% gachasi kliklashish stavkalarini ishonchli tarzda aniqlash qo'shimcha daromadlarda millionlab dollarga aylanishi mumkin. Biroq, ayrim ilmiy sharoitlarda, bunday kichik farqlar statistik jihatdan ahamiyatli bo'lsa-da, muhim emas (Prentice and Miller 1992) . Ammo, ayrim siyosat sharoitlarida ular umumiy nuqtai nazarda muhim ahamiyatga ega bo'lishi mumkin. Misol uchun, agar ikkita sog'liqni saqlash aralashuvi mavjud bo'lsa, ikkinchisi boshqalardan ko'ra bir oz ko'proq samaraliroq bo'lsa, unda yanada samarali aralashuvni tanlash minglab qo'shimcha hayotni saqlab qolish bilan yakunlanishi mumkin.
Bigness odatda to'g'ri ishlatilganda yaxshi xususiyat bo'lsa-da, ba'zida kontseptual xatolikka olib kelishi mumkinligini tushunib etdim. Nima bo'lganda ham, tadqiqotchilar tadqiqotchilarga ma'lumotlarning qanday shakllanishiga e'tibor bermasliklari mumkin. Kattalik tasodifiy xato haqida qayg'urish shart kamaytirish qilsa-da, aslida sistematik xatolar haqida qayg'urish shart, men bu ostida tasvirlab beraman xatolar turlari ma'lumotlar yaratilgan qanday xulosa kelib chiqadi oshiradi. Misol uchun, men ushbu bobning keyingi qismida men bir loyihada tasvirlab beraman, tadqiqotchilar 11 sentyabr 2001 yilda terroristik hujumga (Back, Küfner, and Egloff 2010) nisbatan yuqori rezolyutsiyani his qilishning xronikasini ishlab chiqarish uchun foydalanilgan xabarlardan foydalanganlar. Tadqiqotchilar juda ko'p xabarlarga ega bo'lganlari sababli, ular kuzatgan naqshlar - kunduz davomida g'azabni kuchaytirayotgani haqida tashvishlanishga hojat yo'q edi - bu tasodifiy farqlar bilan izohlanishi mumkin edi. Juda ko'p ma'lumotlar mavjud edi va naqsh shuni aniq ko'rsatdiki, barcha statistik statistik testlar bu haqiqiy model edi. Ammo, bu statistik testlar ma'lumotlarning qanday yaratilganligi haqida johillik qilgan. Aslida, ko'plab modellar kun bo'yi tobora ko'proq ma'nosiz xabarlarni ishlab chiqaradigan bitta botga taalluqli edi. Ushbu botni olib tashlash qog'ozdagi ba'zi muhim natijalarni (Pury 2011; Back, Küfner, and Egloff 2011) butunlay yo'q (Pury 2011; Back, Küfner, and Egloff 2011) . Juda oddiygina, sistematik xato haqida o'ylamagan tadqiqotchilar avtomatik bot bilan ishlab chiqarilgan beg'ubor xabarlarning hissiy mazmuni kabi katta bo'lmagan miqdorni aniq baholash uchun katta ma'lumotlar to'plamlarini ishlatish xavfiga duch keladilar.
Natijada, katta ma'lumotlar to'plamlari o'z-o'zidan tugamaydi, biroq ular ba'zi tadqiqotlar, shu jumladan noyob hodisalarni o'rganish, turli xilliklarni baholash va kichik farqlarni aniqlash imkoniyatini beradi. Katta ma'lumotlar to'plamlari, ayrim tadqiqotchilarga ma'lumotlarining qanday yaratilganligini inkor etishga olib kelishi mumkin, bu esa ularni ahamiyatsiz miqdorda aniq baholashga olib kelishi mumkin.