2.3.1.1 Big

Katta ma'lumotlar yig'indisi nihoyasiga bir vositasi; Ular o'zlarini bir uchi emas.

Katta ma'lumotlar uch yaxshi xususiyatlaridan birinchi eng muhokama qilinadi: bu katta ma'lumotlar bor. ko'p odamlar, kishi boshiga axborot uchastkalar yoki vaqt davomida ko'p kuzatishlar: Ushbu ma'lumotlar manbalari uch xil yo'l bilan katta bo'lishi mumkin. katta majmui bo'lgan, noyob hodisalarini o'rganish, kichik farqlarni aniqlash va kuzatish ma'lumotlari nedensel smeta qilish, ilmiy-o'lchov heterojenliğinin ba'zi muayyan turdagi beradi. Bundan tashqari, sloppiness ma'lum bir turiga olib ko'rinadi.

hajmi, ayniqsa, foydalidir bo'lgan birinchi narsa muayyan kichik guruhlar uchun taxmin qilish o'rtacha tashqarida harakat qilmoqda. Misol uchun, Gary King, Jennifer Pan va Molly Roberts (2013) Xitoyda ijtimoiy media xabarlar hukumat tomonidan tsenzura, deb ehtimoli o'lchanadi. o'z-o'zidan yo'q qilish, bu o'rtacha ehtimoli hukumat ba'zi xabarlar emas, balki boshqalar tsenzurasiz nega tushunish uchun juda foydali emas. ularning DataSet 11 million xabarlar kiritilgan, chunki Lekin, King va hamkasblari ham 85 alohida toifadagi (Pekin masalan, pornografiya, Tibet, va trafik) haqida xabarlar uchun tsenzura ehtimoli uchun smetasini ishlab chiqarilgan. turli toifadagi xabarlar uchun tsenzura ehtimolini solishtirish yo'li bilan, ular hukumat xabarlar ayrim turlarini tsenzurasiz qanday va nima uchun to'g'risida batafsil tushunish ega edi. 11 ming xabarlar (o'rniga 11 million xabarlar) bilan, ular bu turkumga xos smetasini ishlab chiqarish quvvatiga ega bo'lgan emas edi.

Ikkinchidan, hajmi nodir voqealar o'rganish uchun, ayniqsa, foydalidir. Misol uchun, Goel va hamkasblari (2015) tweets Virusli borish mumkin, turli yo'llarini o'rganish uchun so'radim. qayta-tvitlar katta Cascades juda kam-bir bir, chunki 3000-ular tahlil qilish uchun etarlicha katta pog'onali topish uchun bir milliarddan ortiq tvitlar o'rganish uchun zarur bo'lgan.

Uchinchidan, katta ma'lumotlar yig'indisi kichik farqlarni aniqlash uchun tadqiqotchilari beradi. Aslida, sanoatda katta ma'lumotlar markazida ko'p bu kichik farqlar haqida: ishonchli qo'shimcha daromad millionlab dollarlik tarjima mumkin e'lon 1% va 1,1% bosish orqali stavkalari o'rtasidagi farq aniqlash. Ba'zi ilmiy sozlash, bunday kichik farqlar (ular statistik muhim bo'lsa ham) muhim Xususan bo'lmasligi mumkin. umumiy qaralganda Lekin, ba'zi siyosati sozlash, bunday kichik farqlar muhim bo'lishi mumkin. Misol uchun, ikki sog'liqni saqlash choralar va bir keyin qo'shimcha hayotida minglab tejash bitebileceğini yanada samarali aralashuvi uchun, kommutatsion oz yanada samarali boshqa ortiq bor bo'lsa bo'ladi.

Nihoyat, katta ma'lumotlar silsilasini katta kuzatish ma'lumotlari nedensel taxmin qilish qobiliyatini oshirish. katta ma'lumotlar yig'indisi tubdan kuzatish ma'lumotlari nedensel chiqaman qilish taalukli va tabiiy tajribalar-ikki texnik tadqiqotchilar kuzatuv dan nedensel da'volarni qilish uchun ishlab chiqilgan ma'lumotlar-ikkala katta katta ma'lumotlar foyda bilan bog'liq muammolar o'zgarmaydi-da. Men tushuntirib va ​​men tadqiqot strategiyalarni tasvirlab, bu bobda, keyinchalik batafsil bu da'vosini misol olaman.

kattalik odatda to'g'ri foydalanish yaxshi mulk bo'lsa-da, men kattalik keng tarqalgan bir kontseptual xato olib keladi payqadik. Negadir, kattalik ularning ma'lumotlar hosil qilib e'tiborsizlik tadqiqotchilari olib ko'rinadi. Kattalik tasodifiy xato haqida Xavotir zarurligini kamaytirish qilsa-da, aslida sistematik xatolar haqida tashvishlanib hojat, men bu quyida batafsil tasvirlab beraman xatolar turlari ma'lumotlar yaratgan va yig'ilgan qanday xulosa kelib chiqadi oshiradi. kichik ma'lumotlar, tasodifiy xato va tizimli xato, ham muhim bo'lishi mumkin, lekin katta dataset tasodifiy xato yuz o'rtacha va sistematik xato hokim mumkin bo'ladi. noto'g'ri narsa aniq taxmin olish uchun ularning katta Ma'lumotlarni guruhlar yordamida nihoyasiga yetadi sistematik xato haqida o'ylamayman Tadqiqotchilar; Ular aniq noto'g'ri bo'ladi (McFarland and McFarland 2015) .