Katta ma'lumot manbalari hamma joyda, ammo ularni ijtimoiy tadqiqotlar uchun ishlatish qiyin bo'lishi mumkin. Mening tajribamda ma'lumotlar uchun "bepul tushlik" qoidasi mavjud: Agar siz ko'plab ishlarni to'plashni istamasangiz, unda siz ko'p ishni o'ylab, uni o'ylab ko'rishingiz kerak bo'ladi. uni tahlil qilish.
Bugungi va, ehtimol, ertangi kunning katta ma'lumot manbalari 10 xususiyatga ega bo'ladi. Ulardan uchtasi odatda (lekin har doim ham emas) tadqiqot uchun foydalidir: katta, doimo va reaktiv bo'lmagan. Yigirma nafar (odatda har doim ham emas) tadqiqot uchun muammolar mavjud: tugallanmagan, etilmaydigan, noprofessional, ayirish, algoritmik ravishda aralashtirilgan, iflos va sezgir. Ushbu xarakteristikalarning aksariyati, asosan, ijtimoiy tadqiqot uchun katta ma'lumot manbalari yaratilmaganligi sababli paydo bo'ladi.
Ushbu bobdagi g'oyalarga asoslanib, men katta ma'lumot manbalarining ijtimoiy tadqiqot uchun eng qimmatli uchta asosiy usuli bor deb hisoblayman. Birinchidan, ular tadqiqotchilarni raqobatlashuvchi nazariy taxminlar o'rtasida qaror qabul qilishga imkon berishlari mumkin. Bunday ishning misollari Farber (2015) (Nyu-York taksi haydovchilari) va King, Pan, and Roberts (2013) (Xitoyda senzura). Ikkinchidan, katta ma'lumot manbalari hozirgi kunga kelib siyosatning yaxshilangan o'lchovlarini ta'minlaydi. Ushbu turdagi ishlar Ginsberg et al. (2009) (Google Flu Trends). Nihoyat, katta ma'lumot manbalari tadqiqotchilar tadqiqotlarni amalga oshirishsiz natija bashorat qilishlariga yordam berishi mumkin. Ushbu turdagi ishlarning misollaridan Mas and Moretti (2009) (samaradorlik bo'yicha peer ta'siri) va Einav et al. (2015) (boshlang'ich narxning eBaydagi auktsionlarga ta'siri). Biroq, bu yondashuvlarning har biri tadqiqotchilarni baholash uchun muhim bo'lgan miqdorni aniqlash yoki raqobatlashadigan taxminlarni keltiradigan ikkita nazariya kabi ma'lumotlarga ko'p narsani talab qilishni talab qiladi. Shunday qilib, men katta ma'lumot manbalarining qanday ishlashi haqida o'ylashning eng yaxshi usuli, ular qiziqarli va muhim savollar beradigan tadqiqotchilarga yordam berishi mumkin, deb o'ylayman.
Xulosa qilishdan oldin, menimcha, katta ma'lumot manbalari ma'lumotlar va nazariya o'rtasidagi munosabatlarga muhim ta'sir ko'rsatishi mumkin. Hozirgi kunga kelib, ushbu bob nazariya asosida tadbiq etilgan ampirik tadqiqotlar yondashuviga aylandi. Ammo katta ma'lumot manbalari tadqiqotchilarga empirik tarzda nazariyani amalga oshirish imkonini beradi. Ya'ni, ampirik faktlar, naqshlar va jumboqlarni diqqat bilan to'plash orqali tadqiqotchilar yangi nazariyalarni tuzishi mumkin. Ushbu muqobillik nazariyaga birinchi yondashuv yangi emas va u Barney Glaser va Anselm Strauss (1967) tomonidan asosli nazariyani chaqirish bilan eng kuchli ifodalangan edi. Biroq, bu ma'lumotlarning birinchi yondashuvi, raqamli yoshdagi tadqiqotlarning ayrim jurnallarida ta'kidlanganidek, "nazariyaning oxiri" ni nazarda tutmaydi (Anderson 2008) . Aksincha, ma'lumotlar muhiti o'zgartirilganda, ma'lumotlar va nazariya o'rtasidagi munosabatlarda muvozanatlashishni kutishimiz kerak. Ma'lumot yig'ish qimmat bo'lgan dunyoda, nazariyani taklif qiladigan ma'lumotlar faqatgina eng foydali deb topilgani mantiqiy edi. Ammo, juda katta miqdordagi ma'lumotlar bepul bo'lgan dunyoda, ma'lumotlarning birinchi yondashuvini sinab ko'rish mantiqan to'g'ri keladi (Goldberg 2015) .
Ushbu bobda aytib o'tganimdek, tadqiqotchilar odamlarni kuzatib, ko'p narsalarni o'rganishlari mumkin. Kelgusi uch bobda biz ma'lumot to'plashimiz va odamlarga savollar berishda (3-qism), tajribalar bilan ishlaydigan (4-bob) to'g'ridan-to'g'ri muloqot qilishimiz va hatto ularni jalb qilishda biz qanday qilib ko'proq va turli narsalarni o'rganishimiz mumkinligini tasvirlayman tadqiqot jarayonida to'g'ridan-to'g'ri (5-bob).