Sizning katta ma'lumotlaringiz qanchalik katta bo'lmasin, ehtimol siz xohlagan ma'lumotlarga ega emas.
Katta ma'lumot manbalarining ko'pi to'liq emas, chunki sizning tadqiqotingiz uchun kerakli ma'lumot yo'q. Bu tadqiqotdan boshqa maqsadlar uchun yaratilgan ma'lumotlarning umumiy xususiyati. Ko'pgina ijtimoiy olimlar allaqachon tugallanmagan narsalar bilan shug'ullanish tajribasiga ega edilar, masalan, zarur bo'lgan savolni bermagan mavjud tadqiqot. Afsuski, tugallanmagan muammolar katta ma'lumotlarda ko'proq ekstraditsiya qilishadi. Mening tajribamda katta ma'lumot ijtimoiy tadqiqot uchun foydali bo'lgan uch turdagi ma'lumotni yo'qotishdan iborat: ishtirokchilar to'g'risidagi demografik ma'lumotlar, boshqa platformalardagi xatti-harakatlar va nazariy konstruktsiyalarni ishlatish uchun ma'lumotlar.
Uchta turlikning to'liqsizligini hisobga olgan holda, nazariy konstruktsiyani ishga tushirish uchun to'liq bo'lmagan ma'lumotlar muammosi hal qilinmaydi. Va mening tajribamda, ko'pincha tasodifan e'tibordan chetda. Taxminan, nazariy tuzilmalar ijtimoiy olimlar o'rganish va operationalizing nazariy asos, deb kuzatiladigan ma'lumotlar bilan qurish qo'lga ba'zi yo'l taklif anglatadi mavhum g'oyalar. Afsuski, bu oddiy chalinish jarayoni odatda juda qiyin bo'ladi. Misol uchun, keling, yanada aqlli odamlarning ko'p pul topishiga doir oddiy da'volarni empirik tarzda sinab ko'rishga harakat qilaylik. Ushbu da'volarni tekshirish uchun siz "razvedka" ni o'lchashingiz kerak bo'ladi. Lekin aql nima? Gardner (2011) , aslida sakkiz turli xil aql shakllari borligini ilgari surdi. Ushbu aqlning har qanday shakllarini aniq o'lchash usullari mavjudmi? Psixologlarning katta miqdordagi ishlariga qaramasdan, bu savollarga hali aniq javob yo'q.
Shunday qilib, nisbatan sodda bo'lgan da'vo - hatto ko'proq aqlli odamlarga ko'proq pul topish - empirik tarzda baholash qiyin bo'lishi mumkin, chunki ma'lumotlardagi nazariy konstruktsiyalarni ishlatish qiyin bo'lishi mumkin. Ijtimoiy olimlar, nazariy konstruktsiyalar va ma'lumotlar qurilishi kuchliligi (Cronbach and Meehl 1955) o'rtasidagi o'yinni da'vat qiladilar. " (Cronbach and Meehl 1955) ", "ijtimoiy kapital" va "demokratiya" kabi muhim nazariy konstruktsiyalarning boshqa misollari. Ushbu qisqa qurilishlar ro'yxati shuni ko'rsatadiki, amal qilish muddati - ijtimoiy olimlar juda uzoq vaqtdan beri kurash olib borgan muammodir. Ammo mening tajribamga asoslanib, tadqiqot maqsadlari uchun yaratilmagan ma'lumotlar bilan ishlashda (Lazer 2015) kuchliligini yaratish muammolari ko'proq.
Agar tadqiqot natijalarini baholagan bo'lsangiz, qurilishning haqiqiyligini baholashning tezkor va foydali usuli odatda konstruktsiyalar uchun ifodalanadigan natijani olish va uni ishlatilgan ma'lumotlar bo'yicha qayta ifodalashdir. Misol uchun, aqlli odamlarga ko'proq pul topish kerakligini ko'rsatadigan ikkita hipotetik tadqiqni ko'rib chiqing. Dastlabki tadqiqotda, tadqiqotchi Raven Progressive Matrices Test-ga juda yaxshi baho bergan kishilarga (Carpenter, Just, and Shell 1990) analitik razvedka (Carpenter, Just, and Shell 1990) juda yaxshi o'rganilganligi - ularning soliq deklaratsiyalari bo'yicha yuqori daromad keltirganligini topdi. Ikkinchi tadqiqotda, tadqiqotchi Twitterda ko'p so'zlarni ishlatgan odamlarning hashamatli brendlardan bahramand bo'lish ehtimoli ko'proq ekanligini aniqladi. Ikkala holatda ham, bu tadqiqotchilar ko'proq aqlli odamlarga ko'proq pul ishlayotganligini ko'rsatganlar. Biroq, birinchi tadqiqotda nazariy konstruktsiyalar ma'lumotlar bilan yaxshi ishlaydi, ikkinchidan esa ular yo'q. Bundan tashqari, ushbu misolda ko'rsatilgandek, qo'shimcha ma'lumotlar tuzilishning haqiqiyligi bilan bog'liq muammolarni avtomatik tarzda hal qilmaydi. Siz ikkinchi tadqiqot natijalariga shubha qilishingiz kerak, u bir million tweet, bir milliard tweet yoki trillion tweet. Jadvalning asosini yaratish g'oyasi bilan tanish bo'lmagan tadqiqotchilar uchun 2.2-jadvalda raqamli iz ma'lumotlaridan foydalangan holda nazariy konstruktsiyalarni operativlashtirgan ba'zi bir misollar keltirilgan.
Ma'lumot manbai | Nazariy tuzilma | Manbalar |
---|---|---|
Universitetdagi elektron pochta qaydlari (faqat metadata) | Ijtimoiy munosabatlar | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo ijtimoiy media postlari | Fuqarolar ishtiroki | Zhang (2016) |
Kompaniyadan elektron pochta qaydlari (metadata va to'liq matn) | Tashkilotda madaniy muhit | Srivastava et al. (2017) |
Nazariy tuzilmalarni qo'lga kiritish uchun tugallanmagan ma'lumotlarning muammoni hal qilish juda qiyin bo'lsa-da, boshqa keng tarqalgan nosog'lom turlarga umumiy yechimlar mavjud: to'liq bo'lmagan demografik ma'lumotlar va boshqa platformalardagi xatti-harakatlar to'g'risida to'liq ma'lumot. Birinchi hal, kerakli ma'lumotlarni to'plashdir; Sizga bu haqda 3-bobda so'rovlar haqida aytganimda aytib beraman. Ikkinchi asosiy yechim - bu ma'lumotlarning olimlar tomonidan foydalanuvchi attributlari deb atalishini va ijtimoiy olimlarning fikrlarini ifodalashni talab qilishdir . Ushbu yondashuvda tadqiqotchilar o'zlarining ba'zi kishilarga tegishli bo'lgan ma'lumotlarini boshqa kishilarning atributlariga jalb qilishadi. Uchinchi mumkin bo'lgan echim - bir nechta ma'lumot manbalarini birlashtirish. Ushbu jarayon ba'zida rekord aloqa deb ataladi. Bu jarayon uchun eng sevgan metafora Dunn (1946) yozgan birinchi yozuvning birinchi xat boshida yozilgan:
"Dunyodagi har bir inson hayot kitobini yaratadi. Ushbu kitob tug'ilish bilan boshlanadi va o'lim bilan tugaydi. Uning sahifalari hayotdagi asosiy voqealar yozuvlaridan tashkil topgan. Yozuv shrifti - bu kitobning sahifalarini jildga yig'ish jarayoniga berilgan nom. "
Dann, bu kitobni yozganda, hayot kitobida tug'ilish, nikoh, ajralish va o'lim kabi muhim voqealarni o'z ichiga olishi mumkinligini tasavvur qilardi. Biroq, hozirgi kunga qadar odamlar haqida juda ko'p ma'lumot yozilgan, hayot kitoblari ajoyib sahifalar bo'lishi mumkin, agar bu turli sahifalar (ya'ni, raqamli izlarimiz) bir-biriga bog'langan bo'lsa. Ushbu Hayot kitobi tadqiqotchilar uchun ajoyib manba bo'lishi mumkin. Ammo, shuningdek, 6-bobda (axloqiy) tasvirlab beradigan kabi, har qanday axloqiy maqsadlar uchun ishlatilishi mumkin bo'lgan buzilgan ma'lumotlar bazasi (Ohm 2010) deb ham atash mumkin.