Katta ma'lumot kompaniyalar va hukumatlar tomonidan tadqiqotdan boshqa maqsadlar uchun yaratilgan va to'plangan. Shu sababli, tadqiqot uchun bu ma'lumotdan foydalanish repurposingni talab qiladi.
Ko'pgina odamlar raqamli davrda ijtimoiy tadqiqotlar bilan shug'ullanishning birinchi usuli ko'pincha katta ma'lumotlar deb nomlanadi. Ushbu atamani keng ishlatishlariga qaramasdan, qanday katta ma'lumotlar mavjudligi to'g'risida hech qanday kelishuv mavjud emas. Ammo, katta ma'lumotlarning eng keng tarqalgan ta'riflaridan biri "3 Vs": jild, xilma va tezlikka qaratiladi. Shunga qaramay, turli formatlarda ko'p ma'lumotlar mavjud va doimo yaratilmoqda. Katta ma'lumotlarning ba'zi muxlislari "Vs." va boshqa qiymatlarni qo'shib qo'yishadi, biroq ba'zi tanqidchilar "Vague" va "Vaqt" kabi Vlarni qo'shadilar. Ijtimoiy tadqiqotlar maqsadlarida 3 "V" (yoki "V" yoki "V") 5 dan ziyodroq bo'lganidan ko'ra, boshlash uchun yaxshi joy 5 "Ws" dir: Kim, nima, qaerda, qachon va nima uchun. Darhaqiqat, katta ma'lumot manbalari tomonidan yaratilgan ko'pgina qiyinchiliklar va imkoniyatlardan faqat bitta "V" dan kelib chiqadi: nima uchun.
Analog davrda, ijtimoiy tadqiqotlar uchun ishlatilgan ma'lumotlarning aksariyati tadqiqot qilish uchun yaratilgan. Biroq, raqamli davrda kompaniya va hukumatlar tadqiqotlardan boshqa maqsadlar uchun, masalan, xizmatlar ko'rsatish, foyda olish va qonunlarni boshqarish kabi katta miqdordagi ma'lumotlarni yaratmoqdalar. Biroq, ijodkorlar, ushbu korporativ va hukumat ma'lumotlarini tadqiq qilish uchun qayta tuzish mumkinligini anglab etdilar . Duchamp san'atni yaratish uchun topilgan ob'ektni repurposedidek, 1-bobda badiiy o'xshashlikka qayta nazar tashlaydigan olimlar hozirda topilgan ma'lumotni tadqiqotlar uchun yaratishi mumkin.
Shubhasiz, qayta ishlash uchun katta imkoniyatlar mavjud bo'lsa-da, tadqiqot maqsadlarida yaratilmagan ma'lumotlarni ishlatish ham yangi qiyinchiliklarni keltirib chiqaradi. Misol uchun, Twitter kabi ijtimoiy media xizmatini solishtiring, masalan, Umumjahon Ijtimoiy tadqiqotlar an'anaviy jamoatchilik fikrini o'rganing. Twitterning asosiy maqsadi foydalanuvchilarga xizmat ko'rsatish va daromad olishdir. Boshqa tomondan, umumiy ijtimoiy so'rov ijtimoiy tadqiqotlar uchun, xususan jamoatchilik fikrini o'rganish uchun umumiy maqsadli ma'lumotlarni yaratishga qaratilgan. Maqsadlardagi bu farq Twitterni yaratgan va General Social Survey tomonidan yaratilgan ma'lumotlarning har ikkisi ham jamoatchilik fikrini o'rganish uchun ishlatilishi mumkinligini anglatadi. Twitter umumiy ijtimoiy so'rov natijalariga mos keladigan miqyosda va tezlikda ishlaydi, ammo General Social Surveydan farqli o'laroq, Twitter foydalanuvchilarni sinchkovlik bilan sinab ko'rmaydi va vaqt o'tishi bilan taqqoslanishga qodir emas. Ushbu ikki ma'lumot manbasi juda boshqacha ekanligi sababli, umumiy ijtimoiy so'rov Twitterdan yoki uning o'rniga yaxshiroq deb aytish mantiqiy emas. Agar siz global miqyosdagi soatlik o'lchovlarni (masalan, Golder and Macy (2011) ) istasangiz, Twitter eng yaxshisi. Boshqa tomondan, AQShda munosabatlarning polarizatsiyasida uzoq muddatli o'zgarishlarni tushunmoqchi bo'lsangiz (masalan, DiMaggio, Evans, and Bryson (1996) ), unda umumiy Ijtimoiy tadqiqotlar eng yaxshi tanlovdir. Keyinchalik umuman, katta ma'lumot manbalarining boshqa turdagi ma'lumotlarga qaraganda yaxshiroq yoki yomonroq ekanligini ta'kidlashdan ko'ra, ushbu bo'lim qanday katta ma'lumot manbalarining jozibador xususiyatlarga ega bo'lgan va qanday savollarga javob bera olmasligini aniqlash uchun ushbu bo'limni aniqlab olishga harakat qiladi. ideal.
Katta ma'lumot manbalari haqida o'ylashganda, ko'pgina tadqiqotchilar zudlik bilan qidirish mexanizmlari va ijtimoiy media postlari kabi kompaniyalar tomonidan yaratilgan va to'plangan onlayn ma'lumotlarga e'tibor beradi. Biroq, bu tor yo'nalish boshqa ikkita muhim ma'lumot manbasini qoldiradi. Birinchidan, jismoniy dunyoda raqamli qurilmalar orqali korporativ katta ma'lumot manbalari tobora ortib bormoqda. Misol uchun, ushbu bobda men sizga supermarket chiqish ma'lumotlarini ishchi samaradorligi tengdoshlarining mahsuldorligiga qanday ta'sir qilishini o'rganish uchun qayta ishlangan bir ish haqida aytib beraman (Mas and Moretti 2009) . So'ngra, keyingi boblarda sizlarga mobil telefonlardan (Blumenstock, Cadamuro, and On 2015) va elektr kommunal xizmatlari tomonidan tayyorlangan ma'lumotlarning ma'lumotlarini ishlatgan tadqiqotchilar haqida gapirib beraman (Allcott 2015) . Ushbu misollardan ko'rinib turibdiki, korporativ katta ma'lumot manbalari faqatgina onlayn xatti-harakatlardan ko'proqdir.
Internetdagi xatti-harakatlarga tor doirada e'tibor bermagan katta ma'lumotlarning ikkinchi muhim manbai - hukumatlar tomonidan yaratilgan ma'lumotlar. Tadqiqotchilar hukumat ma'muriy yozuvlarini chaqiradigan ushbu hukumat ma'lumotlari soliq rekordlari, maktab yozuvlari va muhim statistika yozuvlari (masalan, tug'ilish va o'limlar ro'yxatlari) kabi narsalarni o'z ichiga oladi. Hukumatlar, ba'zi hollarda, yuzlab yillar davomida bunday ma'lumotni yaratib kelmoqdalar va ijtimoiy olimlar ijtimoiy fan odamlari bor ekan, ularni ishlatishmoqda. Biroq, o'zgarmagan raqamlashtirish, o'zgarmoqda, bu esa hukumatlarni ma'lumotlarni yig'ish, uzatish, saqlash va tahlil qilish uchun juda osonlashtirdi. Misol uchun, ushbu bobda sizga Nyu-York hukumati raqamli taksi taxtasida ma'lumotlarni qayta ishlaydigan bir ish haqida gapirib beraman (Farber 2015) . So'ngra, keyingi boblarda sizga hukumat tomonidan to'plangan ovoz berish yozuvlarining so'rovda (Ansolabehere and Hersh 2012) va tajriba (Bond et al. 2012) qanday ishlatilganligi haqida aytib beraman.
Men katta ma'lumot manbalaridan o'rganish uchun katta ahamiyatga ega deb hisoblayman va shuning uchun katta ma'lumot manbalarining xossalari (2.3-bo'lim) va ularning tadqiqotlarda qanday qo'llanilishi haqida ko'proq so'zlashdan oldin (2.4-bo'lim) repurposing haqida ikkita umumiy tavsiyani taqdim etish. Birinchidan, "topilgan" ma'lumotlar va "ishlab chiqilgan" ma'lumotlar o'rtasida tuzilgan kontrastni o'ylab ko'rish moyil bo'lishi mumkin. Bu yaqin, lekin bu juda to'g'ri emas. Holbuki, tadqiqotchilar nuqtai nazaridan katta ma'lumot manbalari "topilgan" bo'lsa ham, ular osmondan tushmaydi. Buning o'rniga, tadqiqotchilar tomonidan "topilgan" ma'lumot manbalari kimdir tomonidan bir maqsad uchun mo'ljallangan. "Topilgan" ma'lumotlar birov tomonidan yaratilgani uchun, men sizni doimo sizning ma'lumotlaringizni yaratgan odamlar va jarayonlar to'g'risida tushunishga harakat qilishni maslahat beraman. Ikkinchidan, ma'lumotlarni qayta tuzishda, sizning muammolaringiz uchun ideal ma'lumotlar to'plamini tasavvur qilish va bu ideal ma'lumotlar to'plamini siz foydalanadigan asbob bilan taqqoslash juda foydali bo'ladi. Agar siz o'zingizning ma'lumotlaringizni o'zingiz to'plamagan bo'lsangiz, siz xohlagan narsalaringiz va narsalaringiz o'rtasida muhim farq bo'lishi mumkin. Ushbu farqlarni bilib olganingizda, mavjud ma'lumotlaringizdan nimani o'rganishingiz va o'rgana olmaysiz va sizga kerakli ma'lumotlarni to'plashingiz mumkin.
Mening tajribamda ijtimoiy olimlar va axborot olimlari turli xil repurpozitsiyaga murojaat qilishadi. Tadqiqot uchun mo'ljallangan ma'lumotlar bilan ishlashga odatlangan ijtimoiy olimlar odatda tezkor ma'lumotlar bilan bog'liq muammolar haqida tez-tez eslatib turishadi. Boshqa tarafdan, ma'lumot olimlari, odatda, zaif tomonlarini e'tiborsiz qoldirib, repurposed ma'lumotlarning afzalliklariga ishora qiladilar. Tabiiyki, eng yaxshi yondashuv gibriddir. Ya'ni, tadqiqotchilar katta ma'lumot manbalarining xususiyatlarini - yaxshi va yomonni tushunib olishlari kerak va keyin ulardan qanday o'rganish kerakligini tushunishlari kerak. Va bu bobning qolgan qismining rejasi. Keyingi qismda katta ma'lumot manbalarining o'nta umumiy xususiyatlarini tasvirlab beraman. So'ngra, keyingi qismda, men bunday ma'lumot bilan yaxshi ishlashi mumkin bo'lgan uchta tadqiqot yondashuvini tasvirlayman.