[ , ] Algoritmik shovqin Google Flu Trends bilan bog'liq bo'lgan muammodir. Lazer et al. (2014) yozib, muammolarni tushuntirib Googlega muhandisga qisqa va aniq elektron pochtani yozing va uni qanday tuzatish kerakligi haqidagi fikrni taklif eting.
[ ] Bollen, Mao, and Zeng (2011) Twitterdan olingan ma'lumotlar birja bozorini taxmin qilish uchun ishlatilishi mumkinligini da'vo qilmoqda. Ushbu topilma Twitter-dan to'plangan ma'lumotlar asosida fond bozoriga sarmoya kiritish uchun "Derwent Capital Markets" hedc fondini tashkil etishga olib keldi (Jordan 2010) . Sizning mablag'ingizni ushbu fondga qo'yishdan oldin qanday dalillarni ko'rishni xohlaysiz?
[ ] Ba'zi jamoat sog'lig'ining himoyachilari sigaretani chekishni to'xtatish uchun samarali yordamni ko'rib chiqishsa-da, boshqalar nikotinning yuqori darajasi kabi potentsial xavflar haqida ogohlantiradilar. Tasavvur qiling-a, tadqiqotchi e-sigaretga oid elektron pochtalarni to'plab, hissiyotlarni tahlil qilish orqali jamoatchilik fikrini o'rganishga qaror qiladi.
[ ] 2009 yil noyabr oyida Twitter Twitterdagi savolni "Nima qilyapsiz?" Dan "Nima sodir bo'layapti?" (Https://blog.twitter.com/2009/whats-happening) dan o'zgartirgan.
[ ] "Retweets" ko'pincha Twitter ta'siriga ta'siri va tarqalishini o'lchash uchun ishlatiladi. Dastlab, foydalanuvchilar o'zlari yoqtirgan tweetni nusxalash va joylashtirishlari kerak, asl yozuvchini o'z dastxatiga tegib, uni "retweet" ekanligini ko'rsatish uchun qo'l bilan "RT" ni yozing. Keyin, 2009-yilda Twitter "retweet" tugmasini qo'shdi. 2016-yil iyun oyida Twitter o'zining foydalanuvchilariga o'zlarining tvitlarini qayta tiklashga imkon berdi (https://twitter.com/twitter/status/742749353689780224). Sizningcha, ushbu o'zgarishlar Sizning tadqiqotingizdagi "retweets" dan qanday foydalanganingizga ta'sir qilishi kerakmi? Nima uchun yoki nima uchun bunday emas?
[ , , , ] Ko'pchilik tomonidan muhokama qilingan maqolada, Mishel va uning hamkasblari (2011) uzoq muddatli madaniy tendentsiyalarni aniqlashga urinishda besh milliondan ortiq raqamli kitoblarning mazmunini tahlil qildilar. Qo'llaniladigan ma'lumotlar endi Google NGrams ma'lumotlar majmui sifatida chiqarildi va shuning uchun ba'zi ma'lumotlarni nusxalash va kengaytirish uchun ma'lumotlarni ishlatishimiz mumkin.
Qog'ozdagi ko'plab natijalarning birida Michel va uning hamkasblari biz tezroq va tezroq unutib qo'yganimizni ta'kidlashdi. Bir yil davomida, "1883" deb aytinglar, ular 1875-1975 yillar orasida "1883" deb nomlangan har bir yilda 1 grammlik raqamni aniqladilar. Ular bu raqam o'sha yil sodir bo'lgan voqealarga qiziqish o'lchovidir deb o'ylashgan. O'zlarining 3a raqamlarida ular uch yil mobaynida qo'llanadigan traektoriyalarni: 1883, 1910 va 1950 yillarni tuzdilar. Ushbu uch yil umumiy naqshni taqsimlaydi: bu yilgacha kam ishlatish, so'ngra boshoq, so'ngra parchalanish. Keyinchalik, har yili parchalanish tezligini aniqlash uchun Michel va uning hamkasblari 1875-1975 yillar mobaynida har bir yil uchun "yarim hayot" ni hisobladilar. Ular 3a (ichki) shaklida ular har birining yarim yil qisqaradi va ular bu o'tmishimizni tezroq va tezroq unutib yuborayotganimizni anglatadi. Ular ingliz tili korpusining 1-versiyasini ishlatishgan, biroq keyinroq Google korpusning ikkinchi versiyasini chiqazdi. Iltimos, kodlashni boshlashdan avval, savolning barcha qismlarini o'qing.
Ushbu faoliyat sizga qayta foydalanish kodini yozish, natijalarni talqin qilish va ma'lumotlarni tortish (masalan, noaniq fayllar bilan ishlash va etishmayotgan ma'lumotlarni ko'rib chiqish kabi) amaliyotini beradi. Bu faoliyat, shuningdek, boy va qiziqarli ma'lumot to'plami bilan ishlashga yordam beradi.
Xom ma'lumotni Google Books NGram Viewer veb-saytidan oling. Xususan, ingliz tili korpusining 2-versiyasini 2012-yil 1-iyulda chop etilgan versiyasidan foydalaning. Sintezsiz, bu fayl 1.4 GB.
Michel et al. (2011) 3a) ning asosiy qismini qayta yaratish Michel et al. (2011) . Ushbu raqamni qayta tiklash uchun sizga ikkita fayl kerak bo'ladi: qisman (a) va xom hisoblarni nisbatlarga aylantirish uchun foydalanishingiz mumkin bo'lgan "jami hisoblar" fayli. NGram ma'lumotlarining 2-nchigachasi Michel et al. (2011) tomonidan taqdim etilganlarga o'xshash natijalar beradi Michel et al. (2011) versiyalari 1-ma'lumotga asoslanganmi?
Grafikni NGram Viewer tomonidan yaratilgan grafikka qarshi tekshiring.
Shakl 3a (asosiy rasm) qayta ishlating, ammo \(y\) -axisni xom so'zlar soni deb hisoblang (bahsning tezligi emas).
(B) va (D) orasidagi farq sizni Mishel va boshq. (2011). Nima uchun yoki nima uchun bunday emas?
Endi, bahsning nisbatlarini qo'llash, 3a rasmining ichki qismini takrorlang. Ya'ni, har yili 1875-1975 yillar oralig'ida o'sha davrning yarmini hisoblang. Yarim muddat, so'zlarning nisbati uning eng yuqori qiymatining yarmigacha etib borishidan oldin o'tgan yillar soni deb ta'riflanadi. Michel et al. (2011) yarmini baholash uchun murakkabroq ishlarni amalga oshiradi - Ko'maklashuvchi onlayn axborotning III.6 bo'limini ko'ring-lekin ular har ikkala yondashuv ham shunga o'xshash natija berishini ta'kidlaydilar. NGram ma'lumotlarining 2-versiyasi Michel et al. (2011) versiyalari 1-ma'lumotga asoslanganmi? (Maslahat: Agar shunday bo'lmasa hayron bo'lmang.)
Ayniqsa, tez yoki ayniqsa asta-sekin unutilgan yillar singari yillar bo'lganmi? Ushbu naqshning mumkin bo'lgan sabablari haqida qisqacha aytmoqchiman.
Endi ushbu natija NGrams ma'lumotlarining 2-versiyasi uchun Xitoy, Fransuz, Nemis, Ibroniy, İtalyanca, Ruscha va Ispan tillarida nusxa ko'chiring.
Barcha tillar bilan taqqoslaganda yillar, ayniqsa, tez yoki ayniqsa asta-sekin unutilgan yillar bo'lganmi? Ushbu naqshning sabablari haqida qisqacha ayt.
[ , , , ] Penney (2016) 2013 yil iyun oyida NSA / PRISM nazorati (masalan, Snouden bayonoti) haqida keng tarqalgan taniqli ma'lumotlarning maxfiylik masalalarini ko'taradigan mavzulardagi Vikipediyadagi maqolalarning keskin va to'satdan pasayishi bilan bog'liqligini o'rganib chiqdi. Agar shunday bo'lsa, bu xatti-harakatlar ommaviy nazoratdan kelib chiqadigan chillashish ta'siriga mos keladi. Penney (2016) yondashuvi vaqti-vaqti bilan to'xtatilgan vaqt seriyali dizayni deb ataladi va 2.4.3-bo'limda tasvirlangan yondashuvlarga bog'liq.
Mavzu kalit so'zlarini tanlash uchun, Penney AQShning Milliy xavfsizlik departamenti tomonidan ijtimoiy axborot vositalarini kuzatish va monitoring qilish uchun foydalanadigan ro'yxatga ishora qilmoqda. DHS ro'yxati ba'zi tergov shartlarini "Sog'liqni saqlash to'g'risida tashvish", "Infrastruktura xavfsizligi" va "Terrorizm" qatoriga kiritadi. Tadqiqot guruhi uchun Penney "Terrorizm" bilan bog'liq 48 ta kalit so'zni ishlatdi (8-ilovaga qarang). ). Keyinchalik, Vikipediya maqolasi oylik miqdori oylik miqyosda 32 oylik davrda, 2012 yil yanvar oyidan 2014 yil avgust oyining oxirigacha mos keladigan 48 ta Vikipediya maqolalari uchun hisoblangan. O'z argumentini mustahkamlash uchun, u shuningdek bir nechta taqqoslash guruhlarini kuzatib, boshqa mavzular bo'yicha maqola ko'rinishlari.
Keling, siz Penney (2016) takrorlashni davom Penney (2016) . Bu faoliyat uchun kerakli barcha xom ma'lumotlar Vikipediyadan olish mumkin. Yoki buni R-paketidagi wikipediatrenddan olishingiz mumkin (Meissner and R Core Team 2016) . Javoblaringizni yozganingizda, qaysi ma'lumot manbasini foydalanganligingizga e'tibor bering. (Shunga o'xshash yana bir faoliyat 6-bobda ham keltirilgan.) Ushbu faoliyat sizning ma'lumotlaringizni tortib olishda va katta ma'lumot manbalarida tabiiy eksperimentlar haqida o'ylashga imkon beradi. Bundan tashqari, siz kelajakdagi loyihalar uchun potentsial qiziqarli ma'lumotlar manbai bilan ishlaydi.
[ Efrati (2016) maxfiy ma'lumotlarga asoslanib, Facebook-da "umumiy almashinuv" yil davomida taxminan 5,5% kamayganini, "original nashrlarni tarqatish" esa yil davomida 21% past bo'lganini ma'lum qildi. Ushbu pasayish ayniqsa 30 yoshdan kichik Facebook foydalanuvchilari bilan keskinlashdi. Hisobotda ikki omilga pasayish qayd etilgan. Ularning biri "Facebook" da bo'lgan "do'stlar" sonining o'sishi. Ikkinchidan, ba'zi almashinuv faoliyati xabar almashish va Snapchat kabi raqobatchilarga o'tadi. Hisobotda shuningdek, "Facebook kuni" xususiyati bilan original postlarni muntazam eslatish bilan bir qatorda, Facebookning almashinuvni kuchaytirishga harakat qilgan bir necha taktikasi ham bor. Qanday oqibatlarga olib keladigan bo'lsak, bu topilmalarni Facebook-dan ma'lumot manbai sifatida foydalanmoqchi bo'lgan tadqiqotchilar uchunmi?
[ ] Sosyolog va tarixchi o'rtasidagi farq nima? Goldthorpe (1991) ma'lumotlariga ko'ra, asosiy farq ma'lumotlar yig'ish ustidan nazorat qilishdir. Tarixchilar o'zlarining ma'lumotlarini ishlatishga majbur qilishadi, holbuki sotsollar o'zlarining ma'lumotlarini maxsus maqsadlar uchun moslashtira oladi. Goldthorpe (1991) o'qing. Sosyologiya va tarix o'rtasidagi munosabat qarindoshlar va o'qimishli g'oyalar bilan qanday bog'liq?
[ ] Bu avvalgi quesitonga asoslangan. Goldthorpe (1991) Nicky Hart (1994) Goldthorpe kompaniyasining tayyorlangan ma'lumotlarga sodiqligiga e'tiroz bildirgan bir qator tanqidiy javoblarni o'z ichiga olgan. Xart shaxsiy ma'lumotlarning potentsial cheklovlarini aniqlash uchun 1960-yillarning o'rtalarida Goldthorpe va uning hamkasblari tomonidan o'tkazilgan ijtimoiy sinf va ovoz berish o'rtasidagi munosabatlarni o'lchash uchun "Affleent Worker Project" ("Affluent Worker Project") loyihasini tasvirlab berdi. Ma'lumotlarga asoslangan ma'lumotlardan foydalanishga ijobiy ta'sir ko'rsatgan olimlardan kutilganidek, "Affluent Worker Project" loyihasi ijtimoiy hayotning kelajakdagi hayoti bilan bog'liq bo'lgan yaqin kelajakda hayot standartlarini muhokama qilish uchun mo'ljallangan ma'lumotlarni to'playdi. Ammo Goldthorpe va uning hamkasblari ayollarning ovoz berish xatti-harakati to'g'risida ma'lumot to'plash uchun "unutgan". Niky Xart (1994) butun epizodni qanday qilib umumlashtirdi:
"... bu" tayyorlangan "ma'lumotlar to'plami ayollarning tajribasidan tashqaridagi paradigmatik mantiq bilan cheklanganligi sababli, ayollarning chiqarib yuborilganligi haqida xulosa chiqarish qiyin. Sinf ongining nazariy tuyulganligi va erkaklarning mashaqqatli harakatlari bilan harakatlanadigan ... Goldthorpe va uning hamkasblari ularni o'zlariga tegishli nazariy taxminlarga ega bo'lishlari o'rniga, ularning nazariy taxminlarini oziqlantirib, rivojlantirgan bir qator ampirik dalillarni yaratdilar. "
Xart davom etdi:
"Affluent Worker Project" ning ampirik natijalari o'rta asr sotsializmining masculinaviy qadriyatlari haqida bizga tabaqalash, siyosat va moddiy hayot haqida xabar berishdan ko'ra ko'proq ma'lumot beradi. "
Maxsus ma'lumotlarni to'plashda unga biriktirilgan ma'lumotlar yig'uvchisi uchun asos bo'lgan boshqa misollar haqida o'ylaysizmi? Qanday qilib algoritmik shovqin bilan solishtirilgan? Tadqiqotchilar tayyor mahsulotlardan foydalanishlari kerak bo'lgan paytda va qanday sharoitlarda foydalanishlari kerakligi bunga qanday ta'sir qilishi mumkin?
[ ] Ushbu bobda men tadqiqotchilar tomonidan kompaniyalar va hukumatlar tomonidan yaratilgan ma'muriy yozuvlar bilan tadqiqotchilar uchun to'plangan ma'lumotlarga qarama qarshim bor. Ba'zi odamlar ushbu ma'muriy yozuvlarni "ma'lumotni topdi" deb atashadi, bu ular "mo'ljallangan ma'lumotlar" bilan farq qiladi. Ma'muriy yozuvlar tadqiqotchilar tomonidan topilgan, ammo ular ham juda mo'ljallangan. Misol uchun, zamonaviy texnologiya kompaniyalari o'zlarining ma'lumotlarini to'plash va nazorat qilish uchun juda ko'p ishlaydi. Shunday qilib, ushbu ma'muriy yozuvlar ham topilgan va yaratilgan bo'lib, u faqat sizning istiqbolingizga bog'liq (2.12-rasm).
Ma'lumot manbasini misol qilib keltiringki, u ikkalasini ham topilgan va ko'rib chiqilgan bo'lsa, u ma'lumot manbasini tadqiq qilish uchun foydalidir.
[ Xristian Sandvig va Eszter Hargittai (2015) raqamli tadqiqotni raqamli tizim "instrument" yoki "o'rganish ob'ekti" ga qarab ikkita toifadagi raqamlarga ajratdi. Birinchi turdagi tizim - bu sistema bir Bengtsson va hamkasblari tomonidan tadqiqot vositasi-dir (2011) 2010 yilda bir misol Gaitida zilzila so'ng ko'chishi kuzatish uchun mobil ma'lumotlarni foydalanish bo'yicha ikkinchi tur-qaerda tizimi, bir maqsad, tadqiqot Jensen tomonidan o'rganish-bo'lib (2007) Hindistonning Kerala shahrida uyali telefonlarning joriy qilinishi baliq bozorining ishlashiga qanday ta'sir ko'rsatganligi haqida ma'lumot berdi. Ushbu farqni foydali deb bilaman, chunki u raqamli ma'lumot manbalaridan foydalangan ma'lumotlarning bir xil turdagi ma'lumot manbasini ishlatayotgan bo'lsa ham juda ko'p turli maqsadlarga ega bo'lishi mumkinligini aniqlaydi. Ushbu farqni yanada yaxshiroq tushunish uchun siz ko'rgan to'rtta ishni ta'riflang: ikkita raqamli tizimni asbob sifatida ishlatish va ikkita raqamli tizimni o'rganish ob'ekti sifatida ishlatadigan ikkita ish. Istasangiz, ushbu bobdan misollardan foydalanishingiz mumkin.