[ , ] Алгоритм нь Google Flu Trends-тэй холбоотой асуудал байсан. Lazer et al. (2014) , Google-ийн инженер рүү богино, тодорхой бичсэн имэйлийг бичиж, асуудлыг хэрхэн шийдэж, хэрхэн засах тухай саналыг санал болгодог.
[ ] Bollen, Mao, and Zeng (2011) Twitter-ийн мэдээллийг хувьцааны зах зээл урьдчилан таамаглахад ашиглах боломжтой гэж үздэг. Энэ дүгнэлт нь дундын сангийн-Derwent Капитал Twitter цуглуулсан мэдээлэлд үндэслэн үнэт цаасны зах зээлд хөрөнгө оруулалт зах зээл-тулд бий болгоход хүргэсэн (Jordan 2010) . Мөнгөн хөрөнгөө уг санд оруулахаас өмнө ямар нотолгоо авахыг хүсч байна вэ?
[ ] Олон нийтийн эрүүл мэндийн зарим тамирчдад тамхи татах нь тамхинаас гарах үр дүнтэй тусламжийг авч үздэг боловч зарим нь никотиний өндөр түвшин зэрэг эрсдэлийг анхааруулдаг. Судлаач судлаачид цахим тамхийг олон нийтэд таниулан сурталчлахын тулд и-тамхитай холбоотой Твиттер хуудсуудыг цуглуулж, мэдрэмжийн шинжилгээ хийдэг гэж үздэг.
[ ] 2009 оны арваннэгдүгээр сард Twitter "Та юу хийдэг вэ?" Гэсэн "Twitter" сэтгүүл дээрх асуултыг өөрчилсөн. "What's happening?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Товшрууштай зүйлс" нь Twitter дээр нөлөөнд нөлөөлөх нөлөөллийг хэмжихэд ашиглагддаг. Эхлээд хэрэглэгчид таалагдсан твиттерийнхээ хуулбарыг хуулж, буулгах, жинхэнэ зохиогчийг өөрийн бариултай холбох, мөн "RT" -ийг гараар бичсэн бичлэгийг "retweet" гэж харуулсан байна. Дараа нь 2009 онд "Twitter" товчлуурыг нэмсэн. Зургадугаар сард 2016 он гэхэд Twitter өөрийн шүхрийг тайлах боломжийг олгосон (https://twitter.com/twitter/status/742749353689780224). Эдгээр өөрчлөлтүүд нь таны судалгаанд "Дахин retweets" ашиглахад хэрхэн нөлөөлөх вэ? Яагаад, яагаад үгүй гэж?
[ , , , ] Олон нийттэй ярилцахдаа Миш ба хамт олон (2011) урт хугацааны соёлын чиг хандлагыг тодорхойлохын тулд 5 сая гаруй дижитал номын сангийн агуулгад дүн шинжилгээ хийсэн. Тэдний ашигладаг өгөгдлүүд нь Google NGrams dataset-ээр гарсан бөгөөд бид тэдгээрийн заримыг давтах, өргөтгөхийн тулд өгөгдлийг ашиглаж болно.
Цаасан дээр гарсан олон үр дүнгийн нэг нь Мишел болон хамт олон маань биднийг хурдан, хурдан мартаж байгаагаа илэрхийлж байв. Тухайн жилд "1883" гэж 1875-аас 1975 оны хооронд "1883" хоорондох нийт 1 г-ийн хувийг тооцоолсон. Энэ хувь хэмжээ нь тухайн жилд тохиолдсон үйл явдлын сонирхлын хэмжүүр юм гэж тэд үзсэн. Тэдний 3a-р зураг дээр тэд 1883, 1910, 1950 оны гурван жилийн турш хэрэглээний замыг төлөвлөжээ. Эдгээр гурван жил нийтлэг загварыг ашигладаг: тэр жилээс бага хэрэглээ, дараа нь баяжуулалт, дараа нь задрал. Дараа нь жил бүрийн задралын хэмжээг тоогоор тооцоолохын тулд Мишел болон хамтран ажиллагсад нь 1875-1975 оны хоорондох жил бүрийн хагас жилийг "хагас амьдралын" хэмжээг тооцоолсон байна. Тэдний 3a зураг (индекс) жилийн тоо буурч байгаа бөгөөд энэ нь бид өнгөрсөн цагийг хурдан, хурдан мартаж байгаа гэсэн үг юм. Тэд Англи хэлний корпусын 1-р хувилбарыг ашигласан боловч дараа нь Google корпусын хоёр дахь хувилбарыг гаргажээ. Код эхлэхээс өмнө асуултын бүх хэсгүүдийг уншина уу.
Энэ үйл ажиллагаа нь дахин ашиглаж болох кодыг бичих, үр дүнг тайлбарлах, өгөгдлийг эвдэх (донсолгоотой файлтай ажиллах, дутуу өгөгдөлтэй харьцах зэрэг) бичих дадлага хийх болно. Энэ үйл ажиллагаа нь танд баян, сонирхолтой өгөгдөлтэй ажиллахад туслах болно.
Google Номын NGram Viewer вэбсайтаас түүхэн өгөгдлийг аваарай. Тухайлбал, 2012 оны 7-р сарын 1-ний өдөр англи хэлний корпусын 2-р хувилбарыг ашиглах ёстой. Энэ нь 1.4GB хэмжээтэй файл юм.
Мишээл Michel et al. (2011) 3-р зургийн 3a-ийн үндсэн хэсгийг дахин хэвлэ Michel et al. (2011) . Энэ зургийг дахин үүсгэхийн тулд танд хоёр файл хэрэгтэй болно. Үүнд: (a) болон "нийт тоо" файлыг татаж авсан түүхий тоог хөрвүүлэхэд ашиглаж болно. Нийт тооллогын файлыг бүтнээр нь уншихад хэцүү болгодог. NGram-ийн 2-р хувилбар нь Michel et al. (2011) , энэ нь 1-р хувилбарын өгөгдөл дээр үндэслэсэн байна уу?
Одоо NGOM Viewer-ийн бүтээсэн график дээрээ өөрийн графикийг шалгана уу.
Зураг 3а (үндсэн зураглал) -ыг дахин үүсгэх боловч \(y\) -axis-ийг түүхийн дурын тоогоор өөрчлөх (дурын тоо).
(B) ба (d) хоорондох ялгаа нь Мишээл ба бусад үр дүнгүүдийн үр дүнг дахин үнэлэхэд хүргэдэг. (2011). Яагаад, яагаад үгүй гэж?
Одоо өгүүлбэрийн хувийг ашиглан 3а-р зургийг хуулбарлана. Энэ нь 1875-аас 1975 оны хооронд жил бүрийн хагас жилийн хугацааг тооцоолно. Хагас жилийн хугацаа нь өгүүлэмжийн харьцаа нь түүний дээд оргил утгын тэн хагасыг хүрэхээс өмнө өнгөрөх жилүүдийн тоогоор тодорхойлогдоно. Michel et al. (2011) хагас амьдралыг үнэлэхийн тулд илүү төвөгтэй зүйл хийж байна. Тусламжийн онлайн мэдээллийн III.6-р хэсгийг үзнэ үү. NGram-ийн 2-р хувилбар нь Michel et al. (2011) , энэ нь 1-р хувилбарын өгөгдөл дээр үндэслэсэн байна уу? (Сануулга: Хэрэв тийм биш бол бүү гайх.
Хэдэн жилийн өмнө мартагдсан, ялангуяа удаанаар мартагдсан жилүүд байсан уу? Тохиолдсон шалтгаануудын талаар товчхон дүгнэлт хийж, хэт давсан утгыг хэрхэн тодорхойлж байгааг тайлбарлана уу.
Одоо Хятад, Франц, Герман, еврей, итали, орос, испани хэлээр NGrams-ийн өгөгдлийн 2-р хувилбарын үр дүнг давтаж байна.
Бүх хэлээр харьцуулах нь хэтэрхий удаан буюу ялангуяа удаанаар мартагдсан жилүүд гэх мэт давамгайлсан хэдэн жил байсан уу? Энэ загварын шалтгааныг товчхон таамаглах.
[ , , , ] Penney (2016) NSA / PRISM-ийн тандалт (өөрөөр хэлбэл, Сноудены илчлэлтүүдийн тухай Penney (2016) өргөн тархсан мэдээллийг судлахдаа хувийн нууцыг хөндсөн сэдвүүдийн талаар Wikipedia-ийн нийтлэлүүдэд гэнэтийн болон гэнэтийн бууралттай холбоотой эсэхийг судлав. Хэрэв тийм бол зан авирын энэхүү өөрчлөлт нь массын тандалтаас үүдэн гарах үр дагаварт нийцсэн байх болно. Penney (2016) арга барилыг заримдаа тасалдсан цуврал цуваа гэж нэрлэдэг бөгөөд энэ нь 2.4.3-т тодорхойлсон аргуудтай холбоотой байдаг.
Сэдвийн түлхүүр үгийг сонгохын тулд, Пэнни АНУ-ын Дотоодын Аюулгүй Байдлын Департаментийн ашигладаг жагсаалтыг нийгмийн хэвлэл мэдээллийн хэрэгслийг хянах, хянах жагсаалтад оруулав. ХАЗЭТ-ийн жагсаалт нь зарим тодорхой хайлтын нэр томьёог янз бүрийн асуудлууд, тухайлбал, "Эрүүл мэндийн асуудал", "Дэд бүтцийн аюулгүй байдал", "Терроризм" гэж ангилдаг. Судалгаанд хамрагдсан бүлгийн хувьд Пэнни "Терроризм" -тай холбоотой 48 түлхүүр үгийг ашигласан. (Хавсралт хүснэгт 8 ). Тэрээр дараа нь 2012 оны 1-р сарын эхээр 2014 оны 8-р сарын сүүлч хүртэлх 32 сарын хугацаанд нийт 48 Wikipedia-ийн нийтлэлүүдийг сар бүр нэгтгэн нийтлэв. Тэрбээр мөн аргументаа бэхжүүлэхийн тулд хэд хэдэн харьцуулах бүлгүүдийг Бусад сэдвүүдийн талаархи нийтлэлүүд.
Одоо та Penney (2016) давтаж өргөтгөнө. Энэ үйл ажиллагаанд шаардлагатай бүх түүх Википедиагаас боломжтой болно. Эсвэл та R-багц wikipediatrend (Meissner and R Core Team 2016) болно. Хариултаа бичиж байхдаа аль мэдээллийн эх сурвалжаа ашиглаарай. (Энэ үйл ажиллагааг 6-р бүлэгт үзүүлэв.) Энэ үйл ажиллагаа нь өгөгдөлд буруугаар хандах, том мэдээллийн эх сурвалжид байгалийн туршилт хийх талаар бодоход тань туслах болно. Энэ нь ирээдүйн төслүүдэд зориулсан сонирхолтой өгөгдлийн эх сурвалжтай ажиллах боломжийг танд олгоно.
[ ] Efrati (2016) нууц мэдээлэлд тулгуурлан мэдээлснээр Facebook дээр нийт хуваалцах хэмжээ 5.5% -иар буурсан бол "анхны цацах хувиа" 21% -иар буурсан байна. Энэхүү бууралт нь 30-аас доош насны Facebook-ийн хэрэглэгчидтэй маш ихээр хурцдаж байсан. Энэ тайланд хоёр хүчин зүйлээс хамаарч буурсан гэж үзсэн байна. Нэг нь "найзууд" -ын тоо Facebook-д байдаг. Нөгөөх нь хуваалцах үйл ажиллагаа нь мессеж болон Snapchat зэрэг өрсөлдөгч нарт шилжсэн явдал юм. Түүнчлэн хэд хэдэн тактик нь Facebook-ийн хуваалцах боломжийг нэмэгдүүлэхийг оролдсон бөгөөд үүнд "Мэдээний Feed алгоритм" -ыг оруулснаар анхны бичлэгүүд нь илүү алдартай болж, мөн "On This Day" -тэй холбоотой анхны бичлэгүүдийг тогтмол сануулсан байна. Фэйсбүүкийг мэдээллийн эх сурвалж болгон ашиглахыг хүсч буй судлаачдын хувьд ямар үр дагавартай вэ?
[ ] Социологч ба түүхч хоёрын хооронд ямар ялгаа байдаг вэ? Голдфорфе (1991) дагуу гол ялгаа нь мэдээлэл цуглуулахад хяналт тавьдаг. Түүхчид нь дурсгалыг ашиглахаас өөр аргагүй бол социологичид өөрсдийн мэдээллийг цуглуулах зорилгоор тусгай зориулалтаар ашиглах боломжтой. Goldthorpe (1991) уншина уу. Соёл, түүхийн хоорондын ялгаа нь өөрчлөн тохируулсан санаануудтай хэрхэн уялдаж байна вэ?
[ ] Энэ нь өмнөх лавлагаа дээр суурилдаг. Goldthorpe (1991) нь Ники Харт (1994) -аас нэг нь Голдфорфтыг өөртөө тохируулсан өгөгдөлд үнэнчээр хандахыг шаарддаг. Хасан захиалсан мэдээллийн боломжит хязгаарлагдмал байдлыг тодруулахын тулд Hart-ийн нэрэмжит ажилчдын төсөл нь 1960-аад оны дундуур Гринфорф болон түүний хамтран ажиллагчдын нийгмийн ангиудын хоорондын харилцаа холбоог хэмжих томоохон судалгааг гаргасан юм. Олж авсан өгөгдөлд тулгуурласан өгөгдөлд дуртай эрдэмтэн судлаачдаас хүсч буйгаар, Өсөн нэмэгдэж буй Ажилчдын Төсөл нь амьжиргааны түвшинг дээшлүүлэх эрин үеэс нийгмийн нийгмийн ирээдүйн тухай саяхан санал болгож буй онолыг боловсруулахад зориулж боловсруулсан өгөгдлийг цуглуулсан. Гэвч Голдфорпе, хамт олон нь эмэгтэйчvvдийн саналын талаархи мэдээллийг цуглуулахдаа "мартчихаж" байна. Ники Харт (1994) бүхэл бүтэн нийтлэлийг нэгтгэн үзүүлэв.
"... Эмэгтэй хүнийг орхигдуулсан гэсэн дүгнэлтээс зайлсхийхэд хэцүү байдаг. Учир нь энэ" захиалагч хийсэн "мэдээллийн сан нь эмэгтэй хүний туршлагаас хасагдсан парадигматик логикоор хязгаарлагддаг. Голомтпе болон түүний хамтрагчид онолын ухагдахуун, үйл ажиллагааны онолын үүднээс эрмэлзэлтэй тулгардаг ... Голдфорфе болон түүний хамт ажиллагсад нь тэдгээрийг оновчтой шалгахын тулд өөрсдийн онолын таамаглалыг тэжээж, онолын туршилтыг бий болгосон.
Hart цааш нь үргэлжлүүлэв:
"Өсөн нэмэгдэж буй ажилчдын төслийн эмпирик судалгааны үр дүнгээс үзэхэд дундад зууны социологийн эрин үеийн үнэт зүйлсийн талаархи өгүүлэл нь үе шат, улс төр, материаллаг амьдралын үйл явцыг мэдээлэхээс илүүтэйгээр бидэнд өгдөг."
Тохирсон өгөгдөл цуглуулахад өгөгдөл цуглуулагчийн хэвийх утгыг өгдөг өөр бусад жишээг та бодож байна уу? Энэ нь алгоритмын ялгааг хэрхэн харьцуулдаг вэ? Судлаачид уншигдахуйц хэрэглээ, тэдгээрийг гаалийн бүрдүүлэлт хийхэд ашиглахад ямар үр дагавар авч болох вэ?
[ ] Энэ бүлэгт компаниуд болон засгийн газруудын бий болгосон захиргааны баримт бүхий судлаачдын судлаачдаас цуглуулсан өгөгдлүүдээс ялгаатай. Зарим хүмүүс эдгээр "захиргааны өгөгдлүүд" -ийг "боловсруулсан өгөгдөл" -ээс ялгаатай нь эдгээр захиргааны бүртгэлийг дууддаг. Захиргааны тэмдэглэлийг судлаачид олддог нь үнэн боловч тэд маш сайн зохион бүтээгдсэн байдаг. Жишээ нь, орчин үеийн технологийн компаниуд өөрсдийн өгөгдлийг цуглуулах, удирдахад маш хэцүү байдаг. Иймээс эдгээр захиргааны бүртгэлүүд нь хоёулаа олдож, зохиогдсон бөгөөд энэ нь таны хэтийн төлөвөөс хамаарна (Зураг 2.12).
Өгөгдлийн эх сурвалжийн жишээг бий болгож, боловсруулсан нь мэдээллийн эх сурвалжийг ашиглан судалгаа хийхэд ашиг тустай байдаг.
[ ] Христэд итгэгч Sandvig болон Eszter Hargittai (2015) нь тоон судалгаа нь тоон систем нь "хэрэгсэл" эсвэл "объект объект" гэсэн тооноос хамааран тоон судалгааг хуваажээ. Анхны хэлбэрийн жишээ Энэ хэрэгсэл нь Benghson болон түүний хамтрагч нар (2011) 2010 онд Гайтид болсон газар хөдлөлтийн дараа шилжилт хөдөлгөөнийг хянахын тулд гар утасны мэдээллийг ашиглах талаар хийсэн судалгаа юм. Хоёр дахь төрлийн систем нь судлах зүйл бол Jensen-ийн судалгаа юм (2007) Энэтхэгийн Керала даяар гар утсаа хэрхэн нэвтрүүлэх тухай загасны зах зээлийн үйл ажиллагаанд хэрхэн нөлөөлсөн талаар. Дижитал мэдээллийн эх сурвалжийг ашигладаг судалгаанууд нь ижил төрлийн өгөгдлийн эх сурвалжийг ашиглаж байсан ч гэсэн өөр өөр зорилготой байж болохыг тод томруун харуулж байна. Энэ ялгааг улам тодотгохын тулд та дараах дөрвөн судалгааг тайлбарлав. Хоёр тоон систем нь тоон системийг хэрэглэж, хоёр тоон системийг судлах объект болгон ашигладаг. Хэрэв та хүсвэл энэ бүлгийн жишээг ашиглаж болно.