ачкыч:
[ , ] Algorithmic адаштырышты Google тумоосу жетишкендиктер менен бир көйгөй болгон. Менен кагаз окуп Lazer et al. (2014) , ошондой эле кыска, Google инженер так электрондук маселесин түшүндүрүү жана маселени чечүү үчүн кандай көрүнө сунуш жазуу.
[ ] Bollen, Mao, and Zeng (2011) Twitter маалыматтары баалуу кагаздар рыногунун алдын ала айтуу үчүн колдонулган болушу мүмкүн экенин билдирди. Бул ачылыш боюнча хедж-фонд-Derwent бир Capital кагаздар рыногунда каражат Markets үчүн Twitter чогултулган маалыматтардын негизинде түзүүгө алып келген (Jordan 2010) . Ошол каражаттын акча коёрдон мурун кандай далил келтире турган көргүбүз келет?
[ ] Саламаттык сактоонун кээ бир мамлекеттик коргоочулар тамекини таштоонун натыйжалуу жардам катары электрондук тамеки мөндүр менен, башкалар сыяктуу никотиндин жогорку баскычтарында эле мүмкүн болуучу тобокелдиктер жөнүндө эскертет. изилдөөчүсү электрондук тамеки байланыштуу Twitter билдирүүлөрүн чогултуу жана маанай талдоо жүргүзүү менен электрондук тамеки карата коомдук пикирди иликтөө чечет деп ойлошот.
[ ] 2009-жылы ноябрда, Twitter тартып Бир кутусунда суроо өзгөрттү: «Сен эмне кылып жатасыз?» Жана «Эмне болуп кетти?» (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) Twitter бир караганда бирге маалыматтын жаңы каражаты катары кызмат кылат деп 41,7 миллион колдонуучу өздүк талдоо, 1,47 миллиард коомдук мамилелерди, 4262 темаларын, ошондой эле жылдын 6-жана-жылдын 31 ортосунда 106 миллион Инсургент, 2009. Бул анализдин негизинде алар түзүлгөн социалдык тармак.
[ ] «Retweets» көп таасирин өлчөө үчүн колдонулат жана Twitter таасир жугат. Алгач, колдонуучулар көчүрүп, алар жакты Tweet менюга, ал Retweet экенин көрсөтүп Tweet чейин баштапкы жазуучу өзүнүн / анын сабы менен, ошондой эле кол менен «RT» деп терип белгилөө керек болчу. Андан кийин, 2009-жылы Twitter бир «Retweet» кнопкасын кошумчалады. 2016-жылы июнда Twitter пайдалануучулар өз Инсургент Retweet үчүн (https://twitter.com/twitter/status/742749353689780224) үчүн мүмкүнчүлүк берген. Сиз бул өзгөртүүлөр сиздин изилдөө «retweets» колдонуу кандай таасир этиши керек деп ойлойсуз? Эмне үчүн?
[ , , ] Michel et al. (2011) китептерди адатта үчүн Google'дун күч чыккан Корпус курулган. 2009-жылы басылып чыккан жана 5 миллион санарипттик китептери бар болчу корпусунда, биринчи нускасын пайдаланып, жазуучу тил өзгөртүүлөрдү жана маданий багыттарын иликтөө сөз колдонуу жыштыгы анализ. Жакында Google Books Корпус изилдөөчүлөр үчүн элдик маалымат булагы болуп калды, 2012-жылы маалыматтар базасынын 2-версия бошотулган.
Бирок, Pechenick, Danforth, and Dodds (2015) изилдөөчүлөр толук кенен жыйынтыкка келүүгө, аны колдонуудан мурун корпусунда үчүн пайдаланылуучу үлгүлөрдү алуу точкаларындагы жараянын мүнөздөйт керек деп эскертти. башкы маселе кылмыштын ар бир китептин бирин камтыган, китепкана сыяктуу болуп саналат. Натыйжада, жеке, жараткан жазуучу байкаларлык Google Китептер лексиконуна кирип, жаңы сөздөрдү салып алат. Мындан тышкары, илимий тексттер 1900 бою корпусунда бир барган сайын негизги бөлүгүн түзөт. Мындан тышкары, эки нускаларын салыштырып, англис Fiction берилиштер, Pechenick ж.б.. жетишсиз чыпкалоо биринчи нускасын колдонулган деп табылган далил. иш-аракети үчүн зарыл болгон маалыматтардын баарын бул жерден таанышууга болот: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) NSA / призмасы байкоо жөнүндө кеңири таралган айкындуулук (б.а., Сноуден аяттар) 2013-жылы июнда купуялык тынчсыздандырат темалар боюнча Wikipedia макалаларга жол курч жана капыстан төмөндөшү менен байланыштуу же менен таанышуу максатында келип кетти. Эгер ошондой болсо, жүрүм-туруму менен, бул өзгөрүү массалык байкоо натыйжасында медиага туура келет. Мамиле Penney (2016) , кээде Токтотулган убакыттык катарлар дизайнын деп аталат жана байкоо маалыматтар (2.4.3-бөлүм) чейин эксперименттерди жакындоосун жөнүндө бөлүмдө мамилеге байланыштуу.
тема ачкыч тандоо, Penney көзөмөлдөө жана коомдук массалык маалымат каражаттарын мониторинг жүргүзүү үчүн АКШнын Улуттук коопсуздук департаменти тарабынан колдонулган тизме деп аталат. DHS тизмеси белгилүү издөө шарттарын бир катар маселелерди categorizes, башкача айтканда, «Ден-соолук камын ойлоп,» «структурасы коопсуздук» жана «терроризм. Террорчулук» (табл 8 «изилдөө тобу үчүн Penney кырк сегиз ачкыч байланыштуу колдонулган» тиркеме). Ал андан кийин Wikipedia макала көрүүлөрү отуз-эки айдын ичинде ишке ашып жаткан тиешелүү кырк сегиз Wikipedia макала үчүн ай сайын чогуу алганда, 2012-жылдын башынан тартып 2014-жылдын акырына чейин аргумент бекемдөө үчүн, ал, ошондой эле бир нече мисал жаратты башка темалар боюнча макала көз салуу менен топтор.
Эми, сиз көбөйтө жана узартуу үчүн бара жаткан Penney (2016) . Эгер бул иш үчүн керектүү бүт чийки маалыматтар Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/) алууга болот. Же R пакет wikipediatrend аны ала алабыз (Meissner and Team 2016) . Эгер жооп-жазганда, сиз колдонгон турган маалымат булагы белгилеп өткүлө. (Эскертүү: Бул ошол эле иш-аракеттер, ошондой эле 6-бөлүмдө кездешет)
[ ] Efrati (2016) , «түп берүү бөлүшүү» жыл ичинде түшүп 21% жылдык, ал эми Facebook жөнүндө «жалпы бөлүшүү» жыл ичинде 5,5% га кыскарган эле, жашыруун маалыматка негизделген билдирди. Бул төмөндөө Facebook колдонуучулардын 30 жашка менен өзгөчө курч болду. Кабарда эки таасирлер төмөндөшү таандык. Бир «досторум» эл Facebook боюнча бар санынын өсүшү болуп саналат. башка кээ бир бирге иш-аракет, билдирүү жана мындай Snapchat сыяктуу атаандаштары өттү деп саналат. Отчетто ошондой эле бир нече ыкмаларды Facebook оригинал көрүнүктүү кылып бирге, анын ичинде кабар поток алгоритм чыгар көтөрүүгө аракет кылды эле, ошондой эле бир нече жыл мурда «Бул күнү» оригиналдуу билдирүүлөр пайдалануучулардын мезгил-мезгили менен эскертүүлөрүн ачып берген. болсо, кандай тыянак, бул табылгалар Facebook маалымат булагы катары колдонууну каалаган изилдөөчүлөр үчүн эмне кылат?
[ ] Tumasjan et al. (2010) , саясий партия жөнүндө Tweets деп үлүшү партия 2009-жылы Германиянын парламенттик шайлоодо алган добуштардын саны (2.9-сүрөт) дал билдирди. Башка сөз менен айтканда, бул шайлоодо алдын ала Twitter тийиши мүмкүн экен. учурда бул изилдөө ал чоң маалыматтардын жалпы булактары баалуу пайдаланууну сунуш сезилди, анткени ал өтө кызыктуу деп эсептелген басылып чыккан.
чоң маалыматтарды жаман өзгөчөлүктөрдү эске алып, бирок, ошол замат бул натыйжасында ишенбей болушу керек. көп 2009-жылы Twitter боюнча немистер бир эмес өкүлү тобу, ошондой эле бир эле партиянын жактоочулары саясат жөнүндө бакшасын мүмкүн. Демек, сен элестете бардык мүмкүн болгон проблемалар кандайдыр бир жол менен жокко деп калыштуу көрүнөт. Чынында, натыйжа Tumasjan et al. (2010) өтө эле жакшы болуп калды. Алардын кагазга, Tumasjan et al. (2010) , алты саясий партия болуп эсептелет: христиан-демократтардын (солдо), Ыйсанын жолдоочусу коомдук-демократтар (абалга), SPD, либералдар (өтүп), Сол (Die Линке), жана Жашылдар партиясы (Grüne). Бирок, ошол убакта Twitter көпчүлүк аталган Германиянын саясий партия Pirate Party болгон (пк), Интернет, мамлекеттик жөнгө салууну согушуп партия. Pirate Party талдоо киргизилген келгенде, Twitter шайлоонун натыйжалары (2.9-сүрөт) бир коркунучтуу божомолдоолордун болуп айтылып өтөт (Jungherr, Jürgens, and Schoen 2012) .
Кийин, дүйнө жүзү боюнча башка изилдөөчүлөр Fancier ыкмалары сыяктуу сезимдердин талдоо шайлоону ар кандай түрлөрү ар кандай алдын ала Twitter маалыматтарды жөндөмдүүлүгүн жогорулатуу үчүн оң жана терс жөнүндө сөз партиялардын-тартипте айырмалай колдонуп катары колдонгон (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Бул жерде кантип Huberty (2015) шайлоого алдын ала аракеттеринин жыйынтыгын чыгарды:
«Коомдук негизделген белгилүү болжолдоо ыкмалары чыныгы алдын-шайлоо болжолдоо талаптарына дуушар болгондо эмес. Адамдардын мындай алсыздыгы эмес, методикалык же алгоритмдик кыйынчылыктарга караганда коомдук массалык маалымат каражаттарынын негизги касиеттери, улам болуп калды. Кыскача айтканда, коомдук маалымат каражаттары жок, жана, кыязы, эч качан, шайлоочулардын туруктуу, калыс, өкүлчүлүктүү сүрөттү сунуш кылат; жана коомдук массалык маалымат каражаттарынын ынгайлуулугу үлгүлөр бул көйгөйлөр туз пост чечүү үчүн жетиштүү маалымат жок. «
Алып кээ бир изилдөөлөргө окуп Huberty (2015) деген бүтүмгө жана Twitter шайлоону прогноздоодо колдонулуучу керек болсо, жана кантип саясий талапкерге бир барак кат жаз.
[ ] Бир sociologist жана тарыхчы ортосунда кандай айырма бар? Goldthorpe ылайык, (1991) , бир sociologist жана тарыхчы ортосундагы негизги айырма маалыматтарды чогултуу контролдоо болуп саналат. Тарыхчылар аластап конкреттүү максаттар үчүн маалыматтарды чогултуу жараша ылайыкташтырсак болот, ал эми аманаттар пайдаланууга мажбур болуудабыз. Окуп Goldthorpe (1991) . Custommades жана Readymades идеясы топтун жана тарыхтын ортосундагы айырмачылык менен кандай байланышы бар?
[ ], Мурунку суроо боюнча куруу, Goldthorpe (1991) бир катар сын, анын ичинде бир Никки Харт тартып (1994) түзгөн маалыматтарды ылайыкташтырышы керек Goldthorpe Аюбду туудурду. арналган маалыматтардын мүмкүн болуучу чектөөлөр түшүндүрүү, Харт бай кызматкер долбоору, 1960-жылдардын орто чени менен Goldthorpe жана кесиптештери тарабынан жүргүзүлгөн коомдук классына жана добуш ортосундагы мамиле өлчөө үчүн көп изилдөө сүрөттөлгөн. бир табылган маалыматтардын маалымат иштелип жактырган бир окумуштуунун күтүлгөн эле, бай кызматкер долбоору жашоо стандарттарын жогорулатуу жөнүндө доордо коомдук класстын келечеги тууралуу бир аз мурда сунушталган теориясын чечүү үчүн ылайыктуу болгон маалыматтарды чогулткан. Бирок, Goldthorpe жана кесиптештери эптеп аялдардын добуш берүү жүрүм-турум тууралуу маалымат топтоо үчүн «унутуп». Бул жерде Никки Харт кантип (1994) бүт эпизодду резюме:
«. . . бул аял эске алынбай калганбы корутунду качуу кыйын [турат], анткени танышуусуна аялдардын тажрыйбасы алынып парадигмалык логика менен камакта отурган «ылайыкташтырган жасады. эркек доминанталар катары ээлеген абалына жана иш-теориялык көрүнүш менен шартталган. . . , Goldthorpe жана анын кесиптештери тойгузган жана толуктукту жарактуу сынап, аларды ачыкка ордуна, өздөрүнүн теоретикалык божомолдорун өрчүтүп эмпирикалык далилдеринен бир катар өзүлөрү курушту. «
Харт улантып, мындай деди:
«Бай кызматкер долбоорунун эмпирикалык ачылыштар алар катмарлашуусу, саясатка жана материалдык өмүр жараяндарды билдирүүгө караганда бизге орто кылымдагы .Оздору masculinist баалуулуктары жөнүндө көбүрөөк айтып берчи».
Сиз тикмечи түзгөн маалыматтарды чогултуу ошол Таштын үстүнө курулуп маалыматтар коллекторду проблемалар бар башка да мисалдарды келтире алабыз? Кантип бул алгоритмдик адаштырышты салыштырган? Алар Custommades колдонуу керек болгондо изилдөөчүлөр Readymades пайдаланууга керек болгондо эмне, натыйжада бул үчүн болушу мүмкүн жана эмне үчүн?
[ ] Бул бөлүмдө, мен компаниялардын жана башкаруу органдары тарабынан түзүлгөн мамлекеттик эсепке алуу менен изилдөөчүлөр үчүн изилдөөчүлөр тарабынан чогултулган маалыматтарды карама-каршы. Кээ бир адамдар бул башкаруу жазуулар, алар менен карама-каршы «маалыматтарды табылды» деп, «арналган маалыматтар.» Бул башкаруу жазуулар изилдөөчүлөр тарабынан табылып жатканы чын, бирок алар да өтө иштелип чыккан. Мисалы, заманбап технологиялык компаниялар чогултуп, өздөрүнүн маалыматтарын тандап алуу үчүн убакыт жана ресурстарды ири өлчөмдөгү каражат сарпталууда. Ошентип, бул башкаруу жазуулар табылган жана иштелип чыккан да бар, ал жөн гана көз карашы (Figure 2.10) көз каранды болот.
изилдөө үчүн маалымат булагын колдонууда табылган жана иштелип пайдалуу да, аны көрүп, ал жерде маалымат булагынын бир мисал берет.
[ ] Ой дил-жылы Кристиан Sandvig жана Eszter Hargittai (2015) эки санариптик система «инструмент» же санариптик изилдөө, түрлөрүн, «изилдөө объектиси.» Кайда Bengtsson изилдөөгө биринчи мисалы жана кесиптештер сүрөттөө (2011) Дженсен жерде экинчи түрү болуп саналат, мисалы, 2010-жылы Гаитидеги жер титирөөдөн кийин жер которушун көзөмөлгө алууга уюлдук маалыматтарды колдонгон (2007) Керала боюнча уюлдук киргизүү, Индия балык рыногунун иштешин таасири кандай изилдөөлөр. санариптик маалымат булактарын колдонуу менен изилдөө, алар маалымат булагынын бир түрүн колдонуп жаткан болсо да, такыр башка максаттарга туура келиши мүмкүн экенин түшүндүргөн, анткени мен бул пайдалуу. мындан ары бул айырманы түшүндүрүү үчүн, сиз көргөн төрт изилдөө сүрөттөйт: эки инструменти катары санариптик системасын колдонуу жана изилдөөнүн объектиси катары санариптик системасын колдонгон эки. Сиз каалаган болсо, бул бөлүмдүн мисалдарды колдоно аласыз.