Ўмоўныя абазначэнні:
[ , ] Алгарытмічныя ўмешваецца была праблема з Google Flu Trends. Прачытайце дакумент па Lazer et al. (2014) і Lazer et al. (2014) , і напісаць кароткае, яснае ліст да інжынерам у Google , які тлумачыць гэтую праблему і прапануе ўяўленне пра тое , як вырашыць гэтую праблему.
[ ] Bollen, Mao, and Zeng (2011) сцвярджае , што дадзеныя з Twitter могуць быць выкарыстаны для прагназавання на фондавым рынку. Гэта адкрыццё прывяло да стварэння хедж - фонд-Derwent Capital Markets-інвеставаць на фондавым рынку на аснове дадзеных , сабраных з Twitter (Jordan 2010) . Якія доказы вы хацелі б убачыць, перш чым пакласці свае грошы ў гэты фонд?
[ ] У той час як некаторыя абаронцы грамадскага аховы здароўя вітаюць электронныя цыгарэты ў якасці эфектыўнай дапамогі для адмовы ад курэння, іншыя папярэджваюць аб патэнцыйных рызыках, такіх як высокіх узроўняў нікаціну. Уявіце сабе, што даследчык вырашае вывучыць грамадскую думку ў адносінах да электроннай цыгарэты, збіраючы электронныя цыгарэты звязаныя паведамленні Twitter і правядзенне аналізу настрояў.
[ ] У лістападзе 2009 года, Twitter змяніў пытанне ў полі цвіркалі са «Што ты робіш?" На "Што адбываецца?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) і Kwak et al. (2010) прааналізавалі 41,7 млн профіляў карыстальнікаў, 1,47 млрд сацыяльных адносін, 4262 адхіляюцца тэмы, і 106 мільёнаў твітоў паміж 6 чэрвеня і 31 чэрвеня 2009 г. На аснове гэтага аналізу яны заключылі , што Twitter служыць больш як новай асяроддзя абмену інфармацыяй , чым Сацыяльная сетка.
[ ] "Ретвитов" часта выкарыстоўваюцца для вымярэння ўплыву і распаўсюджвання ўплыву на Twitter. Першапачаткова, карыстальнікі павінны былі капіяваць і ўстаўляць твіт упадабаную, пазначаць арыгінальнага аўтара з яго / яе ручкай, і ўручную ўвесці "RT" перад твіт, каб паказаць, што гэта ретвит. Затым, у 2009 годзе Twitter дадалі кнопку "Retweet". У чэрвені 2016 года, Twitter зрабіў магчымым для карыстальнікаў ретвит свае ўласныя твіты (https://twitter.com/twitter/status/742749353689780224). Як вы думаеце, гэтыя змены павінны паўплываць, як вы выкарыстоўваеце "ретвитов" у вашых даследаваннях? Чаму або чаму няма?
[ , , ] Michel et al. (2011) і Michel et al. (2011) пабудаваў корпус , якія выходзяць з намаганняў кампаніі Google па аблічбоўцы кніг. Выкарыстоўваючы першую версію корпуса, якая была апублікавана ў 2009 годзе і утрымліваў больш за 5 мільёнаў алічбаваных кніг, аўтары прааналізавалі частату ўжывання слоў, каб даследаваць моўныя змены і культурныя тэндэнцыі. Неўзабаве Google Кнігі Корпус стаў папулярным крыніцай дадзеных для даследчыкаў, а другая версія базы дадзеных была выпушчаная ў 2012 годзе.
Тым ня менш, Pechenick, Danforth, and Dodds (2015) папярэджвае , што даследчыкі павінны ў поўнай меры характарызуюць працэс дыскрэтызацыі корпуса перад яго выкарыстаннем для малявання шырокіх высноў. Асноўнай праблемай з'яўляецца тое, што корпус з'яўляецца бібліятэка-як, які змяшчае адну з кожнай кнігі. У выніку, чалавек, пладавіты аўтар здольны прыкметна ўстаўляць новыя фразы ў лексіконе Google Кнігі. Акрамя таго, навуковыя тэксты ўяўляюць сабой усё больш істотную частку корпуса на працягу 1900-х гадоў. Акрамя таго, шляхам параўнання двух версій набораў дадзеных Fiction англійскай, Pechenick і інш. знайшлі доказы таго, што недастатковая фільтраванне была выкарыстаная ў вытворчасці першай версіі. Усе дадзеныя, неабходныя для дзейнасці даступная тут: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) даследуе Ці шырокае распаўсюджванне рэкламы аб NSA нагляду / PRISM (г.зн. адкрыццяў Snowden) у 2013 чэрвені года звязана з рэзкім і раптоўным зніжэннем трафіку на артыкулы Вікіпедыі па тэмах , якія выклікаюць праблемы прыватнага жыцця. Калі так, то гэта змена ў паводзінах будзе адпавядаць з астуджальным эфектам у выніку масавага назірання. Падыход Penney (2016) часам называюць перарваны дызайн часовых шэрагаў і звязаны з падыходамі , у главе пра апраксімуецца эксперыментаў па дадзеных назіранняў (раздел 2.4.3).
Каб выбраць тэму ключавых слоў, Penney згадваецца ў спісе выкарыстоўваюцца Дэпартаментам ўнутранай бяспекі ЗША для адсочвання і маніторынгу сацыяльных медыя. У спісе DHS класіфікуе пэўныя ўмовы пошуку ў цэлы шэраг пытанняў, г.зн. "Здароўе канцэрну", "Інфраструктура бяспекі" і "тэрарызм". Для даследчай групы, Penney выкарыстоўвалі сорак восем ключавых слоў, звязаныя з "тэрарызмам" (гл табліцу 8 дадатак). Затым ён агрэгуецца Вікіпедыі колькасць праглядаў артыкулы на штомесячнай аснове для адпаведных сарака васьмі артыкулаў Вікіпедыі на працягу трыццаці двух месяцаў, з пачатку студзеня 2012 года да канца жніўня 2014 г. Для таго, каб узмацніць свае аргументы, ён таксама стварыў некалькі параўнанне груп па адсочванне праглядаў артыкулы на іншыя тэмы.
Зараз, вы збіраецеся паўтарыць і пашырыць Penney (2016) . Ўсе зыходныя дадзеныя, якія вы будзеце мець патрэбу для гэтай дзейнасці даступная з Вікіпедыі (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Ці вы можаце атрымаць яго з R пакета wikipediatrend (Meissner and Team 2016) . Калі вы пішаце ўверх вашы адказы, калі ласка, звярніце ўвагу, які крыніца дадзеных вы выкарыстоўвалі. (Заўвага: Гэтая ж актыўнасць таксама з'яўляецца ў главе 6)
[ ] Efrati (2016) справаздачы, заснаваныя на канфідэнцыйнай інфармацыі, што «поўны абмен» на Facebook скарацілася прыкладна на 5,5% у гадавым вылічэнні ў той час як "арыгінальны сумеснае вяшчанне" знізіўся на 21% за год. Гэта зніжэнне было асабліва востра з карыстальнікамі Facebook маладзейшыя за 30 гадоў. У дакладзе аднесці зніжэнне да двум фактарам. Адным з іх з'яўляецца рост колькасці "сяброў" у людзей ёсць на Facebook. Іншы ў тым, што некаторы падзел актыўнасці зрушыўся на абмен паведамленнямі і канкурэнтаў, такіх як Snapchat. У дакладзе таксама раскрыў некалькі тактыку Facebook якія спрабавалі фарсіраваць абмен імі, у тым ліку News Feed алгарытм хітрыкаў, якія робяць арыгінальныя пасты больш прыкметным, а таксама перыядычных напамінкаў аб першапачатковых карыстальнікаў паведамленні "У гэты дзень" некалькі гадоў таму. Якія наступствы, калі такія маюцца, робіць гэтыя высновы маюць для даследчыкаў, якія хочуць выкарыстаць Facebook у якасці крыніцы дадзеных?
[ ] Tumasjan et al. (2010) і Tumasjan et al. (2010) паведамілі , што доля твітаў з згадваннем палітычнай партыі адпавядае долі галасоў, атрыманых партыяй у нямецкім парламенцкіх выбарах у 2009 годзе (мал 2.9). Іншымі словамі, аказалася, што вы маглі б выкарыстоўваць Twitter, каб прадказаць выбары. У той час гэта даследаванне было апублікавана было палічана надзвычай захапляльным, таму што гэта здавалася прапанаваць каштоўным выкарыстанне для агульнага крыніцы вялікіх аб'ёмаў дадзеных.
Улічваючы дрэнныя рысы вялікіх аб'ёмаў дадзеных, аднак, вы павінны неадкладна скептычна ставіцца да гэтага выніку. Немцы на Twitter у 2009 годзе былі даволі нерепрезентативная групы і прыхільнікаў адной партыі можа цвіркалі пра палітыку часцей. Такім чынам, здаецца дзіўным, што ўсе магчымыя сістэматычныя памылкі, якія вы можаце сабе ўявіць неяк кампенсуюць. На самай справе, вынікі ў Tumasjan et al. (2010) і Tumasjan et al. (2010) апынуўся занадта добра , каб быць праўдай. У сваёй працы, Tumasjan et al. (2010) і Tumasjan et al. (2010) разгледзеў шэсць палітычных партый: хрысціянскія дэмакраты (ХДС), хрысціянскія сацыял - дэмакраты (CSU), СПД, лібераламі (СвДП), левая (Die Linke) і Партыя зялёных (Grüne). Тым не менш, найбольш згадваных нямецкая палітычная партыя на Twitter у той час была Пірацкая партыя (Piraten), партыя, якая змагаецца дзяржаўнага рэгулявання Інтэрнэту. Калі Пірацкая партыя была ўключана ў аналіз, Twitter згадвае становіцца жахлівым прадказальнікам вынікаў выбараў (Малюнак 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Пасля іншыя даследчыкі ва ўсім свеце выкарыстоўвалі мудрагелістыя метады, такія як з дапамогай аналізу настрояў адрозніваць станоўчыя і адмоўныя згадкі бакоў-для таго , каб палепшыць здольнасць дадзеных Twitter спрагназаваць розныя віды выбараў (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Вось як Huberty (2015) абагульнены вынікі гэтых спроб прадказаць выбары:
"Усе вядомыя метады прагназавання, заснаваныя на сацыяльных медыя пацярпелі няўдачу, калі падвяргаюцца патрабаванням сапраўднага выбарчага прагназавання перспектыўнага. Гэтыя няўдачы, як уяўляецца, з-за фундаментальных уласцівасцяў сацыяльных медыя, а не да метадалагічным або алгарытмічных цяжкасцяў. Карацей кажучы, сацыяльныя медыя не робяць, і, верагодна, ніколі не будзе, прапануем стабільную, аб'ектыўную, прадстаўнічую карціну электарату; і ўзоры зручнасці сацыяльных медыя не маюць дастатковых дадзеных, каб выправіць гэтыя праблемы постфактум ".
Прачытайце некаторыя даследаванні , якія вядуць Huberty (2015) да такой высновы, і напісаць адну старонку Напамін для палітычнага кандыдата , які апісвае , калі і як Twitter варта выкарыстоўваць для прагназавання выбараў.
[ ] У чым розніца паміж сацыёлягам і гісторыкам? Згодна Голдторпа (1991) , асноўнае адрозненне паміж сацыёлягам і гісторыкам з'яўляецца кантроль над зборам дадзеных. Гісторыкі вымушаныя выкарыстоўваць рэліквіі, тады як сацыёлагі могуць адаптаваць іх збор дадзеных для канкрэтных мэтаў. Read Goldthorpe (1991) . Як розніца паміж сацыялогіяй і гісторыяй звязана з ідэяй Custommades і Readymades?
[ ] Абапіраючыся на папярэдняе пытанне, Goldthorpe (1991) прыцягнуў шэраг крытычных водгукаў, у тым ліку адзін з Nicky Харт (1994) , якія кінулі выклік адданасць Goldthorpe да адаптаваць зробленыя дадзеныя. Для высвятлення магчымых абмежаванняў спецыяльна распрацаваных дадзеных, Харт апісаў шчасных работнік праекта, вялікае даследаванне, каб вымераць ўзаемасувязь паміж сацыяльным класам і галасавання, праведзенага Голдторпа і яго калегамі ў сярэдзіне 1960-х гадоў. Як і варта было чакаць ад навукоўца, які спрыяння распрацаваны дадзеныя па знойдзеных дадзеных, квітнеючых работнік праекта сабраны дадзеныя, якія былі з улікам рашэння нядаўна прапанаванай тэорыі пра будучыню сацыяльнага класа ў эпоху павышэння ўзроўню жыцця. Але, Голдторп і яго калегі чамусьці "забыўся", каб сабраць інфармацыю аб паводзінах галасавання жанчын. Вось як Нікі Харт (1994) Вынікі ўвесь эпізод:
". , , ён [гэта] цяжка пазбегнуць зняволення, што жанчыны былі апушчаны, таму што гэта «кравец зрабіў» набор дадзеных быў абмежаваны парадигматической логікай, якая выключала жаночы досвед. Вядзёны тэарэтычнага бачання класавага свядомасці і дзеянні як мужчын клопатамі. , , , Голдторп і яго калегі пабудавалі мноства эмпірычных доказаў, якія кармілі і песцілі свае ўласныя тэарэтычныя здагадкі замест таго, каб падвяргаць іх сапраўднага аналізу адэкватнасьці ".
Харт працягваў:
"Эмпірычныя вынікі квітнеючых работніка праекту кажуць нам больш пра маскулинистских каштоўнасцяў сацыялогіі сярэдзіны мінулага стагоддзя, чым яны інфармуюць працэсы стратыфікацыі, палітыкі і матэрыяльнай жыцця."
Ці можаце вы ўзгадаць іншыя прыклады, дзе збор індывідуальныя дадзеныя мае ўхілы калектара дадзеных, ўбудаваных у яго? Як гэта суадносіцца з алгарытмічнай змешванню? Якія наступствы гэта можа мець для таго, калі даследчыкі павінны выкарыстоўваць Readymades і калі яны павінны выкарыстоўваць Custommades?
[ ] У гэтым раздзеле я супрацьпаставіў дадзеныя, сабраныя даследнікамі для даследчыкаў з адміністрацыйнымі запісаў, створаных кампаніямі і урадамі. Некаторыя людзі называюць гэтыя адміністрацыйныя запісу "знайшлі дадзеныя", якія яны кантрастуюць з "Designed дадзеных." Гэта праўда, што адміністрацыйныя запісу знойдзеныя даследчыкамі, але яны таксама высока распрацаваны. Напрыклад, сучасныя тэхналагічныя кампаніі марнуюць велізарную колькасць часу і рэсурсаў для збору і захоўвання сваіх дадзеных. Такім чынам, гэтыя адміністрацыйныя запісу абодва знойдзеныя і распрацаваны, гэта проста залежыць ад вашага пункту гледжання (мал 2.10).
Забяспечыць прыклад крыніцы дадзеных, дзе разглядаючы яго і як знайшлі і прызначаны карысна пры выкарыстанні гэтай крыніцы дадзеных для даследаванняў.
[ ] У задуменным эсэ, Крысціян Sandvig і Eszter Hargittai (2015) апісваюць два віды лічбавых даследаванняў, дзе лічбавая сістэма з'яўляецца «інструментам» або «аб'ект даследавання". Прыкладам першага роду даследаванні , дзе Бенгтссон і яго калегі (2011) выкарыстоўвалі дадзеныя мабільнага тэлефона для адсочвання міграцыі пасля землятрусу на Гаіці ў 2010 годзе прыкладам другога роду , дзе Дженсен (2007) даследаванні , як ўкараненне мабільных тэлефонаў ва ўсім штаце Керала, Індыя паўплывала на функцыянаванне рынку для рыбы. Я лічу гэта карысным, паколькі ён удакладняе, што даследаванні з выкарыстаннем лічбавых крыніц дадзеных можа мець зусім розныя мэты, нават калі яны выкарыстоўваюць адзін і той жа тып крыніцы дадзеных. Для далейшага удакладнення гэтага адрознення, апісваюць чатыры даследаванні, якія вы бачылі: два, якія выкарыстоўваюць лічбавую сістэму ў якасці інструмента і два, якія выкарыстоўваюць лічбавую сістэму ў якасці аб'екта даследавання. Вы можаце выкарыстоўваць прыклады з гэтай кіраўніка, калі вы хочаце.