Условные обозначения:
[ , ] Алгоритмической вмешивающимся была проблема с Google Flu Trends. Прочитайте документ по Lazer et al. (2014) и Lazer et al. (2014) , и написать короткое, ясное письмо к инженером в Google , объясняющей эту проблему и предлагает представление о том , как решить эту проблему.
[ ] Bollen, Mao, and Zeng (2011) утверждает , что данные из Twitter могут быть использованы для прогнозирования на фондовом рынке. Это открытие привело к созданию хедж - фонд-Derwent Capital Markets-инвестировать на фондовом рынке на основе данных , собранных из Twitter (Jordan 2010) . Какие доказательства вы хотели бы увидеть, прежде чем положить свои деньги в этот фонд?
[ ] В то время как некоторые защитники общественного здравоохранения приветствуют электронные сигареты в качестве эффективной помощи для отказа от курения, другие предупреждают о потенциальных рисках, таких как высоких уровней никотина. Представьте себе, что исследователь решает изучить общественное мнение по отношению к электронной сигареты, собирая электронные сигареты связанные сообщения Twitter и проведение анализа настроений.
[ ] В ноябре 2009 года, Twitter изменил вопрос в поле чирикать из "Что ты делаешь?" На "Что происходит?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) и Kwak et al. (2010) проанализировали 41,7 млн профилей пользователей, 1,47 млрд социальных отношений, 4262 отклоняющиеся темы, и 106 миллионов твитов между 6 июня и 31 июня 2009 г. На основе этого анализа они заключили , что Twitter служит больше как новой среды обмена информацией , чем социальная сеть.
[ ] "Ретвитов" часто используются для измерения влияния и распространения влияния на Twitter. Первоначально, пользователи должны были копировать и вставлять твит понравившуюся, помечать оригинального автора с его / ее ручкой, и вручную ввести "RT" перед твит, чтобы указать, что это ретвит. Затем, в 2009 году Twitter добавили кнопку "Retweet". В июне 2016 года, Twitter сделал возможным для пользователей ретвит свои собственные твиты (https://twitter.com/twitter/status/742749353689780224). Как вы думаете, эти изменения должны повлиять, как вы используете "ретвитов" в ваших исследованиях? Почему или почему нет?
[ , , ] Michel et al. (2011) и Michel et al. (2011) построил корпус , выходящих из усилий компании Google по оцифровке книг. Используя первую версию корпуса, которая была опубликована в 2009 году и содержал более 5 миллионов оцифрованных книг, авторы проанализировали частоту употребления слов, чтобы исследовать языковые изменения и культурные тенденции. Вскоре Google Книги Корпус стал популярным источником данных для исследователей, а вторая версия базы данных была выпущена в 2012 году.
Тем не менее, Pechenick, Danforth, and Dodds (2015) предупреждает , что исследователи должны в полной мере характеризуют процесс дискретизации корпуса перед его использованием для рисования широких выводов. Основной проблемой является то, что корпус является библиотека-как, содержащий одну из каждой книги. В результате, человек, плодовитый автор способен заметно вставлять новые фразы в лексиконе Google Книги. Кроме того, научные тексты представляют собой все более существенную часть корпуса на протяжении 1900-х годов. Кроме того, путем сравнения двух версий наборов данных Fiction английском, Pechenick и др. нашли доказательства того, что недостаточная фильтрация была использована в производстве первой версии. Все данные, необходимые для деятельности доступна здесь: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) исследует ли широкое распространение рекламы о NSA надзора / PRISM (т.е. откровений Snowden) в июне 2013 года связано с резким и внезапным снижением трафика на статьи Википедии по темам , которые вызывают проблемы частной жизни. Если да, то это изменение в поведении будет соответствовать с охлаждающим эффектом в результате массового наблюдения. Подход Penney (2016) иногда называют прерванный дизайн временных рядов и связан с подходами , в главе о аппроксимирующих экспериментов по данным наблюдений (раздел 2.4.3).
Чтобы выбрать тему ключевых слов, Penney упоминается в списке используемых Департаментом внутренней безопасности США для отслеживания и мониторинга социальных медиа. В списке DHS классифицирует определенные условия поиска в целый ряд вопросов, т.е. "Здоровье Концерна", "Инфраструктура безопасности" и "терроризм". Для исследовательской группы, Penney использовали сорок восемь ключевых слов, связанные с "терроризмом" (см таблицу 8 Приложение). Затем он агрегируется Википедии количество просмотров статьи на ежемесячной основе для соответствующих сорока восьми статей Википедии в течение тридцати двух месяцев, с начала января 2012 года до конца августа 2014 г. Для того, чтобы усилить свои аргументы, он также создал несколько сравнение групп по отслеживание просмотров статьи на другие темы.
Теперь, вы собираетесь повторить и расширить Penney (2016) . Все исходные данные, которые вы будете нуждаться для этой деятельности доступна из Википедии (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Или вы можете получить его из R пакета wikipediatrend (Meissner and Team 2016) . Когда вы пишете вверх ваши ответы, пожалуйста, обратите внимание, какой источник данных вы использовали. (Примечание: Эта же активность также появляется в главе 6)
[ ] Efrati (2016) отчеты, основанные на конфиденциальной информации, что «полный обмен» на Facebook сократилась примерно на 5,5% в годовом исчислении в то время как "оригинальный совместное вещание" снизился на 21% за год. Это снижение было особенно остро с пользователями Facebook моложе 30 лет. В докладе отнести снижение к двум факторам. Одним из них является рост числа "друзей" у людей есть на Facebook. Другой в том, что некоторое разделение активности сместился на обмен сообщениями и конкурентов, таких как Snapchat. В докладе также раскрыл несколько тактику Facebook пытавшихся форсировать обмен ими, в том числе News Feed алгоритм ухищрений, которые делают оригинальные посты более заметным, а также периодических напоминаний о первоначальных пользователей сообщения "В этот день" несколько лет назад. Какие последствия, если таковые имеются, делает эти выводы имеют для исследователей, которые хотят использовать Facebook в качестве источника данных?
[ ] Tumasjan et al. (2010) и Tumasjan et al. (2010) сообщили , что доля твитов с упоминанием политической партии соответствует доли голосов, полученных партией в немецком парламентских выборах в 2009 году (рис 2.9). Другими словами, оказалось, что вы могли бы использовать Twitter, чтобы предсказать выборы. В то время это исследование было опубликовано было сочтено чрезвычайно захватывающим, потому что это казалось предложить ценным использование для общего источника больших объемов данных.
Учитывая плохие черты больших объемов данных, однако, вы должны немедленно скептически относиться к этому результату. Немцы на Twitter в 2009 году были довольно нерепрезентативная группы и сторонников одной партии может чирикать о политике чаще. Таким образом, кажется удивительным, что все возможные систематические ошибки, которые вы можете себе представить как-то компенсируют. На самом деле, результаты в Tumasjan et al. (2010) и Tumasjan et al. (2010) оказался слишком хорошо , чтобы быть правдой. В своей работе, Tumasjan et al. (2010) и Tumasjan et al. (2010) рассмотрел шесть политических партий: христианские демократы (ХДС), христианские социал - демократы (CSU), СПД, либералами (СвДП), левая (Die Linke) и Партия зеленых (Grüne). Тем не менее, наиболее упоминаемых немецкая политическая партия на Twitter в то время была Пиратская партия (Piraten), партия, которая борется государственного регулирования Интернета. Когда Пиратская партия была включена в анализ, Twitter упоминает становится ужасным предсказателем результатов выборов (Рисунок 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Впоследствии другие исследователи во всем мире использовали причудливые методы, такие как с помощью анализа настроений различать положительные и отрицательные упоминания сторон-для того , чтобы улучшить способность данных Twitter спрогнозировать различные виды выборов (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Вот как Huberty (2015) обобщены результаты этих попыток предсказать выборы:
"Все известные методы прогнозирования, основанные на социальных медиа потерпели неудачу, когда подвергаются требованиям истинного избирательного прогнозирования перспективного. Эти неудачи, как представляется, из-за фундаментальных свойств социальных медиа, а не к методологическим или алгоритмических трудностей. Короче говоря, социальные медиа не делают, и, вероятно, никогда не будет, предлагаем стабильную, объективную, представительную картину электората; и образцы удобства социальных медиа не имеют достаточных данных, чтобы исправить эти проблемы постфактум ".
Прочитайте некоторые исследования , которые ведут Huberty (2015) к такому выводу, и написать одну страницу Напоминание для политического кандидата , описывающего , если и как Twitter следует использовать для прогнозирования выборов.
[ ] В чем разница между социологом и историком? Согласно Голдторпа (1991) , основное различие между социологом и историком является контроль над сбором данных. Историки вынуждены использовать реликвии, тогда как социологи могут адаптировать их сбор данных для конкретных целей. Read Goldthorpe (1991) . Как разница между социологией и историей связана с идеей Custommades и Readymades?
[ ] Опираясь на предыдущий вопрос, Goldthorpe (1991) привлек ряд критических откликов, в том числе один из Nicky Харт (1994) , бросившим вызов преданность Goldthorpe к адаптировать сделанные данные. Для выяснения возможных ограничений специально разработанных данных, Харт описал благополучных работник проекта, большое исследование, чтобы измерить взаимосвязь между социальным классом и голосования, проведенного Голдторпа и его коллегами в середине 1960-х годов. Как и следовало ожидать от ученого, который благоприятствования разработан данные по найденных данных, процветающих работник проекта собраны данные, которые были с учетом решения недавно предложенной теории о будущем социального класса в эпоху повышения уровня жизни. Но, Голдторп и его коллеги почему-то "забыл", чтобы собрать информацию о поведении голосования женщин. Вот как Ники Харт (1994) Итоги весь эпизод:
". , , он [это] трудно избежать заключения, что женщины были опущены, потому что это «портной сделал» набор данных был ограничен парадигматической логикой, которая исключала женский опыт. Ведомый теоретического видения классового сознания и действия как мужчин заботами. , , , Голдторп и его коллеги построили множество эмпирических доказательств, которые кормили и лелеяли свои собственные теоретические предположения вместо того, чтобы подвергать их действительного анализа адекватности ".
Харт продолжал:
"Эмпирические результаты процветающих работника проекта говорят нам больше о маскулинистских ценностей социологии середины прошлого века, чем они информируют процессы стратификации, политики и материальной жизни."
Можете ли вы вспомнить другие примеры, где сбор индивидуальные данные имеет уклоны коллектора данных, встроенных в него? Как это соотносится с алгоритмической смешению? Какие последствия это может иметь для того, когда исследователи должны использовать Readymades и когда они должны использовать Custommades?
[ ] В этой главе я противопоставил данные, собранные исследователями для исследователей с административными записей, созданных компаниями и правительствами. Некоторые люди называют эти административные записи "нашли данные", которые они контрастируют с "Designed данных." Это правда, что административные записи найдены исследователями, но они также высоко разработаны. Например, современные технологические компании тратят огромное количество времени и ресурсов для сбора и хранения своих данных. Таким образом, эти административные записи оба найдены и разработаны, это просто зависит от вашей точки зрения (рис 2.10).
Обеспечить пример источника данных, где рассматривая его и как нашли и предназначен полезно при использовании этого источника данных для исследований.
[ ] В задумчивым эссе, Кристиан Sandvig и Eszter Hargittai (2015) описывают два вида цифровых исследований, где цифровая система является «инструментом» или «объект исследования». Примером первого рода исследовании , где Бенгтссон и его коллеги (2011) использовали данные мобильного телефона для отслеживания миграции после землетрясения на Гаити в 2010 году примером второго рода , где Дженсен (2007) исследования , как внедрение мобильных телефонов во всем штате Керала, Индия повлияло на функционирование рынка для рыбы. Я считаю это полезным, поскольку он уточняет, что исследования с использованием цифровых источников данных может иметь совершенно разные цели, даже если они используют один и тот же тип источника данных. Для дальнейшего уточнения этого различия, описывают четыре исследования, которые вы видели: два, которые используют цифровую систему в качестве инструмента и два, которые используют цифровую систему в качестве объекта исследования. Вы можете использовать примеры из этой главы, если вы хотите.