мероприятия

Условные обозначения:

  • Степень сложности: легкий легко , средний средний , жесткий жесткий , очень сложно очень сложно
  • требует математику ( требует математику )
  • требует кодирования ( требует кодирования )
  • Сбор данных ( Сбор данных )
  • мои любимые ( мой любимый )
  1. [ средний , мой любимый ] Алгоритмической вмешивающимся была проблема с Google Flu Trends. Прочитайте документ по Lazer et al. (2014) и Lazer et al. (2014) , и написать короткое, ясное письмо к инженером в Google , объясняющей эту проблему и предлагает представление о том , как решить эту проблему.

  2. [ средний ] Bollen, Mao, and Zeng (2011) утверждает , что данные из Twitter могут быть использованы для прогнозирования на фондовом рынке. Это открытие привело к созданию хедж - фонд-Derwent Capital Markets-инвестировать на фондовом рынке на основе данных , собранных из Twitter (Jordan 2010) . Какие доказательства вы хотели бы увидеть, прежде чем положить свои деньги в этот фонд?

  3. [ легко ] В то время как некоторые защитники общественного здравоохранения приветствуют электронные сигареты в качестве эффективной помощи для отказа от курения, другие предупреждают о потенциальных рисках, таких как высоких уровней никотина. Представьте себе, что исследователь решает изучить общественное мнение по отношению к электронной сигареты, собирая электронные сигареты связанные сообщения Twitter и проведение анализа настроений.

    1. Каковы три возможные отклонения, которые вы больше всего беспокоит в этом исследовании?
    2. Clark et al. (2016) и Clark et al. (2016) провел только такое исследование. Во-первых, они собрали 850000 твитов, которые использовали электронной сигареты Ключевые слова, связанные с января 2012 по декабрь 2014 г. При ближайшем рассмотрении, они поняли, что многие из этих твитов были автоматизированы (то есть, не производятся людьми), и многие из этих автоматизированных твитов были по существу рекламные ролики. Они разработали алгоритм обнаружения человека с целью отделить автоматизированные твиты от органических твитов. С помощью этого алгоритма обнаружения человеческого они обнаружили, что 80% твитов были автоматизированы. Изменит ли этот вывод ваш ответ на части (а)?
    3. Когда они сравнили настроения в органических и автоматизированных твитов они обнаружили, что автоматизированные твиты более позитивно, чем органические твитов (6.17 по сравнению с 5.84). Изменит ли этот вывод ваш ответ на (б)?
  4. [ легко ] В ноябре 2009 года, Twitter изменил вопрос в поле чирикать из "Что ты делаешь?" На "Что происходит?" (Https://blog.twitter.com/2009/whats-happening).

    1. Как вы думаете, изменение подсказок повлияет кто чириканье и / или то, что они чирикать?
    2. Назовите один исследовательский проект, для которого вы предпочли бы подсказку "Что вы делаете?" Объясните, почему.
    3. Назовите один исследовательский проект, для которого вы предпочли бы подсказка "Что происходит?" Объясните, почему.
  5. [ средний ] Kwak et al. (2010) и Kwak et al. (2010) проанализировали 41,7 млн профилей пользователей, 1,47 млрд социальных отношений, 4262 отклоняющиеся темы, и 106 миллионов твитов между 6 июня и 31 июня 2009 г. На основе этого анализа они заключили , что Twitter служит больше как новой среды обмена информацией , чем социальная сеть.

    1. Учитывая нахождение Квак и др, в какой тип исследований вы бы делать с данными Twitter? Какой тип исследования вы бы не делать с данными Twitter? Зачем?
    2. В 2010 году добавлен Twitter, Кто То Следовать за услугу делает подогнанный предложение для пользователей. Три рекомендации приведены в то время, на главной странице. Рекомендации часто взяты из своих "друзей-оф-друзей", и взаимные контакты отображаются также в рекомендации. Пользователи могут обновить, чтобы увидеть новый набор рекомендаций или посетить страницу с более длинным списком рекомендаций. Как вы думаете, эта новая функция будет изменить свой ответ на часть А)? Почему или почему нет?
    3. Su, Sharma, and Goel (2016) оценивали влияние Кто Следовать службы и обнаружили , что в то время как пользователи по всему спектру популярности воспользовались рекомендациями, наиболее популярных пользователей воспользовались значительно больше , чем в среднем. Изменит ли этот вывод ваш ответ на части б)? Почему или почему нет?
  6. [ легко ] "Ретвитов" часто используются для измерения влияния и распространения влияния на Twitter. Первоначально, пользователи должны были копировать и вставлять твит понравившуюся, помечать оригинального автора с его / ее ручкой, и вручную ввести "RT" перед твит, чтобы указать, что это ретвит. Затем, в 2009 году Twitter добавили кнопку "Retweet". В июне 2016 года, Twitter сделал возможным для пользователей ретвит свои собственные твиты (https://twitter.com/twitter/status/742749353689780224). Как вы думаете, эти изменения должны повлиять, как вы используете "ретвитов" в ваших исследованиях? Почему или почему нет?

  7. [ средний , Сбор данных , требует кодирования ] Michel et al. (2011) и Michel et al. (2011) построил корпус , выходящих из усилий компании Google по оцифровке книг. Используя первую версию корпуса, которая была опубликована в 2009 году и содержал более 5 миллионов оцифрованных книг, авторы проанализировали частоту употребления слов, чтобы исследовать языковые изменения и культурные тенденции. Вскоре Google Книги Корпус стал популярным источником данных для исследователей, а вторая версия базы данных была выпущена в 2012 году.

    Тем не менее, Pechenick, Danforth, and Dodds (2015) предупреждает , что исследователи должны в полной мере характеризуют процесс дискретизации корпуса перед его использованием для рисования широких выводов. Основной проблемой является то, что корпус является библиотека-как, содержащий одну из каждой книги. В результате, человек, плодовитый автор способен заметно вставлять новые фразы в лексиконе Google Книги. Кроме того, научные тексты представляют собой все более существенную часть корпуса на протяжении 1900-х годов. Кроме того, путем сравнения двух версий наборов данных Fiction английском, Pechenick и др. нашли доказательства того, что недостаточная фильтрация была использована в производстве первой версии. Все данные, необходимые для деятельности доступна здесь: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. В Michel и др. , В оригинальной работе (2011) , они использовали 1 - ую версию набора данных английского, построенная на частоту использования годы "1880", "1912" и "1973", и пришел к выводу , что "мы забывая наше прошлое быстрее с каждым годом "(рис. 3А, Мишель и др.). Репликация тот же сюжет, используя 1) 1-ый вариант, корпус английского набора данных (такой же, как рис. 3А, Мишель и др.)
    2. Теперь повторить тот же сюжет с 1-ой версии, английский фикцией набора данных.
    3. Теперь повторить тот же сюжет с 2-й версии, корпус английского набора данных.
    4. И, наконец, повторить тот же сюжет с 2-ой версии, английский фикцией набора данных.
    5. Опишите различия и сходства между этими четырьмя участками. Согласны ли вы с Michel и др., в оригинальной интерпретации наблюдаемого тренда? (Подсказка: с) и d) должны быть такими же, как показано на рисунке 16, в Pechenick и др).
    6. Теперь, когда вы воспроизвели этот один вывод с использованием различных Google Книги корпусы, выбрать другую языковую изменение или культурных явлений представлено в Michel и др., В оригинальной статье. Согласны ли вы с их интерпретацией в свете ограничений, представленных в Pechenick и др.? Для того, чтобы ваш аргумент сильнее, попробуйте повторить тот же график, используя различные версии набора данных, как описано выше.
  8. [ очень сложно , Сбор данных , требует кодирования , мой любимый ] Penney (2016) исследует ли широкое распространение рекламы о NSA надзора / PRISM (т.е. откровений Snowden) в июне 2013 года связано с резким и внезапным снижением трафика на статьи Википедии по темам , которые вызывают проблемы частной жизни. Если да, то это изменение в поведении будет соответствовать с охлаждающим эффектом в результате массового наблюдения. Подход Penney (2016) иногда называют прерванный дизайн временных рядов и связан с подходами , в главе о аппроксимирующих экспериментов по данным наблюдений (раздел 2.4.3).

    Чтобы выбрать тему ключевых слов, Penney упоминается в списке используемых Департаментом внутренней безопасности США для отслеживания и мониторинга социальных медиа. В списке DHS классифицирует определенные условия поиска в целый ряд вопросов, т.е. "Здоровье Концерна", "Инфраструктура безопасности" и "терроризм". Для исследовательской группы, Penney использовали сорок восемь ключевых слов, связанные с "терроризмом" (см таблицу 8 Приложение). Затем он агрегируется Википедии количество просмотров статьи на ежемесячной основе для соответствующих сорока восьми статей Википедии в течение тридцати двух месяцев, с начала января 2012 года до конца августа 2014 г. Для того, чтобы усилить свои аргументы, он также создал несколько сравнение групп по отслеживание просмотров статьи на другие темы.

    Теперь, вы собираетесь повторить и расширить Penney (2016) . Все исходные данные, которые вы будете нуждаться для этой деятельности доступна из Википедии (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Или вы можете получить его из R пакета wikipediatrend (Meissner and Team 2016) . Когда вы пишете вверх ваши ответы, пожалуйста, обратите внимание, какой источник данных вы использовали. (Примечание: Эта же активность также появляется в главе 6)

    1. Читать Penney (2016) и повторить рисунок 2 , который показывает число просмотров страниц для "терроризм" страницы информации о связанных до и после раскрытия Сноуден. Интерпретировать результаты.
    2. Затем повторить Фиг.4А, который сравнивает исследовательскую группу ( "терроризм") статьи о связанных с группой сравнения, используя ключевые слова, классифицированные в разделе "ДГС и другими учреждениями" из списка DHS (см Приложение Таблица 10). Интерпретировать результаты.
    3. В части б) вы сравнили исследовательской группе одной группы сравнения. Penney также по сравнению с двумя другими группами компаратор: "Инфраструктура безопасности" (статьи о связанных Приложение Таблица 11) и популярных страниц Википедии (Приложение таблица 12). Придумайте альтернативной группы сравнения, и проверить, если выводы из части б) чувствителен к вашему выбору группы сравнения. Какой выбор группы сравнения делает большинство смысла? Зачем?
    4. Автор заявил, что ключевые слова, связанные с «терроризмом» были использованы для выбора статей Википедии, потому что правительство США привел терроризм в качестве ключевого для оправдания своих онлайн практики наблюдения. В качестве проверки этих 48 "терроризм" ключевых слов о связанных, Penney (2016) также провели опрос о MTurk респондентов просят оценить каждое из ключевых слов с точки зрения правительства неприятности, затрагивающей личную жизнь, и избегание (Приложение Таблицы 7 и 8). Повторные обследования на MTurk и сравнить свои результаты.
    5. На основании результатов в части D) и вашего чтения этой статьи, вы согласны с выбором автора темы ключевых слов в исследуемой группе? Почему или почему нет? Если нет, то вы могли бы предложить вместо этого?
  9. [ легко ] Efrati (2016) отчеты, основанные на конфиденциальной информации, что «полный обмен» на Facebook сократилась примерно на 5,5% в годовом исчислении в то время как "оригинальный совместное вещание" снизился на 21% за год. Это снижение было особенно остро с пользователями Facebook моложе 30 лет. В докладе отнести снижение к двум факторам. Одним из них является рост числа "друзей" у людей есть на Facebook. Другой в том, что некоторое разделение активности сместился на обмен сообщениями и конкурентов, таких как Snapchat. В докладе также раскрыл несколько тактику Facebook пытавшихся форсировать обмен ими, в том числе News Feed алгоритм ухищрений, которые делают оригинальные посты более заметным, а также периодических напоминаний о первоначальных пользователей сообщения "В этот день" несколько лет назад. Какие последствия, если таковые имеются, делает эти выводы имеют для исследователей, которые хотят использовать Facebook в качестве источника данных?

  10. [ средний ] Tumasjan et al. (2010) и Tumasjan et al. (2010) сообщили , что доля твитов с упоминанием политической партии соответствует доли голосов, полученных партией в немецком парламентских выборах в 2009 году (рис 2.9). Другими словами, оказалось, что вы могли бы использовать Twitter, чтобы предсказать выборы. В то время это исследование было опубликовано было сочтено чрезвычайно захватывающим, потому что это казалось предложить ценным использование для общего источника больших объемов данных.

    Учитывая плохие черты больших объемов данных, однако, вы должны немедленно скептически относиться к этому результату. Немцы на Twitter в 2009 году были довольно нерепрезентативная группы и сторонников одной партии может чирикать о политике чаще. Таким образом, кажется удивительным, что все возможные систематические ошибки, которые вы можете себе представить как-то компенсируют. На самом деле, результаты в Tumasjan et al. (2010) и Tumasjan et al. (2010) оказался слишком хорошо , чтобы быть правдой. В своей работе, Tumasjan et al. (2010) и Tumasjan et al. (2010) рассмотрел шесть политических партий: христианские демократы (ХДС), христианские социал - демократы (CSU), СПД, либералами (СвДП), левая (Die Linke) и Партия зеленых (Grüne). Тем не менее, наиболее упоминаемых немецкая политическая партия на Twitter в то время была Пиратская партия (Piraten), партия, которая борется государственного регулирования Интернета. Когда Пиратская партия была включена в анализ, Twitter упоминает становится ужасным предсказателем результатов выборов (Рисунок 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Рисунок 2.9: Twitter упоминает, по всей видимости предсказать результаты 2009 выборы в Германии (Tumasjan 2010 и др.), Но этот результат оказывается зависеть от некоторых произвольных и неоправданных выборов (Jungherr, Юргенса и Шена 2012).

    Рисунок 2.9: Twitter упоминает , по всей видимости предсказать результаты 2009 выборы в Германии (Tumasjan et al. 2010) и (Jungherr, Jürgens, and Schoen 2012) (Tumasjan et al. 2010) , Но этот результат оказывается зависеть от некоторых произвольных и неоправданных выборов (Jungherr, Jürgens, and Schoen 2012) .

    Впоследствии другие исследователи во всем мире использовали причудливые методы, такие как с помощью анализа настроений различать положительные и отрицательные упоминания сторон-для того , чтобы улучшить способность данных Twitter спрогнозировать различные виды выборов (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Вот как Huberty (2015) обобщены результаты этих попыток предсказать выборы:

    "Все известные методы прогнозирования, основанные на социальных медиа потерпели неудачу, когда подвергаются требованиям истинного избирательного прогнозирования перспективного. Эти неудачи, как представляется, из-за фундаментальных свойств социальных медиа, а не к методологическим или алгоритмических трудностей. Короче говоря, социальные медиа не делают, и, вероятно, никогда не будет, предлагаем стабильную, объективную, представительную картину электората; и образцы удобства социальных медиа не имеют достаточных данных, чтобы исправить эти проблемы постфактум ".

    Прочитайте некоторые исследования , которые ведут Huberty (2015) к такому выводу, и написать одну страницу Напоминание для политического кандидата , описывающего , если и как Twitter следует использовать для прогнозирования выборов.

  11. [ средний ] В чем разница между социологом и историком? Согласно Голдторпа (1991) , основное различие между социологом и историком является контроль над сбором данных. Историки вынуждены использовать реликвии, тогда как социологи могут адаптировать их сбор данных для конкретных целей. Read Goldthorpe (1991) . Как разница между социологией и историей связана с идеей Custommades и Readymades?

  12. [ жесткий ] Опираясь на предыдущий вопрос, Goldthorpe (1991) привлек ряд критических откликов, в том числе один из Nicky Харт (1994) , бросившим вызов преданность Goldthorpe к адаптировать сделанные данные. Для выяснения возможных ограничений специально разработанных данных, Харт описал благополучных работник проекта, большое исследование, чтобы измерить взаимосвязь между социальным классом и голосования, проведенного Голдторпа и его коллегами в середине 1960-х годов. Как и следовало ожидать от ученого, который благоприятствования разработан данные по найденных данных, процветающих работник проекта собраны данные, которые были с учетом решения недавно предложенной теории о будущем социального класса в эпоху повышения уровня жизни. Но, Голдторп и его коллеги почему-то "забыл", чтобы собрать информацию о поведении голосования женщин. Вот как Ники Харт (1994) Итоги весь эпизод:

    ". , , он [это] трудно избежать заключения, что женщины были опущены, потому что это «портной сделал» набор данных был ограничен парадигматической логикой, которая исключала женский опыт. Ведомый теоретического видения классового сознания и действия как мужчин заботами. , , , Голдторп и его коллеги построили множество эмпирических доказательств, которые кормили и лелеяли свои собственные теоретические предположения вместо того, чтобы подвергать их действительного анализа адекватности ".

    Харт продолжал:

    "Эмпирические результаты процветающих работника проекта говорят нам больше о маскулинистских ценностей социологии середины прошлого века, чем они информируют процессы стратификации, политики и материальной жизни."

    Можете ли вы вспомнить другие примеры, где сбор индивидуальные данные имеет уклоны коллектора данных, встроенных в него? Как это соотносится с алгоритмической смешению? Какие последствия это может иметь для того, когда исследователи должны использовать Readymades и когда они должны использовать Custommades?

  13. [ средний ] В этой главе я противопоставил данные, собранные исследователями для исследователей с административными записей, созданных компаниями и правительствами. Некоторые люди называют эти административные записи "нашли данные", которые они контрастируют с "Designed данных." Это правда, что административные записи найдены исследователями, но они также высоко разработаны. Например, современные технологические компании тратят огромное количество времени и ресурсов для сбора и хранения своих данных. Таким образом, эти административные записи оба найдены и разработаны, это просто зависит от вашей точки зрения (рис 2.10).

    Рисунок 2.10: Картина как утка и кролик; то, что вы видите, зависит от вашей точки зрения. Правительство и бизнес-административные записи оба найдены и разработаны; то, что вы видите, зависит от вашей точки зрения. Например, записи данных о вызовах, собранные с помощью мобильного телефона компании найдены данные с точки зрения исследователя. Но эти точно такие же записи предназначены перспективу данных кто-то работает в расчетном отделе телефонной компании. Источник: Wikimedia Commons

    Рисунок 2.10: Картина как утка и кролик; то, что вы видите, зависит от вашей точки зрения. Правительство и бизнес-административные записи оба найдены и разработаны; то, что вы видите, зависит от вашей точки зрения. Например, записи данных о вызовах, собранные с помощью мобильного телефона компании найдены данные с точки зрения исследователя. Но эти точно такие же записи предназначены перспективу данных кто-то работает в расчетном отделе телефонной компании. Источник: Wikimedia Commons

    Обеспечить пример источника данных, где рассматривая его и как нашли и предназначен полезно при использовании этого источника данных для исследований.

  14. [ легко ] В задумчивым эссе, Кристиан Sandvig и Eszter Hargittai (2015) описывают два вида цифровых исследований, где цифровая система является «инструментом» или «объект исследования». Примером первого рода исследовании , где Бенгтссон и его коллеги (2011) использовали данные мобильного телефона для отслеживания миграции после землетрясения на Гаити в 2010 году примером второго рода , где Дженсен (2007) исследования , как внедрение мобильных телефонов во всем штате Керала, Индия повлияло на функционирование рынка для рыбы. Я считаю это полезным, поскольку он уточняет, что исследования с использованием цифровых источников данных может иметь совершенно разные цели, даже если они используют один и тот же тип источника данных. Для дальнейшего уточнения этого различия, описывают четыре исследования, которые вы видели: два, которые используют цифровую систему в качестве инструмента и два, которые используют цифровую систему в качестве объекта исследования. Вы можете использовать примеры из этой главы, если вы хотите.