мероприятия

  • Степень трудности: легкий легко , средний средний , жесткий жесткий , очень сложно очень сложно
  • требует математики ( требует математики )
  • требует кодирования ( требует кодирования )
  • Сбор данных ( Сбор данных )
  • мои любимые ( мой любимый )
  1. [ средний , мой любимый ] Алгоритмическое смешение было проблемой с Google Flu Trends. Прочтите статью Lazer et al. (2014) , и напишите короткое, ясное письмо инженеру в Google, объясняющему проблему, и предложив понять, как ее исправить.

  2. [ средний ] Bollen, Mao, and Zeng (2011) утверждает, что данные из Twitter могут использоваться для прогнозирования фондового рынка. Это открытие привело к созданию хедж-фонда Derwent Capital Markets - для инвестирования в фондовый рынок на основе данных, собранных из Twitter (Jordan 2010) . Какие доказательства вы хотели бы видеть, прежде чем вкладывать свои деньги в этот фонд?

  3. [ легко ] Хотя некоторые сторонники общественного здравоохранения считают электронные сигареты эффективной помощью для прекращения курения, другие предупреждают о потенциальных рисках, таких как высокие уровни никотина. Представьте себе, что исследователь решает изучить общественное мнение по поводу электронных сигарет, собирая связанные с электронной сигаретой записи в Твиттере и проводя анализ настроений.

    1. Каковы три возможных предубеждения, которые вас больше всего волнуют в этом исследовании?
    2. Clark et al. (2016) провела именно такое исследование. Во-первых, они собрали 850 000 твитов, которые использовали ключевые слова, связанные с электронной сигаретой, с января 2012 года по декабрь 2014 года. При ближайшем рассмотрении они поняли, что многие из этих чириканье были автоматизированы (т.е. не созданы людьми), и многие из этих автоматических твитов были по существу рекламные ролики. Они разработали алгоритм обнаружения человека, чтобы отделить автоматические твиты от органических твитов. Используя этот алгоритм обнаружения людей, они обнаружили, что 80% твитов были автоматизированы. Находит ли этот вывод ваш ответ на часть (а)?
    3. Когда они сравнивали настроение в органических и автоматизированных твитах, они обнаружили, что автоматические твиты были более позитивными, чем органические твиты (6.17 против 5.84). Находит ли этот вывод ваш ответ на (б)?
  4. [ легко ] В ноябре 2009 года Twitter изменил вопрос в твиттере «Что вы делаете?» На «Что происходит?» (Https://blog.twitter.com/2009/whats-happening).

    1. Как, по вашему мнению, изменение подсказок повлияет на то, какие твиты и / или то, что они чирикают?
    2. Назовите один исследовательский проект, для которого вы предпочтете приглашение «Что вы делаете?» Объясните, почему.
    3. Назовите один исследовательский проект, для которого вы предпочтете подсказку «Что происходит?» Объясните, почему.
  5. [ легко ] «Retweets» часто используются для измерения влияния и распространения влияния на Twitter. Первоначально пользователям приходилось копировать и вставлять твиты, которые им нравятся, пометить оригинального автора своим ручкой и вручную набрать «RT» перед твитом, чтобы указать, что это был ретвит. Затем, в 2009 году, Twitter добавил кнопку «retweet». В июне 2016 года Twitter позволил пользователям пересмотреть свои собственные твиты (https://twitter.com/twitter/status/742749353689780224). Считаете ли вы, что эти изменения влияют на то, как вы используете «ретвиты» в своих исследованиях? Почему или почему нет?

  6. [ очень сложно , Сбор данных , требует кодирования , мой любимый ] В широко обсуждаемом документе Мишель и его коллеги (2011) проанализировали содержание более пяти миллионов оцифрованных книг в попытке определить долгосрочные культурные тенденции. Данные, которые они использовали, теперь были выпущены в виде набора данных Google NGrams, поэтому мы можем использовать данные для тиражирования и расширения некоторых из их работ.

    В одном из многочисленных результатов в статье Мишель и его коллеги утверждали, что мы забываем все быстрее и быстрее. В течение определенного года, скажем, «1883», они подсчитали долю 1 грамма, опубликованную в каждом году между 1875 и 1975 годами, которые были «1883». Они полагали, что эта пропорция является показателем интереса к событиям, которые произошли в этом году. На рисунке 3a они построили траектории использования в течение трех лет: 1883, 1910 и 1950 гг. Эти три года имеют общую картину: мало пользы до этого года, затем всплеск, затем распад. Затем, чтобы количественно оценить скорость распада за каждый год, Мишель и его коллеги рассчитали «период полураспада» каждого года на все годы между 1875 и 1975 годами. На рисунке 3а (вставка) они показали, что период полураспада каждого год уменьшается, и они утверждали, что это означает, что мы забываем прошлое все быстрее и быстрее. Они использовали Версию 1 английского языка, но впоследствии Google выпустила вторую версию корпуса. Перед началом кодирования прочитайте все части вопроса.

    Эта деятельность даст вам практику написания многоразового кода, интерпретации результатов и перебора данных (таких как работа с неудобными файлами и обработка отсутствующих данных). Эта деятельность также поможет вам встать и работать с богатым и интересным набором данных.

    1. Получите необработанные данные с веб-сайта NGGR Viewer Google Books. В частности, вы должны использовать версию 2 корпуса английского языка, которая была выпущена 1 июля 2012 года. Без сжатия этот файл составляет 1,4 ГБ.

    2. Восстановите основную часть рисунка 3a Michel et al. (2011) . Чтобы воссоздать этот рисунок, вам понадобятся два файла: тот, который вы загрузили в части (a) и в файле «total counts», который вы можете использовать для преобразования необработанных счетчиков в пропорции. Обратите внимание, что общий файл counts имеет структуру, которая может затруднить ее чтение. Имеет ли версия 2 данных NGram аналогичные результаты, представленные в Michel et al. (2011) , которые основаны на данных версии 1?

    3. Теперь просмотрите свой график против графика, созданного программой просмотра NGram.

    4. Восстановите цифру 3a (основной рисунок), но измените ось \(y\) на подсчет необработанного упоминания (а не на количество упоминаний).

    5. Разница между (b) и (d) приводит к переоценке любых результатов Michel et al. (2011). Почему или почему нет?

    6. Теперь, используя долю упоминаний, повторите вставку, показанную на рисунке 3a. То есть за каждый год между 1875 и 1975 годами рассчитывается период полураспада этого года. Период полураспада определяется как количество лет, прошедших до того, как доля упоминаний достигает половины своего пикового значения. Обратите внимание, что Michel et al. (2011) сделать что-то более сложное, чтобы оценить период полураспада - см. Раздел III.6 Информационной онлайн-информации, но они утверждают, что оба подхода дают аналогичные результаты. Имеет ли версия 2 данных NGram аналогичные результаты, полученные в Michel et al. (2011) , которые основаны на данных версии 1? (Подсказка: не удивляйтесь, если это не так.)

    7. Были ли годы, которые были выброшены, например, за несколько лет, которые были забыты особенно быстро или особенно медленно? Вкратце размышляйте о возможных причинах этого шаблона и объясните, как вы определили выбросы.

    8. Теперь повторите этот результат для версии 2 данных NGrams на китайском, французском, немецком, иврите, итальянском, русском и испанском языках.

    9. Сопоставляя по всем языкам, были ли какие-то годы, которые были выброшены, например, годы, которые были забыты особенно быстро или особенно медленно? Кратко рассуждайте о возможных причинах этого шаблона.

  7. [ очень сложно , Сбор данных , требует кодирования , мой любимый ] Penney (2016) исследовал, распространялось ли широкое распространение информации о наблюдении NSA / PRISM (т. Е. Откровениях Сноуденса) в июне 2013 года, с резким и резким уменьшением трафика в статьи Википедии по темам, которые поднимают проблемы конфиденциальности. Если это так, это изменение в поведении будет соответствовать холодному эффекту, вызванному массовым наблюдением. Подход Penney (2016) иногда называют прерывистым дизайном временных рядов , и он связан с подходами, описанными в разделе 2.4.3.

    Чтобы выбрать ключевые слова, Пенни ссылался на список, используемый Министерством национальной безопасности США для отслеживания и мониторинга социальных сетей. Список DHS классифицирует определенные поисковые термины по целому ряду вопросов, например «Концерн по здоровью», «Безопасность инфраструктуры» и «Терроризм». Для исследовательской группы Пенни использовал 48 ключевых слов, связанных с «Терроризмом» (см. Таблицу приложений 8 ). Затем он агрегировал статью в статье Википедии ежемесячно для соответствующих 48 статей в Википедии в течение 32-месячного периода с начала января 2012 года до конца августа 2014 года. Чтобы укрепить его аргумент, он также создал несколько групп сравнения путем отслеживания статьи по другим темам.

    Теперь вы собираетесь тиражировать и продлевать Penney (2016) . Все необработанные данные, которые вам понадобятся для этой деятельности, доступны в Википедии. Или вы можете получить его из R-пакета wikipediatrend (Meissner and R Core Team 2016) . Когда вы пишете свои ответы, обратите внимание, какой источник данных вы использовали. (Обратите внимание, что эта же деятельность также появляется в главе 6.) Эта деятельность даст вам практику в спорах с данными и размышления о естественных экспериментах в больших источниках данных. Он также поможет вам начать работу с потенциально интересным источником данных для будущих проектов.

    1. Прочтите Penney (2016) и повторите его цифру 2, которая показывает просмотры страниц для страниц, связанных с терроризмом, до и после откровений Сноудена. Интерпретируйте выводы.
    2. Затем повторите рисунок 4A, в котором сравнивается исследовательская группа (статьи, связанные с терроризмом) со сравнительной группой, использующие ключевые слова, классифицированные в соответствии с «DHS & Other Agencies» из списка DHS (см. Таблицу приложений 10 и сноску 139). Интерпретируйте выводы.
    3. В части (б) вы сравнили исследовательскую группу с одной группой-компаратором. Пенни также сравнивал с двумя другими группами компараторов: статьи, связанные с инфраструктурой безопасности (таблица добавлений 11) и популярные страницы в Википедии (таблица добавлений 12). Придумайте альтернативную группу компараторов и проверьте, чувствительны ли результаты из части (б) к вашему выбору группы компараторов. Какой выбор имеет наибольший смысл? Зачем?
    4. Пенни заявил, что ключевые слова, связанные с «Терроризмом», использовались для выбора статей в Википедии, поскольку правительство США ссылалось на терроризм как на ключевое обоснование своих методов онлайн-наблюдения. В качестве проверки этих 48 «связанных с терроризмом» ключевых слов Penney (2016) также провел опрос по MTurk, попросив респондентов оценить каждый из ключевых слов ht с точки зрения правительственной проблемы, конфиденциальности и предотвращения (таблица приложений 7 и 8 ). Скопируйте опрос на MTurk и сравните свои результаты.
    5. Основываясь на результатах в части (d) и вашем чтении статьи, согласны ли вы с выбором Пенни по ключевым словам в исследовательской группе? Почему или почему нет? Если нет, что бы вы предложили вместо этого?
  8. [ легко ] Efrati (2016) сообщила на основе конфиденциальной информации, что «общий общий доступ» на Facebook снизился примерно на 5,5% в годовом исчислении, тогда как «исходное вещание» снизилось на 21% в годовом исчислении. Это снижение было особенно острым с пользователями Facebook до 30 лет. В докладе объясняется снижение до двух факторов. Одним из них является рост числа «друзей» на Facebook. Другая заключается в том, что некоторые действия по обмену перешли на обмен сообщениями и с конкурентами, такими как Snapchat. В отчете также было показано несколько тактик, которые Facebook попытался увеличить обмен, в том числе алгоритмы Feed Feed, которые делают заметки более заметными, а также периодические напоминания об исходных сообщениях с функцией «В этот день». Какие последствия, если таковые имеются, имеют эти результаты для исследователей, которые хотят использовать Facebook в качестве источника данных?

  9. [ средний ] В чем разница между социологом и историком? Согласно Goldthorpe (1991) , основным отличием является контроль за сбором данных. Историки вынуждены использовать реликвии, тогда как социологи могут адаптировать свои данные к конкретным целям. Прочитайте Goldthorpe (1991) . Какая разница между социологией и историей связана с идеей кустарм и готовых матчей?

  10. [ жесткий ] Это основывается на предыдущем quesiton. Goldthorpe (1991) выработал ряд критических ответов, в том числе один из Ники Харт (1994) который оспаривал приверженность Голдторпа индивидуальным данным. Чтобы разъяснить потенциальные ограничения индивидуальных данных, Харт описал проект «Благополучный рабочий» - крупный опрос для измерения взаимосвязи между социальным классом и голосованием, который был проведен Goldthorpe и его коллегами в середине 1960-х годов. Как и следовало ожидать от ученого, который одобрил данные, полученные по найденным данным, проект «Богатый работник» собрал данные, которые были адаптированы к рассмотрению недавно предложенной теории о будущем социального класса в эпоху повышения уровня жизни. Но, Голдторп и его коллеги каким-то образом «забыли» собирать информацию о поведении женщин в голосовании. Вот как Ники Харт (1994) подвел итог всему эпизоду:

    «... трудно избежать вывода о том, что женщины были опущены, потому что этот« набор данных »был ограничен парадигматической логикой, которая исключала женский опыт. Руководствуясь теоретическим видением классового сознания и действия как мужских забот ..., Голдторп и его коллеги создали набор эмпирических доказательств, которые кормили и развивали свои собственные теоретические предположения, а не подвергли их действительному критерию адекватности ».

    Харт продолжил:

    «Эмпирические результаты проекта« Благотворный рабочий »рассказывают нам больше о маскулинических ценностях социологии середины века, чем они информируют о процессах стратификации, политики и материальной жизни».

    Можете ли вы придумать другие примеры, когда индивидуальный сбор данных имеет предубеждения встраиваемого в него сборщика данных? Как это сравнивается с алгоритмическим смешением? Какие последствия могут иметь последствия, когда исследователи должны использовать готовые версии и когда они должны использовать custommades?

  11. [ средний ] В этой главе я сравнил данные, собранные исследователями для исследователей с административными отчетами, созданными компаниями и правительствами. Некоторые люди называют эти административные записи «найденными данными», которые они противопоставляют «запрограммированным данным». Верно, что административные записи найдены исследователями, но они также хорошо разработаны. Например, современные технологические компании очень усердно собирают и обрабатывают свои данные. Таким образом, эти административные записи найдены и разработаны, это зависит только от вашей перспективы (рисунок 2.12).

    Рисунок 2.12: Изображение - и утка, и кролик; то, что вы видите, зависит от вашей перспективы. Большие источники данных найдены и разработаны; опять же, то, что вы видите, зависит от вашей перспективы. Например, записи данных о вызовах, собранные компанией мобильной телефонной связи, считаются данными с точки зрения исследователя. Но эти точные записи представляют собой данные с точки зрения того, кто работает в отделе биллинга телефонной компании. Источник: Popular Science Monthly (1899) / Wikimedia Commons.

    Рисунок 2.12: Изображение - и утка, и кролик; то, что вы видите, зависит от вашей перспективы. Большие источники данных найдены и разработаны; опять же, то, что вы видите, зависит от вашей перспективы. Например, записи данных о вызовах, собранные компанией мобильной телефонной связи, считаются данными с точки зрения исследователя. Но эти точные записи представляют собой данные с точки зрения того, кто работает в отделе биллинга телефонной компании. Источник: Popular Science Monthly (1899) / Wikimedia Commons .

    Предоставьте пример источника данных, где его поиск и поиск полезны при использовании этого источника данных для исследования.

  12. [ легко ] В продуманном эссе Кристиан Сандвиг и Эстер Харгиттай (2015) разделили цифровые исследования на две широкие категории в зависимости от того, является ли цифровая система «инструментом» или «объектом исследования». Пример первого рода - где система инструмент - исследование Бенгтсона и его коллег (2011) по использованию данных мобильных телефонов для отслеживания миграции после землетрясения на Гаити в 2010 году. Пример второго рода, где система является объектом исследования, - это исследование Йенсена (2007) о том, как внедрение мобильных телефонов в штате Керала, Индия повлияло на функционирование рынка рыбы. Я нахожу это различие полезным, потому что он поясняет, что исследования с использованием цифровых источников данных могут иметь совершенно разные цели, даже если они используют один и тот же источник данных. Чтобы прояснить это различие, опишите четыре исследования, которые вы видели: два, которые используют цифровую систему в качестве инструмента, и две, которые используют цифровую систему как объект исследования. Вы можете использовать примеры из этой главы, если хотите.