Діяльності

  • ступінь складності: легкий легко , середній середній , важко важко , дуже важкий дуже важкий
  • вимагає математики ( вимагає математики )
  • вимагає кодування ( вимагає кодування )
  • збір даних ( збір даних )
  • мої улюблені ( мій улюблений )
  1. [ середній , мій улюблений ] Алгоритмічна конфлікт була проблемою з Google Flu Trends. Прочитайте статтю Lazer et al. (2014) І напишіть короткий, зрозумілий електронний лист інженеру в Google, який пояснює проблему та пропонує уявлення про те, як це виправити.

  2. [ середній ] Bollen, Mao, and Zeng (2011) стверджують, що дані Twitter можуть використовуватися для прогнозування фондового ринку. Цей висновок призвів до створення хедж-фонду "Derwent Capital Markets" - для інвестування на фондовий ринок на основі даних, отриманих з Twitter (Jordan 2010) . Які докази ви хотіли б бачити, перш ніж покласти свої гроші в цей фонд?

  3. [ легко ] Хоча деякі захисники охорони здоров'я вважають етичні сигарети ефективною допомогою для припинення куріння, інші попереджають про можливі ризики, такі як високий рівень нікотину. Уявіть собі, що дослідник вирішує вивчити громадську думку щодо електронних сигарет, збираючи повідомлення електронної пошти, пов'язані з електронними сигаретами, та проводячи аналіз настроїв.

    1. Які три можливі упередження, якими ви найбільше стурбовані в цьому дослідженні?
    2. Clark et al. (2016) провів саме таке дослідження. По-перше, вони зібрали 850 тисяч твітів, які використовували ключові слова, пов'язані з електронною сигаретою, з січня 2012 року по грудень 2014 року. При ближчій перевірці вони зрозуміли, що багато з цих твітів були автоматизовані (тобто не вироблені людьми), і багато хто з цих автоматизованих твітів суттєво рекламні ролики. Вони розробили алгоритм виявлення людини для відокремлення автоматичних твітів від органічних твітів. Використовуючи цей алгоритм виявлення людей, вони виявили, що 80% твітів було автоматизовано. Чи означає це знаходження вашу відповідь на частину (а)?
    3. Коли вони порівнювали настрої в органічних і автоматичних твітах, вони виявили, що автоматизовані твітів були більш позитивними, ніж органічні твітів (6.17 проти 5.84). Чи означає це знахідка вашу відповідь на (б)?
  4. [ легко ] У листопаді 2009 року Twitter змінив питання у вікні "Чіткий твір" з "Що робити?" (Https://blog.twitter.com/2009/whats-happening).

    1. Як ви думаєте, що зміна підказок вплине на тих, хто твітів і / чи те, що вони чірікать?
    2. Назвіть один дослідницький проект, для якого ви віддаєте перевагу підказки "Що ти робиш?" Поясніть чому.
    3. Назвіть один дослідницький проект, для якого ви віддаєте перевагу підказки "Що відбувається?" Поясніть чому.
  5. [ легко ] "Retweets" часто використовуються для вимірювання впливу та поширення впливу на Twitter. Спочатку користувачам довелося скопіювати та вставити твіт, який їм сподобався, позначити оригінального автора його / її ручкою та вручну ввести "RT" перед тим, як натвітати, щоб вказати, що це retweet. Тоді, у 2009 році, Twitter додала кнопку "retweet". У червні 2016 року Twitter дозволив користувачам відтворювати власні твіти (https://twitter.com/twitter/status/742749353689780224). Як ви вважаєте, ці зміни повинні впливати на те, як ви використовуєте "retweets" у своєму дослідженні? Чому або чому ні?

  6. [ дуже важкий , збір даних , вимагає кодування , мій улюблений ] У широко обговорюваному документі Мішель та його колеги (2011) Проаналізували вміст більш ніж п'яти мільйонів оцифрованих книг з метою виявлення довготривалих культурних тенденцій. Дані, які вони використовували, тепер були випущені як набір даних Google NGrams, і тому ми можемо використовувати дані для реплікації та розширення деякої їх роботи.

    В одному з численних підсумків роботи, Michel та його колеги стверджували, що ми забудемо швидше і швидше. У конкретний рік, кажучи "1883", вони розрахували частку 1 грамів, опублікованих кожного року між 1875 і 1975 роками, які були "1883". Вони доводили, що ця пропорція є мірою зацікавленості у подіях, що відбулися в цьому році. На малюнку 3а вони побудували траєкторії використання протягом трьох років: 1883, 1910 та 1950 років. Ці три роки мають спільну схему: мало використання до цього року, потім шип, а потім розпад. Далі, щоб кількісно визначити швидкість розпаду на кожен рік, Мішель та його колеги розрахували "період напіввиведення" кожного року на всі роки між 1875 і 1975 роками. На малюнку 3а (вставка) вони показали, що період напіввиведення кожного рік зменшується, і вони стверджували, що це означає, що ми забуваємо про минуле швидше і швидше. Вони використовували версію 1 корпусу англійської мови, але згодом Google випустила другу версію корпусу. Будь ласка, прочитайте всі частини запитання перед початком кодування.

    Ця діяльність дасть вам змогу писати код багаторазового використання, інтерпретувати результати та обдумувати дані (наприклад, працювати з незручними файлами та обробляти відсутні дані). Ця діяльність також допоможе вам встати і працювати з багатим та цікавим набором даних.

    1. Отримайте вихідні дані на веб-сайті переглядача Google Books NGram. Зокрема, вам слід скористатися версією 2 корпусу англійської мови, яка була випущена 1 липня 2012 року. Не стиснуто, цей файл становить 1,4 ГБ.

    2. Відтворити основну частину малюнка 3а Michel et al. (2011) . Щоб відновити цю цифру, вам знадобиться два файли: той, який ви завантажили в частині (a) та файл "total count", який ви можете використовувати для перетворення вихідних даних у пропорції. Зверніть увагу, що у загальному файлі рахунків є структура, яка може зробити її трохи важкою для читання. Чи є версія 2 даних NGram схожими з результатами, наведеними в Michel et al. (2011) , які базуються на даних версії 1?

    3. Тепер перевірте свій графік на графік, який створює NGram Viewer.

    4. Відтворити рисунок 3а (основна фігура), але змінити \(y\) -силіку на незначну кількість згадок (не кількість згадок).

    5. Чи означає різниця між (б) та (г) переоцінку будь-яких результатів Мішеля та співавт. (2011). Чому або чому ні?

    6. Тепер, використовуючи пропорцію згадок, повторюйте вставку на рисунку 3а. Тобто для кожного року між 1875 і 1975 роками обчислити період напіввиведення того року. Період напіврозпаду визначається як кількість років, які проходять до того, як частка згадок досягає половини свого пікового значення. Зауважте, що Michel et al. (2011) роблять щось більш складне для оцінки напіввиведення - див. Розділ III.6 Підтримки онлайнової інформації, однак вони стверджують, що обидва підходи дають подібні результати. Чи версія 2 даних NGgram дає аналогічні результати, ніж ті, що містяться в Michel et al. (2011) , які базуються на даних версії 1? (Підказка: не дивуйтеся, якщо це не так.)

    7. Чи були такі роки, які переважали, такі як роки, які були забуті особливо швидко чи особливо повільно? Коротко роздумуйте про можливі причини цього шаблону та поясніть, як ви визначили витоки.

    8. Тепер повторіть цей результат для версії 2 даних NGram на китайській, французькій, німецькій, івриті, італійській, російській та іспанській мовах.

    9. Порівнявши всі мови, чи були такі роки, які переважали, такі як роки, які були забуті особливо швидко чи особливо повільно? Коротко роздумуйте про можливі причини цієї моделі.

  7. [ дуже важкий , збір даних , вимагає кодування , мій улюблений ] Penney (2016) досліджував, чи широко розповсюджена інформація про спостереження NSA / PRISM (тобто відомі дані Сноудену) у червні 2013 р. Була пов'язана з різким і раптовим зменшенням трафіку до статей Вікіпедії на теми, що викликають занепокоєння щодо конфіденційності. Якщо це так, ця зміна поведінки відповідатиме охолоджувальному ефекту, що виникає внаслідок масового спостереження. Підхід Penney (2016) іноді називають перерваним дизайном часових рядів , і це пов'язано з підходами, описаними в розділі 2.4.3.

    Щоб вибрати ключові слова теми, Пенні згадав список, який використовує Департамент національної безпеки США для відстеження та моніторингу соціальних мереж. У DHS список класифікує певні пошукові терміни у низці питань, а саме: «Концентрація здоров'я», «Інфраструктура безпеки» та «Тероризм». Для дослідницької групи Пенні використовувала 48 ключових слів, пов'язаних з "тероризмом" (див. Додаток, таблиця 8 ) Потім він об'єднав вигляд статті Вікіпедії щомісяця на відповідні 48 статей Вікіпедії протягом 32-місячного періоду, починаючи з січня 2012 року до кінця серпня 2014 року. Щоб зміцнити свої аргументи, він також створив кілька груп порівняння шляхом відстеження статті про інші теми.

    Тепер ви збираєтеся повторювати і розширити Penney (2016) . Всі вихідні дані, які вам потрібні для цієї діяльності, доступні у Вікіпедії. Або ви можете отримати його з R-package wikipediatrend (Meissner and R Core Team 2016) . Коли ви пишете свої відповіді, зверніть увагу на те, яке джерело даних ви використали. (Зауважте, що така сама активність також відображається у розділі 6.) Ця дія дасть вам змогу обмінюватися даними та думати про природні експерименти у великих джерелах даних. Він також допоможе вам запустити потенційно цікаве джерело даних для майбутніх проектів.

    1. Ознайомтеся з Penney (2016) і повторіть його малюнок 2, який показує перегляди сторінок для сторінок, пов'язаних з "тероризмом", до і після сноуведенських одкровень. Інтерпретувати результати.
    2. Далі, повторити малюнок 4А, в якому порівнюється дослідницька група (стаття "Тероризм") з компараторною групою, використовуючи ключові слова, класифіковані в "DHS та інших агентствах" зі списку DHS (див. Таблицю в додатку 10 і виноску 139). Інтерпретувати результати.
    3. У частині (b) ви порівняли досліджувану групу з однією компараторною групою. Пенні також порівнював з двома іншими групами компараторів: "Інфраструктура безпеки", пов'язані статті (додаток, таблиця 11) та популярних сторінок Вікіпедії (таблиця додатку 12). Попросіть альтернативну групу компараторів і перевірте, чи є висновки з частини (b) чутливі до вибору групи порівняння. Який вибір має сенс? Чому?
    4. Пенні заявила, що ключові слова, що відносяться до "Тероризму", використовувались для вибору статей Вікіпедії, оскільки уряд США назвав тероризм ключовим обґрунтуванням своєї практики онлайн-спостереження. Як перевірка цих 48 ключових слів, пов'язаних із "Тероризмом", Penney (2016) також провела опитування на MTurk, попросивши респондентів оцінювати кожне з ключових слів ht з точки зору державного небажання, конфіденційності та уникнення (табл. 7 та 8 додатка ) Повторіть опитування на MTurk і порівнюйте свої результати.
    5. На підставі результатів, наведених у частині (d) та прочитаному вами статті, ви погоджуєтеся з вибором тематичних ключових слів Пенні в дослідницькій групі? Чому або чому ні? Якщо ні, то що б ви запропонували замість цього?
  8. [ легко ] Efrati (2016) повідомив, на підставі конфіденційної інформації, що "загальний обмін" на Facebook скоротився приблизно на 5,5% протягом року, а "первинний обмін мовленнями" скоротився на 21% в порівнянні з роком. Це зниження було особливо гостро стосовно користувачів Facebook до 30 років. Звіт доповів про зниження до двох чинників. Одним з них є зростання числа "друзів" людей на Facebook. Інший - те, що деякі спільні дії перемістилися на обмін повідомленнями та на таких конкурентів, як Snapchat. У звіті також було виявлено декілька тактик Facebook, які намагалися покращити обмін інформацією, включаючи настройки алгоритму новин, що роблять оригінальні повідомлення більш відомі, а також періодичні нагадування з оригінальних постів із функцією "На цей день". Які наслідки, якщо такі є, чи мають ці висновки для дослідників, які хочуть використовувати Facebook як джерело даних?

  9. [ середній ] Яка різниця між соціологом і істориком? За даними Гольдторпа (1991) , основна відмінність полягає в контролі над збором даних. Історики змушені використовувати релікти, тоді як соціологи можуть пристосувати свої збірки до конкретних цілей. Прочитайте Goldthorpe (1991) . Як різниця між соціологією та історією пов'язана з ідеєю створення замовлень і готових предметів?

  10. [ важко ] Це грунтується на попередньому quesiton. Goldthorpe (1991) звернув увагу на ряд критичних відповідей, зокрема, з Нікі Харта (1994) який заперечував відданість Голдторта для розробки даних. Щоб прояснити потенційні обмеження спеціально підготовлених даних, Харт описав Проект "Соціальний працівник", велике опитування для вимірювання взаємовідносин між соціальним класом та голосуванням, яке було проведено Голдторпом та його колегами в середині 1960-х років. Як можна було б очікувати від вченого, який віддавав перевагу розробленим даним за знайденими даними, Проект "Соціальний працівник" збирав дані, які були розроблені для вирішення нещодавно запропонованої теорії про майбутнє соціального класу в епоху підвищення рівня життя. Але Goldthorpe і його колеги якось "забули" збирати інформацію про жіночу поведінку жінок. Ось як Нікі Харт (1994) підсумував весь епізод:

    "... важко уникнути висновку про те, що жінки були опущені, оскільки цей набір даних" tailor made "був обмежений парадигмальною логікою, яка виключає жіночу практику. Опинившись теоретичним баченням класової свідомості та дії як чоловічих інтересів ..., Голдторп і його колеги побудували комплекс емпіричних доказів, які годували і виховували власні теоретичні припущення, а не піддавали їх дійсному випробуванню адекватності ".

    Гарт продовжував:

    "Емпіричні висновки проекту" Заможний робітник "розповідають нам більше про маскуліністичні цінності соціології середини століття, ніж про інфор мацію про процеси стратифікації, політики та матеріального життя".

    Чи можете ви подумати про інші приклади, коли спеціальне збирання даних має упередженість збирача даних, вбудованих в неї? Як це співпадає з алгоритмічним змішуванням? Які наслідки це може мати, коли дослідники повинні використовувати readymade і коли вони повинні використовувати custommades?

  11. [ середній ] У цьому розділі я порівняв дані, зібрані дослідниками для дослідників з адміністративними записами, створені компаніями та урядами. Деякі люди називають ці адміністративні записи "знайденими даними", які вони контрастують з "розробленими даними". Це правда, що дослідники знайшли адміністративні записи, але вони також добре розроблені. Наприклад, сучасні технологічні компанії дуже важко збирати та копіювати свої дані. Таким чином, ці адміністративні записи знайдені і розроблені, це просто залежить від вашої точки зору (малюнок 2.12).

    Малюнок 2.12: малюнок - це як качка, так і кролик; що ви бачите, залежить від вашої перспективи. Знайдені і розроблені великі джерела даних; знову ж таки, те, що ви бачите, залежить від вашої точки зору. Наприклад, дані записів дзвінків, зібрані компанією мобільного телефону, містять дані з точки зору дослідника. Але ці точні записи є розробленими даними з точки зору того, хто працює в білінговому відділенні телефонної компанії. Джерело: Popular Science Monthly (1899) / Wikimedia Commons.

    Малюнок 2.12: малюнок - це як качка, так і кролик; що ви бачите, залежить від вашої перспективи. Знайдені і розроблені великі джерела даних; знову ж таки, те, що ви бачите, залежить від вашої точки зору. Наприклад, дані записів дзвінків, зібрані компанією мобільного телефону, містять дані з точки зору дослідника. Але ці точні записи є розробленими даними з точки зору того, хто працює в білінговому відділенні телефонної компанії. Джерело: Popular Science Monthly (1899) / Wikimedia Commons .

    Наведіть приклад джерела даних, де його можна побачити як за винаходом, так і за призначенням, корисно при використанні цього джерела даних для дослідження.

  12. [ легко ] У задумливому нарисі Крістіан Сандвіг та Естер Харгіттай (2015) розділили цифрові дослідження на дві широкі категорії залежно від того, чи є цифрова система "інструментом" або "об'єктом вивчення". Приклад першого роду - де система інструмент - це дослідження Бенгтсона та його колег (2011) щодо використання даних мобільного телефону для відстеження міграції після землетрусу на Гаїті в 2010 році. Прикладом другого роду, де система є об'єктом дослідження, є дослідження Дженсена (2007) про те, як впровадження мобільних телефонів в штаті Керала, Індія вплинуло на функціонування ринку риб. Я вважаю цю відмінність корисною, оскільки вона пояснює, що дослідження з використанням цифрових джерел даних можуть мати цілі різні цілі, навіть якщо вони використовують один і той же вид джерела даних. Для подальшого з'ясування цієї різниці опишіть чотири дослідження, які ви бачили: два, які використовують цифрову систему як інструмент, і дві, які використовують цифрову систему як об'єкт дослідження. Ви можете використовувати приклади з цього розділу, якщо хочете.