Діяльності

Цей переклад був створений за допомогою комп'ютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

Діяльності

Умовні позначення:

Ступінь складності: легкий , середній , жорсткий , дуже важкий
вимагає математику ( $вимагає математику$ )
вимагає кодування ( )
збір даних ( )
мої улюблені ( )

[ , ] Алгоритмічної вмешивающимся була проблема з Google Flu Trends. Прочитайте документ по Lazer et al. (2014) і Lazer et al. (2014) , і написати короткий, ясне лист до інженером в Google , що пояснює цю проблему і пропонує уявлення про те , як вирішити цю проблему.
[ ] Bollen, Mao, and Zeng (2011) стверджує , що дані з Twitter можуть бути використані для прогнозування на фондовому ринку. Це відкриття привело до створення хедж - фонд-Derwent Capital Markets-інвестувати на фондовому ринку на основі даних , зібраних з Twitter (Jordan 2010) . Які докази ви хотіли б побачити, перш ніж покласти свої гроші в цей фонд?
[ ] У той час як деякі захисники суспільної охорони здоров'я вітають електронні сигарети в якості ефективної допомоги для відмови від куріння, інші попереджають про потенційні ризики, таких як високих рівнів нікотину. Уявіть собі, що дослідник вирішує вивчити громадську думку щодо електронної сигарети, збираючи електронні сигарети пов'язані повідомлення Twitter і проведення аналізу настроїв.
1. Які три можливі відхилення, які ви найбільше турбує в цьому дослідженні?
2. Clark et al. (2016) і Clark et al. (2016) провів тільки таке дослідження. По-перше, вони зібрали 850000 твітів, які використовували електронної сигарети Ключові слова, пов'язані з січня 2012 по грудень 2014 г. При найближчому розгляді, вони зрозуміли, що багато хто з цих твітів були автоматизовані (тобто, не виробляються людьми), і багато хто з цих автоматизованих твітів були по суті рекламні ролики. Вони розробили алгоритм виявлення людини з метою відокремити автоматизовані твіти від органічних твітів. За допомогою цього алгоритму виявлення людського вони виявили, що 80% твітів були автоматизовані. Чи змінить цей висновок ваш відповідь на частини (а)?
3. Коли вони порівняли настрої в органічних і автоматизованих твітів вони виявили, що автоматизовані твіти більш позитивно, ніж органічні твітів (6.17 в порівнянні з 5.84). Чи змінить цей висновок ваш відповідь на (б)?
[ ] В листопаді 2009 року, Twitter змінив питання в поле чірікать з "Що ти робиш?" На "Що відбувається?" (Https://blog.twitter.com/2009/whats-happening).
1. Як ви думаєте, зміна підказок вплине хто цвірінькання і / або те, що вони чірікать?
2. Назвіть один дослідницький проект, для якого ви хотіли б підказку "Що ви робите?" Поясніть, чому.
3. Назвіть один дослідницький проект, для якого ви хотіли б підказка "Що відбувається?" Поясніть, чому.
[ ] Kwak et al. (2010) і Kwak et al. (2010) проаналізували 41,7 млн профілів користувачів, 1,47 млрд соціальних відносин, 4262 відхиляються теми, і 106 мільйонів твітів між 6 червня і 31 червня 2009 р На основі цього аналізу вони уклали , що Twitter є більше як нового середовища обміну інформацією , ніж соціальна мережа.
1. З огляду на знаходження Квак і ін, в який тип досліджень ви б робити з даними Twitter? Який тип дослідження ви б не робити з даними Twitter? Чому?
2. У 2010 році доданий Twitter, Хто Те Слідувати за послугу робить підігнаний пропозицію для користувачів. Три рекомендації наведені в той час, на головній сторінці. Рекомендації часто взяті зі своїх "друзів-оф-друзів", і взаємні контакти відображаються також в рекомендації. Користувачі можуть оновити, щоб побачити новий набір рекомендацій або відвідати сторінку з більш довгим списком рекомендацій. Як ви думаєте, ця нова функція буде змінити свою відповідь на частину А)? Чому або чому ні?
3. Su, Sharma, and Goel (2016) оцінювали вплив Хто Слідувати служби і виявили , що в той час як користувачі по всьому спектру популярності скористалися рекомендаціями, найбільш популярних користувачів скористалися значно більше , ніж в середньому. Чи змінить цей висновок ваш відповідь на частини б)? Чому або чому ні?
[ ] "Ретвітів" часто використовуються для вимірювання впливу і поширення впливу на Twitter. Спочатку, користувачі повинні були копіювати і вставляти твіт вподобану, позначати оригінального автора з його / її ручкою, і вручну ввести "RT" перед твіт, щоб вказати, що це ретвіт. Потім, в 2009 році Twitter додали кнопку "Retweet". У червні 2016 року, Twitter уможливив для користувачів ретвіт свої власні твіти (https://twitter.com/twitter/status/742749353689780224). Як ви думаєте, ці зміни повинні вплинути, як ви використовуєте "ретвітів" в ваших дослідженнях? Чому або чому ні?
[ , , ] Michel et al. (2011) і Michel et al. (2011) побудував корпус , що виходять з зусиль компанії Google з оцифрування книг. Використовуючи першу версію корпусу, яка була опублікована в 2009 році і містив понад 5 мільйонів оцифрованих книг, автори проаналізували частоту вживання слів, щоб досліджувати мовні зміни і культурні тенденції. Незабаром Google Книги Корпус став популярним джерелом даних для дослідників, а друга версія бази даних була випущена в 2012 році.

Тим НЕ менше, Pechenick, Danforth, and Dodds (2015) попереджає , що дослідники повинні в повній мірі характеризують процес дискретизації корпусу перед його використанням для малювання широких висновків. Основною проблемою є те, що корпус є бібліотека-як, що містить одну з кожної книги. В результаті, людина, плідний автор здатний помітно вставляти нові фрази в лексиконі Google Книги. Крім того, наукові тексти є все більш істотну частину корпусу протягом 1900-х років. Крім того, шляхом порівняння двох версій наборів даних Fiction англійською, Pechenick і ін. знайшли докази того, що недостатня фільтрація була використана у виробництві першої версії. Всі дані, необхідні для діяльності доступна тут: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. У Michel і ін. , В оригінальній роботі (2011) , вони використовували 1 - ую версію набору даних англійської, побудована на частоту використання роки "1880", "1912" і "1973", і прийшов до висновку , що "ми забуваючи наше минуле швидше з кожним роком "(рис. 3А, Мішель і ін.). Реплікація той же сюжет, використовуючи 1) 1-ий варіант, корпус англійської набору даних (такий же, як рис. 3А, Мішель і ін.)
2. Тепер повторити той же сюжет з 1-ої версії, англійська фікцією набору даних.
3. Тепер повторити той же сюжет з 2-й версії, корпус англійської набору даних.
4. І, нарешті, повторити той же сюжет з 2-ий версії, англійська фікцією набору даних.
5. Опишіть відмінності і подібності між цими чотирма ділянками. Чи згодні ви з Michel і ін., В оригінальній інтерпретації спостережуваного тренда? (Підказка: с) і d) повинні бути такими ж, як показано на малюнку 16, в Pechenick і ін).
6. Тепер, коли ви відтворили цей один висновок з використанням різних Google Книги корпуси, вибрати іншу мовну зміна або культурних явищ представлено в Michel і ін., В оригінальній статті. Чи згодні ви з їх інтерпретацією в світлі обмежень, представлених в Pechenick і ін.? Для того, щоб ваш аргумент сильніше, спробуйте повторити той же графік, використовуючи різні версії набору даних, як описано вище.
[ , , , ] Penney (2016) досліджує чи широке поширення реклами про NSA нагляду / PRISM (тобто одкровень Snowden) в червні 2013 року пов'язано з різким і раптовим зниженням трафіку на статті Вікіпедії за темами , які викликають проблеми приватного життя. Якщо так, то це зміна в поведінці буде відповідати з охолоджуючим ефектом в результаті масового спостереження. Підхід Penney (2016) іноді називають перерваний дизайн часових рядів і пов'язаний з підходами , в розділі про аппроксимирующих експериментів за даними спостережень (розділ 2.4.3).

Щоб вибрати тему ключових слів, Penney згадується в списку використовуваних Департаментом внутрішньої безпеки США для відстеження та моніторингу соціальних медіа. У списку DHS класифікує певні умови пошуку в цілий ряд питань, тобто "Здоров'я Концерну", "Інфраструктура безпеки" і "тероризм". Для дослідницької групи, Penney використовували сорок вісім ключових слів, пов'язані з "тероризмом" (див таблицю 8 додаток). Потім він агрегується Вікіпедії кількість переглядів статті на щомісячній основі для відповідних сорока восьми статей Вікіпедії протягом тридцяти двох місяців, з початку січня 2012 року до кінця серпня 2014 г. Для того, щоб посилити свої аргументи, він також створив кілька порівняння груп по відстеження переглядів статті на інші теми.

Тепер, ви збираєтеся повторити і розширити Penney (2016) . Всі вихідні дані, які ви будете потребувати для цієї діяльності доступна з Вікіпедії (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Або ви можете отримати його з R пакета wikipediatrend (Meissner and Team 2016) . Коли ви пишете вгору ваші відповіді, будь ласка, зверніть увагу, яке джерело даних ви використовували. (Примітка: Ця ж активність також з'являється в главі 6)
1. Читати Penney (2016) і повторити малюнок 2 , який показує число переглядів сторінок для "тероризм" сторінки інформації про пов'язаних до і після розкриття Сноуден. Інтерпретувати результати.
2. Потім повторити фіг.4, який порівнює дослідницьку групу ( "тероризм") статті про пов'язаних з групою порівняння, використовуючи ключові слова, класифіковані в розділі "ДГС та іншими установами" зі списку DHS (див Додаток Таблиця 10). Інтерпретувати результати.
3. У частині б) ви порівняли дослідницькій групі однієї групи порівняння. Penney також в порівнянні з двома іншими групами компаратор: "Інфраструктура безпеки" (статті про пов'язаних Додаток Таблиця 11) і популярних сторінок Вікіпедії (Додаток таблиця 12). Придумайте альтернативної групи порівняння, і перевірити, якщо висновки з частини б) чутливий до вашого вибору групи порівняння. Який вибір групи порівняння робить більшість сенсу? Чому?
4. Автор заявив, що ключові слова, пов'язані з «тероризмом» були використані для вибору статей Вікіпедії, тому що уряд США привів тероризм як ключового для виправдання своїх онлайн практики спостереження. В якості перевірки цих 48 "тероризм" ключових слів про пов'язаних, Penney (2016) також провели опитування про MTurk респондентів просять оцінити кожну з ключових слів з точки зору уряду неприємності, що зачіпає особисте життя, і уникнення (Додаток Таблиці 7 і 8). Повторні обстеження на MTurk і порівняти свої результати.
5. На підставі результатів в частині D) і вашого читання цієї статті, ви згодні з вибором автора теми ключових слів в досліджуваній групі? Чому або чому ні? Якщо немає, то ви могли б запропонувати натомість?
[ ] Efrati (2016) звіти, засновані на конфіденційної інформації, що «повний обмін» на Facebook скоротилася приблизно на 5,5% в річному численні в той час як "оригінальний спільне мовлення" знизився на 21% за рік. Це зниження було особливо гостро з користувачами Facebook молодше 30 років. У доповіді віднести зниження до двох факторів. Одним з них є зростання числа "друзів" у людей є на Facebook. Інший в тому, що деякий поділ активності змістився на обмін повідомленнями і конкурентів, таких як Snapchat. У доповіді також розкрив декілька тактику Facebook намагалися форсувати обмін ними, в тому числі News Feed алгоритм хитрощів, які роблять оригінальні пости більш помітним, а також періодичних нагадувань про первинні користувачів повідомлення "У цей день" кілька років тому. Які наслідки, якщо такі є, робить ці висновки мають для дослідників, які хочуть використовувати Facebook в якості джерела даних?
[ ] Tumasjan et al. (2010) і Tumasjan et al. (2010) повідомили , що частка твітів з згадкою політичної партії відповідає частці голосів, отриманих партією в німецькому парламентських виборах у 2009 році (рис 2.9). Іншими словами, виявилося, що ви могли б використовувати Twitter, щоб передбачити вибори. У той час це дослідження було опубліковано було визнано надзвичайно захоплюючим, тому що це здавалося запропонувати цінних використання для загального джерела великих обсягів даних.

З огляду на погані риси великих обсягів даних, однак, ви повинні негайно скептично ставитися до цього результату. Німці на Twitter в 2009 році були досить нерепрезентативна групи і прихильників однієї партії може чірікать про політику частіше. Таким чином, здається дивним, що всі можливі систематичні помилки, які ви можете собі уявити якось компенсують. Насправді, результати в Tumasjan et al. (2010) і Tumasjan et al. (2010) виявився занадто добре , щоб бути правдою. У своїй роботі, Tumasjan et al. (2010) і Tumasjan et al. (2010) розглянув шість політичних партій: християнські демократи (ХДС), християнські соціал - демократи (CSU), СПД, лібералами (ВДП), ліва (Die Linke) і Партія зелених (Grüne). Проте, найбільш згадуваних німецька політична партія на Twitter в той час була Піратська партія (Piraten), партія, яка бореться державного регулювання Інтернету. Коли Піратська партія була включена в аналіз, Twitter згадує стає жахливим провісником результатів виборів (Малюнок 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Малюнок 2.9: Twitter згадує , по всій видимості передбачити результатами 2009 вибори в Німеччині (Tumasjan et al. 2010) і (Jungherr, Jürgens, and Schoen 2012) (Tumasjan et al. 2010) , Але цей результат виявляється залежати від деяких довільних і невиправданих виборів (Jungherr, Jürgens, and Schoen 2012) .

Згодом інші дослідники в усьому світі використовували химерні методи, такі як з допомогою аналізу настроїв розрізняти позитивні і негативні згадки сторін-для того , щоб поліпшити здатність даних Twitter спрогнозувати різні види виборів (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ось як Huberty (2015) узагальнені результати цих спроб передбачити вибори:

"Всі відомі методи прогнозування, засновані на соціальних медіа зазнали невдачі, коли піддаються вимогам справжнього виборчого прогнозування перспективного. Ці невдачі, як видається, з-за фундаментальних властивостей соціальних медіа, а не до методологічним або алгоритмічних труднощів. Коротше кажучи, соціальні медіа не роблять, і, ймовірно, ніколи не буде, пропонуємо стабільну, об'єктивну, представницьку картину електорату; і зразки зручності соціальних медіа не мають достатніх даних, щоб виправити ці проблеми постфактум ".

Прочитайте деякі дослідження , які ведуть Huberty (2015) до такого висновку, і написати одну сторінку Нагадування для політичного кандидата , що описує , якщо і як Twitter слід використовувати для прогнозування виборів.
[ ] У чому різниця між соціологом і істориком? Згідно Голдторпа (1991) , основна відмінність між соціологом і істориком є контроль над збором даних. Історики змушені використовувати реліквії, тоді як соціологи можуть адаптувати їх збір даних для конкретних цілей. Read Goldthorpe (1991) . Як різниця між соціологією і історією пов'язана з ідеєю Custommades і Readymades?
[ ] Спираючись на попереднє запитання, Goldthorpe (1991) привернув ряд критичних відгуків, в тому числі один з Nicky Харт (1994) , які кинули виклик відданість Goldthorpe до адаптувати зроблені дані. Для з'ясування можливих обмежень спеціально розроблених даних, Харт описав благополучних працівник проекту, велике дослідження, щоб виміряти взаємозв'язок між соціальним класом і голосування, проведеного Голдторпа і його колегами в середині 1960-х років. Як і слід було очікувати від ученого, який сприяння розроблений дані по знайдених даних, процвітаючих працівник проекту зібрані дані, які були з урахуванням рішення нещодавно запропонованої теорії про майбутнє соціального класу в епоху підвищення рівня життя. Але, Голдторп і його колеги чомусь "забув", щоб зібрати інформацію про поведінку голосування жінок. Ось як Нікі Харт (1994) Підсумки весь епізод:

". , , він [це] важко уникнути висновку, що жінки були опущені, тому що це «кравець зробив» набір даних був обмежений парадигматичною логікою, яка виключала жіночий досвід. Ведений теоретичного бачення класової свідомості і дії як чоловіків турботами. , , , Голдторп і його колеги побудували безліч емпіричних доказів, які годували і плекали свої власні теоретичні припущення замість того, щоб піддавати їх дійсного аналізу адекватності ".

Харт продовжував:

"Емпіричні результати процвітаючих працівника проекту кажуть нам більше про маскуліністскіх цінностей соціології середини минулого століття, ніж вони інформують процеси стратифікації, політики і матеріального життя."

Чи можете ви пригадати інші приклади, де збір індивідуальні дані має ухили колектора даних, вбудованих в нього? Як це співвідноситься з алгоритмічної змішання? Які наслідки це може мати для того, коли дослідники повинні використовувати Readymades і коли вони повинні використовувати Custommades?
[ ] У цьому розділі я протиставив дані, зібрані дослідниками для дослідників з адміністративними записів, створених компаніями і урядами. Деякі люди називають ці адміністративні записи "знайшли дані", які вони контрастують з "Designed даних." Це правда, що адміністративні записи знайдені дослідниками, але вони також високо розроблені. Наприклад, сучасні технологічні компанії витрачають величезну кількість часу і ресурсів для збору і зберігання своїх даних. Таким чином, ці адміністративні записи обидва знайдені і розроблені, це просто залежить від вашої точки зору (рис 2.10).

Малюнок 2.10: Картина як качка і кролик; то, що ви бачите, залежить від вашої точки зору. Уряд і бізнес-адміністративні записи обидва знайдені і розроблені; то, що ви бачите, залежить від вашої точки зору. Наприклад, записи даних про виклики, зібрані за допомогою мобільного телефону компанії знайдені дані з точки зору дослідника. Але ці точно такі ж записи призначені перспективу даних хтось працює в розрахунковому відділі телефонної компанії. Джерело: Wikimedia Commons

Забезпечити приклад джерела даних, де розглядаючи його і як знайшли і призначений корисно при використанні цього джерела даних для досліджень.
[ ] В задумливим есе, Крістіан Sandvig і Eszter Hargittai (2015) описують два види цифрових досліджень, де цифрова система є «інструментом» або «об'єкт дослідження». Прикладом першого роду дослідженні , де Бенгтссон і його колеги (2011) використовували дані мобільного телефону для відстеження міграції після землетрусу на Гаїті в 2010 році прикладом другого роду , де Дженсен (2007) дослідження , як впровадження мобільних телефонів у всьому штаті Керала, Індія вплинуло на функціонування ринку для риби. Я вважаю це корисним, оскільки він уточнює, що дослідження з використанням цифрових джерел даних може мати абсолютно різні цілі, навіть якщо вони використовують один і той же тип джерела даних. Для подальшого уточнення цієї відмінності, описують чотири дослідження, які ви бачили: два, які використовують цифрову систему як інструмент і два, які використовують цифрову систему в якості об'єкта дослідження. Ви можете використовувати приклади з цієї глави, якщо ви хочете.