Умовні позначення:
[ , ] Алгоритмічної вмешивающимся була проблема з Google Flu Trends. Прочитайте документ по Lazer et al. (2014) і Lazer et al. (2014) , і написати короткий, ясне лист до інженером в Google , що пояснює цю проблему і пропонує уявлення про те , як вирішити цю проблему.
[ ] Bollen, Mao, and Zeng (2011) стверджує , що дані з Twitter можуть бути використані для прогнозування на фондовому ринку. Це відкриття привело до створення хедж - фонд-Derwent Capital Markets-інвестувати на фондовому ринку на основі даних , зібраних з Twitter (Jordan 2010) . Які докази ви хотіли б побачити, перш ніж покласти свої гроші в цей фонд?
[ ] У той час як деякі захисники суспільної охорони здоров'я вітають електронні сигарети в якості ефективної допомоги для відмови від куріння, інші попереджають про потенційні ризики, таких як високих рівнів нікотину. Уявіть собі, що дослідник вирішує вивчити громадську думку щодо електронної сигарети, збираючи електронні сигарети пов'язані повідомлення Twitter і проведення аналізу настроїв.
[ ] В листопаді 2009 року, Twitter змінив питання в поле чірікать з "Що ти робиш?" На "Що відбувається?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) і Kwak et al. (2010) проаналізували 41,7 млн профілів користувачів, 1,47 млрд соціальних відносин, 4262 відхиляються теми, і 106 мільйонів твітів між 6 червня і 31 червня 2009 р На основі цього аналізу вони уклали , що Twitter є більше як нового середовища обміну інформацією , ніж соціальна мережа.
[ ] "Ретвітів" часто використовуються для вимірювання впливу і поширення впливу на Twitter. Спочатку, користувачі повинні були копіювати і вставляти твіт вподобану, позначати оригінального автора з його / її ручкою, і вручну ввести "RT" перед твіт, щоб вказати, що це ретвіт. Потім, в 2009 році Twitter додали кнопку "Retweet". У червні 2016 року, Twitter уможливив для користувачів ретвіт свої власні твіти (https://twitter.com/twitter/status/742749353689780224). Як ви думаєте, ці зміни повинні вплинути, як ви використовуєте "ретвітів" в ваших дослідженнях? Чому або чому ні?
[ , , ] Michel et al. (2011) і Michel et al. (2011) побудував корпус , що виходять з зусиль компанії Google з оцифрування книг. Використовуючи першу версію корпусу, яка була опублікована в 2009 році і містив понад 5 мільйонів оцифрованих книг, автори проаналізували частоту вживання слів, щоб досліджувати мовні зміни і культурні тенденції. Незабаром Google Книги Корпус став популярним джерелом даних для дослідників, а друга версія бази даних була випущена в 2012 році.
Тим НЕ менше, Pechenick, Danforth, and Dodds (2015) попереджає , що дослідники повинні в повній мірі характеризують процес дискретизації корпусу перед його використанням для малювання широких висновків. Основною проблемою є те, що корпус є бібліотека-як, що містить одну з кожної книги. В результаті, людина, плідний автор здатний помітно вставляти нові фрази в лексиконі Google Книги. Крім того, наукові тексти є все більш істотну частину корпусу протягом 1900-х років. Крім того, шляхом порівняння двох версій наборів даних Fiction англійською, Pechenick і ін. знайшли докази того, що недостатня фільтрація була використана у виробництві першої версії. Всі дані, необхідні для діяльності доступна тут: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) досліджує чи широке поширення реклами про NSA нагляду / PRISM (тобто одкровень Snowden) в червні 2013 року пов'язано з різким і раптовим зниженням трафіку на статті Вікіпедії за темами , які викликають проблеми приватного життя. Якщо так, то це зміна в поведінці буде відповідати з охолоджуючим ефектом в результаті масового спостереження. Підхід Penney (2016) іноді називають перерваний дизайн часових рядів і пов'язаний з підходами , в розділі про аппроксимирующих експериментів за даними спостережень (розділ 2.4.3).
Щоб вибрати тему ключових слів, Penney згадується в списку використовуваних Департаментом внутрішньої безпеки США для відстеження та моніторингу соціальних медіа. У списку DHS класифікує певні умови пошуку в цілий ряд питань, тобто "Здоров'я Концерну", "Інфраструктура безпеки" і "тероризм". Для дослідницької групи, Penney використовували сорок вісім ключових слів, пов'язані з "тероризмом" (див таблицю 8 додаток). Потім він агрегується Вікіпедії кількість переглядів статті на щомісячній основі для відповідних сорока восьми статей Вікіпедії протягом тридцяти двох місяців, з початку січня 2012 року до кінця серпня 2014 г. Для того, щоб посилити свої аргументи, він також створив кілька порівняння груп по відстеження переглядів статті на інші теми.
Тепер, ви збираєтеся повторити і розширити Penney (2016) . Всі вихідні дані, які ви будете потребувати для цієї діяльності доступна з Вікіпедії (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Або ви можете отримати його з R пакета wikipediatrend (Meissner and Team 2016) . Коли ви пишете вгору ваші відповіді, будь ласка, зверніть увагу, яке джерело даних ви використовували. (Примітка: Ця ж активність також з'являється в главі 6)
[ ] Efrati (2016) звіти, засновані на конфіденційної інформації, що «повний обмін» на Facebook скоротилася приблизно на 5,5% в річному численні в той час як "оригінальний спільне мовлення" знизився на 21% за рік. Це зниження було особливо гостро з користувачами Facebook молодше 30 років. У доповіді віднести зниження до двох факторів. Одним з них є зростання числа "друзів" у людей є на Facebook. Інший в тому, що деякий поділ активності змістився на обмін повідомленнями і конкурентів, таких як Snapchat. У доповіді також розкрив декілька тактику Facebook намагалися форсувати обмін ними, в тому числі News Feed алгоритм хитрощів, які роблять оригінальні пости більш помітним, а також періодичних нагадувань про первинні користувачів повідомлення "У цей день" кілька років тому. Які наслідки, якщо такі є, робить ці висновки мають для дослідників, які хочуть використовувати Facebook в якості джерела даних?
[ ] Tumasjan et al. (2010) і Tumasjan et al. (2010) повідомили , що частка твітів з згадкою політичної партії відповідає частці голосів, отриманих партією в німецькому парламентських виборах у 2009 році (рис 2.9). Іншими словами, виявилося, що ви могли б використовувати Twitter, щоб передбачити вибори. У той час це дослідження було опубліковано було визнано надзвичайно захоплюючим, тому що це здавалося запропонувати цінних використання для загального джерела великих обсягів даних.
З огляду на погані риси великих обсягів даних, однак, ви повинні негайно скептично ставитися до цього результату. Німці на Twitter в 2009 році були досить нерепрезентативна групи і прихильників однієї партії може чірікать про політику частіше. Таким чином, здається дивним, що всі можливі систематичні помилки, які ви можете собі уявити якось компенсують. Насправді, результати в Tumasjan et al. (2010) і Tumasjan et al. (2010) виявився занадто добре , щоб бути правдою. У своїй роботі, Tumasjan et al. (2010) і Tumasjan et al. (2010) розглянув шість політичних партій: християнські демократи (ХДС), християнські соціал - демократи (CSU), СПД, лібералами (ВДП), ліва (Die Linke) і Партія зелених (Grüne). Проте, найбільш згадуваних німецька політична партія на Twitter в той час була Піратська партія (Piraten), партія, яка бореться державного регулювання Інтернету. Коли Піратська партія була включена в аналіз, Twitter згадує стає жахливим провісником результатів виборів (Малюнок 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Згодом інші дослідники в усьому світі використовували химерні методи, такі як з допомогою аналізу настроїв розрізняти позитивні і негативні згадки сторін-для того , щоб поліпшити здатність даних Twitter спрогнозувати різні види виборів (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ось як Huberty (2015) узагальнені результати цих спроб передбачити вибори:
"Всі відомі методи прогнозування, засновані на соціальних медіа зазнали невдачі, коли піддаються вимогам справжнього виборчого прогнозування перспективного. Ці невдачі, як видається, з-за фундаментальних властивостей соціальних медіа, а не до методологічним або алгоритмічних труднощів. Коротше кажучи, соціальні медіа не роблять, і, ймовірно, ніколи не буде, пропонуємо стабільну, об'єктивну, представницьку картину електорату; і зразки зручності соціальних медіа не мають достатніх даних, щоб виправити ці проблеми постфактум ".
Прочитайте деякі дослідження , які ведуть Huberty (2015) до такого висновку, і написати одну сторінку Нагадування для політичного кандидата , що описує , якщо і як Twitter слід використовувати для прогнозування виборів.
[ ] У чому різниця між соціологом і істориком? Згідно Голдторпа (1991) , основна відмінність між соціологом і істориком є контроль над збором даних. Історики змушені використовувати реліквії, тоді як соціологи можуть адаптувати їх збір даних для конкретних цілей. Read Goldthorpe (1991) . Як різниця між соціологією і історією пов'язана з ідеєю Custommades і Readymades?
[ ] Спираючись на попереднє запитання, Goldthorpe (1991) привернув ряд критичних відгуків, в тому числі один з Nicky Харт (1994) , які кинули виклик відданість Goldthorpe до адаптувати зроблені дані. Для з'ясування можливих обмежень спеціально розроблених даних, Харт описав благополучних працівник проекту, велике дослідження, щоб виміряти взаємозв'язок між соціальним класом і голосування, проведеного Голдторпа і його колегами в середині 1960-х років. Як і слід було очікувати від ученого, який сприяння розроблений дані по знайдених даних, процвітаючих працівник проекту зібрані дані, які були з урахуванням рішення нещодавно запропонованої теорії про майбутнє соціального класу в епоху підвищення рівня життя. Але, Голдторп і його колеги чомусь "забув", щоб зібрати інформацію про поведінку голосування жінок. Ось як Нікі Харт (1994) Підсумки весь епізод:
". , , він [це] важко уникнути висновку, що жінки були опущені, тому що це «кравець зробив» набір даних був обмежений парадигматичною логікою, яка виключала жіночий досвід. Ведений теоретичного бачення класової свідомості і дії як чоловіків турботами. , , , Голдторп і його колеги побудували безліч емпіричних доказів, які годували і плекали свої власні теоретичні припущення замість того, щоб піддавати їх дійсного аналізу адекватності ".
Харт продовжував:
"Емпіричні результати процвітаючих працівника проекту кажуть нам більше про маскуліністскіх цінностей соціології середини минулого століття, ніж вони інформують процеси стратифікації, політики і матеріального життя."
Чи можете ви пригадати інші приклади, де збір індивідуальні дані має ухили колектора даних, вбудованих в нього? Як це співвідноситься з алгоритмічної змішання? Які наслідки це може мати для того, коли дослідники повинні використовувати Readymades і коли вони повинні використовувати Custommades?
[ ] У цьому розділі я протиставив дані, зібрані дослідниками для дослідників з адміністративними записів, створених компаніями і урядами. Деякі люди називають ці адміністративні записи "знайшли дані", які вони контрастують з "Designed даних." Це правда, що адміністративні записи знайдені дослідниками, але вони також високо розроблені. Наприклад, сучасні технологічні компанії витрачають величезну кількість часу і ресурсів для збору і зберігання своїх даних. Таким чином, ці адміністративні записи обидва знайдені і розроблені, це просто залежить від вашої точки зору (рис 2.10).
Забезпечити приклад джерела даних, де розглядаючи його і як знайшли і призначений корисно при використанні цього джерела даних для досліджень.
[ ] В задумливим есе, Крістіан Sandvig і Eszter Hargittai (2015) описують два види цифрових досліджень, де цифрова система є «інструментом» або «об'єкт дослідження». Прикладом першого роду дослідженні , де Бенгтссон і його колеги (2011) використовували дані мобільного телефону для відстеження міграції після землетрусу на Гаїті в 2010 році прикладом другого роду , де Дженсен (2007) дослідження , як впровадження мобільних телефонів у всьому штаті Керала, Індія вплинуло на функціонування ринку для риби. Я вважаю це корисним, оскільки він уточнює, що дослідження з використанням цифрових джерел даних може мати абсолютно різні цілі, навіть якщо вони використовують один і той же тип джерела даних. Для подальшого уточнення цієї відмінності, описують чотири дослідження, які ви бачили: два, які використовують цифрову систему як інструмент і два, які використовують цифрову систему в якості об'єкта дослідження. Ви можете використовувати приклади з цієї глави, якщо ви хочете.