дейности

  • степен на трудност: лесно лесно , средно среда , твърд твърд , много трудно много трудно
  • изисква математика ( изисква математика )
  • изисква кодиране ( изисква кодиране )
  • събиране на данни ( събиране на данни )
  • любимите ми ( Моят фаворит )
  1. [ среда , Моят фаворит ] Алгоритмичното объркване е проблем с Google грипните тенденции. Прочетете хартията от Lazer et al. (2014) и да напишете кратък и ясен имейл на инженер в Google, който обяснява проблема и предлага идея как да го коригирате.

  2. [ среда ] Bollen, Mao, and Zeng (2011) твърдят, че данните от Twitter могат да се използват за прогнозиране на фондовия пазар. Тази констатация доведе до създаването на хедж фонд Derwent Capital Markets, който да инвестира на фондовия пазар въз основа на данни, събрани от Twitter (Jordan 2010) . Какви доказателства бихте искали да видите преди да поставите парите си в този фонд?

  3. [ лесно ] Докато някои защитници на общественото здраве смятат, че електронните цигари са ефективна помощ за спиране на тютюнопушенето, други предупреждават за потенциалните рискове, като високите нива на никотина. Представете си, че един изследовател решава да изучава общественото мнение към електронните цигари, като събира статии в Twitter, свързани с електронните цигари, и провежда анализ на настроенията.

    1. Какви са трите възможни отклонения, за които най-много се притеснявате в това проучване?
    2. Clark et al. (2016) занимава само с такова проучване. Първоначално те събраха 850 000 тонове, които използват ключови думи, свързани с електронната цигара, от януари 2012 г. до декември 2014 г. След по-задълбочена проверка те осъзнават, че много от тези tweets са автоматизирани (т.е. не се произвеждат от хората) и много от тези автоматични tweets реклами. Те разработиха алгоритъм за откриване на хора, за да отделят автоматизираните tweets от органичните tweets. Използвайки този алгоритъм за откриване на хора, те открили, че 80% от tweets са автоматизирани. Това находка променя ли отговор на част (а)?
    3. Когато сравняват настроението в органичните и автоматичните tweets, те откриват, че автоматичните tweets са по-положителни от органичните tweets (6.17 срещу 5.84). Това откритие променя ли отговор на (б)?
  4. [ лесно ] През ноември 2009 г. Twitter промени въпроса в полето "Какво правиш?" На "Какво се случва?" (Https://blog.twitter.com/2009/whats-happening).

    1. Как смятате, че промяната на подсказванията ще се отрази на кой е настроен на Twitter и / или на това, което пише?
    2. Назовайте един изследователски проект, за който бихте предпочели бързината "Какво правиш?" Обяснете защо.
    3. Назовайте един изследователски проект, за който бихте предпочели бързината "Какво се случва?" Обяснете защо.
  5. [ лесно ] "Retweets" често се използват за измерване влиянието и разпространението на влияние върху Twitter. Първоначално потребителите трябваше да копират и вмъкнат тийнейджърите, които харесваха, да маркират оригиналния автор с дръжката си и ръчно да напишат "RT" преди думите "tweet", за да покаже, че това е ретут. След това през 2009 г. Twitter добави бутон "Retweet". През юни 2016 г. Twitter даде възможност на потребителите да обновяват свои собствени Tweets (https://twitter.com/twitter/status/742749353689780224). Смятате ли, че тези промени трябва да повлияят върху начина, по който използвате "ретнеути" в изследванията си? Защо или защо не?

  6. [ много трудно , събиране на данни , изисква кодиране , Моят фаворит ] В широко обсъден доклад Michel и колеги (2011) анализираха съдържанието на повече от пет милиона дигитализирани книги в опит да идентифицират дългосрочните културни тенденции. Данните, които са използвали, вече са пуснати като набор от данни на Google NGrams и затова можем да използваме данните, за да възпроизведем и разширим част от тяхната работа.

    В един от многото резултати в статията Мишел и колегите твърдяха, че забравяме по-бързо и по-бързо. За дадена година, кажете "1883", те са изчислили пропорцията от 1 грам, публикувана всяка година между 1875 и 1975, които са "1883". Те разсъждават, че този процент е мярка за интереса към събитията, случили се през същата година. В своята фигура 3а те графицират траекториите на употребата за три години: 1883, 1910 и 1950 г. Тези три години имат общ модел: малко използване преди тази година, след това скок, а след това разпад. След това, за да се определи количеството на гниене за всяка година, Мишел и колегите изчислиха "полуживота" на всяка година за всички години между 1875 и 1975. На фигурата 3а (вмъкнато), те показаха, че полуживотът на всеки годината намалява и те твърдят, че това означава, че забравяме миналото по-бързо и по-бързо. Те използваха Версия 1 на корпуса на английски език, но впоследствие Google пусна втора версия на корпуса. Моля, прочетете всички части на въпроса, преди да започнете да кодирате.

    Тази дейност ще ви даде практически опит за писане на кодировки за многократна употреба, за тълкуване на резултатите и за преодоляване на данни (например работа с неловки файлове и обработка на липсващи данни). Тази дейност също ще ви помогне да стартирате и работите с богат и интересен набор от данни.

    1. Получете необработените данни от уебсайта на Viewer на Google Книги. По-специално, трябва да използвате версия 2 на корпуса на английски език, която бе пусната на 1 юли 2012 г. Некомпресиран, този файл е 1,4 GB.

    2. Възстановете основната част на фигура 3а на Michel et al. (2011) . За да пресъздадете тази цифра, ще ви трябват два файла: този, който сте изтеглили частично (a) и файла "total counts", който можете да използвате, за да конвертирате суровите суми в пропорции. Обърнете внимание, че общият брой на файловете има структура, която може да направи малко трудно да се прочете. Има ли версия 2 на данните за NGram подобни резултати, като тези, представени в Michel et al. (2011) , които се основават на данни от версия 1?

    3. Сега проверете графиката си спрямо графиката, създадена от Viewer на NGram.

    4. Възстановете фигурата 3а (основна фигура), но променете \(y\) -аксиста, за да се брои суровата референция (а не степента на споменаване).

    5. Дали разликата между букви б) и г) ви кара да преоценявате някой от резултатите от Michel et al. (2011 г.). Защо или защо не?

    6. Сега, използвайки пропорцията от споменаванията, копирайте вмъкнатата на фигура 3а. Това означава, че за всяка година между 1875 и 1975 г., изчислете полуживота за тази година. Полуживотът се определя като броят на годините, които преминават, преди делът на споменатите данни да достигне половината от пиковата си стойност. Обърнете внимание, че Michel et al. (2011) правят нещо по-сложно за оценка на полуживота - вж. Раздел III.6 от Поддържащата онлайн информация, но те твърдят, че и двата подхода имат подобни резултати. Дали версията 2 на данните за NGram дава резултати, подобни на тези, представени в Michel et al. (2011) , които се основават на данни от версия 1? (Съвет: Не се изненадвайте, ако не го направите.)

    7. Имаше ли години, които бяха извънредни, като например години, които бяха забравени особено бързо или особено бавно? Накратко да спекулирате за възможните причини за този модел и да обясните как сте идентифицирали тези отклонения.

    8. Сега копирайте този резултат за версия 2 на данните за NGrams на китайски, френски, немски, иврит, италиански, руски и испански.

    9. Сравнявайки по всички езици, имаше ли години, които бяха извънредни, като например години, които бяха забравени особено бързо или особено бавно? Накратко спекулирайте за възможните причини за този модел.

  7. [ много трудно , събиране на данни , изисква кодиране , Моят фаворит ] Penney (2016) проучи дали широкото разпространение на наблюденията на NSA / PRISM през юни 2013 г. е свързано с рязко и внезапно намаляване на трафика към статиите в Wikipedia по теми, които пораждат загриженост за неприкосновеността на личния живот. Ако е така, тази промяна в поведението би била съвместима с ефекта на охлаждане в резултат на масовото наблюдение. Подходът на Penney (2016) понякога се нарича прекъснат дизайн на времевата серия и е свързан с подходите, описани в раздел 2.4.3.

    За да избере тематичните ключови думи, Penney се позова на списъка, използван от Министерството на вътрешната сигурност на САЩ за проследяване и наблюдение на социалните медии. Списъкът на DHS категоризира някои термини за търсене в редица въпроси, например "Загриженост за здравето", "Инфраструктурна сигурност" и "Тероризъм". За проучвателната група Penney използва 48 ключови думи, свързани с тероризма (вж. ). След това той обобщава броя на статиите в Wikipedia, които се броят месечно за съответните 48 статии в Wikipedia за период от 32 месеца, от началото на януари 2012 г. до края на август 2014 г. За да укрепи аргумента си, той също така създаде няколко сравнителни групи чрез проследяване изгледи на статии по други теми.

    Сега ще възпроизведете и разширите Penney (2016) . Всички сурови данни, които ще са ви необходими за тази дейност, са достъпни от Уикипедия. Или можете да го получите от R-пакета wikipediatrend (Meissner and R Core Team 2016) . Когато пишете отговорите си, моля, имайте предвид кой източник на данни сте използвали. (Обърнете внимание, че същата тази дейност също се показва в глава 6.) Тази дейност ще ви даде практически опит в справянето с данни и мисленето за естествени експерименти в големи източници на данни. Той също така ще ви помогне да работите с потенциално интересен източник на данни за бъдещи проекти.

    1. Прочетете Penney (2016) и копирайте неговата фигура 2, която показва изгледите на страниците за страници, свързани с тероризма преди и след Snowdown разкритията. Интерпретирайте констатациите.
    2. След това копирайте фигура 4А, която сравнява проучваната група (статии, свързани с "тероризма"), с група за сравнение, използваща ключови думи, категоризирани под "DHS & други агенции" от списъка DHS (виж приложение № 10 и бележка под линия 139). Интерпретирайте констатациите.
    3. В част (б) сравнявате проучваната група с една група за сравнение. Penney също така се сравнява с две други групи за сравнение: "Статии за сигурността на инфраструктурата" (приложение 11 таблица) и популярни страници в Wikipedia (приложение № 12). Излезте с алтернативна група за сравнение и проверете дали резултатите от част (б) са чувствителни към избора на група за сравнение. Кой избор прави най-смисъл? Защо?
    4. Пени заяви, че ключови думи, свързани с "тероризма", са използвани за избирането на статиите в Уикипедия, защото правителството на САЩ цитира тероризма като основно оправдание за практиките си за онлайн наблюдение. Като проверка на тези 48 ключови думи, свързани с тероризма, Penney (2016) също направи проучване на MTurk, като поиска респондентите да оценят всяка от ht ключовите думи по отношение на правителствени проблеми, чувствителност към поверителността и избягване (Приложение 7 и 8 ). Репликирайте проучването на MTurk и сравнете резултатите си.
    5. Въз основа на резултатите от част (d) и вашето четене на статията, изразявате ли съгласие с избора на Penney за тематични ключови думи в проучвателната група? Защо или защо не? Ако не, какво бихте предложили вместо това?
  8. [ лесно ] Efrati (2016) съобщи, въз основа на поверителна информация, че "общото разпределение" във Facebook е намаляло с около 5,5% в годината, докато "първоначалното споделяне на емисии" е намаляло с 21% годишно. Този спад е особено остър при потребителите на Facebook до 30-годишна възраст. Докладът приписва този спад на два фактора. Единият е ръстът в броя на "приятелите", които хората имат във Facebook. Другият е, че някои споделящи дейности се прехвърлят към съобщенията и към конкуренти като Snapchat. Докладът разкри и няколко тактики, които Facebook се е опитало да подобри споделянето, включително опростяването на алгоритъма в News Feed, което прави оригиналните публикации по-популярни, както и периодичните напомняния за оригиналните публикации с функцията "На този ден". Какви са последиците, ако има такива, за тези изследователи, които искат да използват Facebook като източник на данни?

  9. [ среда ] Каква е разликата между социолог и историк? Според Goldthorpe (1991) , основната разлика е контролът върху събирането на данни. Историците са принудени да използват реликви, докато социолозите могат да приспособят събирането на данни към конкретни цели. Прочетете Goldthorpe (1991) . Как е разликата между социологията и историята, свързана с идеята за поръчкови и готови продукти?

  10. [ твърд ] Това се основава на предишния въпрос. Goldthorpe (1991) извлича редица критични отговори, включително един от Ники Харт (1994) който оспорва отдадеността на Goldthorpe до приспособени данни. За да се изяснят потенциалните ограничения на персонализираните данни, Харт описва Проекта за благоденстващ работник - голямо проучване за измерване на връзката между социалната класа и гласуването, проведено от Goldthorpe и колеги от средата на 60-те години на миналия век. Както би могло да се очаква от един учен, който облагодетелствал проектираните данни над откритите данни, Проектът за благоприятни работници събираше данни, които бяха пригодени да се справят с наскоро предложена теория за бъдещето на социалната класа в ерата на повишаване на жизнения стандарт. Но Goldthorpe и колегите по някакъв начин "забравиха" да съберат информация за поведението на жените при гласуването. Ето как Ники Харт (1994) обобщи целия епизод:

    "... е трудно да се избегне заключението, че жените са били пропуснати, защото този набор от данни е бил ограничен от парадигматична логика, която изключвала женския опит. Водени от теоретичната визия за класното съзнание и действие като мъжки загриженост ..., Goldthorpe и неговите колеги изградиха набор от емпирични доказателства, които подхранваха и подхранваха собствените си теоретични предположения, вместо да ги излагат на валиден тест за адекватност.

    Харт продължи:

    "Емпиричните открития на Проекта за благоденстващ работник ни разказват повече за маскулинистичните ценности на социологията в средата на века, отколкото за информирането за процесите на стратификация, политика и материален живот".

    Можете ли да помислите за други примери, при които събирането на данни поотделно има вградени в колектора данни? Как се сравни това с алгоритмичното объркване? Какви са последиците от това, когато изследователите трябва да използват готови продукти и кога трябва да използват по поръчка?

  11. [ среда ] В тази глава съм контрастирал данните, събрани от изследователи за изследователи, с административни записи, създадени от компании и правителства. Някои хора наричат ​​тези административни записи "намерени данни", които те контрастират с "проектираните данни". Вярно е, че административните записи са намерени от изследователите, но те също са силно проектирани. Например, модерните технологични компании работят много усилено, за да събират и обработват своите данни. По този начин тези административни записи са открити и проектирани, то зависи само от вашата гледна точка (фигура 2.12).

    Фигура 2.12: Картината е както патица, така и заек; това, което виждате, зависи от вашата гледна точка. Големите източници на данни са открити и проектирани; отново, това, което виждате, зависи от вашата гледна точка. Например данните за обажданията, събрани от компания за мобилни телефони, се намират от гледна точка на изследовател. Но тези точно същите записи са проектирани от гледна точка на човек, работещ в отдела за фактуриране на телефонната компания. Източник: Популярни науки Месец (1899) / Wikimedia Commons.

    Фигура 2.12: Картината е както патица, така и заек; това, което виждате, зависи от вашата гледна точка. Големите източници на данни са открити и проектирани; отново, това, което виждате, зависи от вашата гледна точка. Например данните за обажданията, събрани от компания за мобилни телефони, се намират от гледна точка на изследовател. Но тези точно същите записи са проектирани от гледна точка на човек, работещ в отдела за фактуриране на телефонната компания. Източник: Популярни науки Месец (1899) / Wikimedia Commons .

    Дайте пример за източник на данни, когато го виждате и като намерен и проектиран, е полезен, когато използвате този източник на данни за изследвания.

  12. [ лесно ] В разумно есе, Кристиан Сандвиг и Естер Харгитай (2015) разделят цифровите изследвания на две широки категории, в зависимост от това дали цифровата система е "инструмент" или "обект на изследване". Пример за първия вид - когато системата е инструмент - изследването на Бенгтсон и колеги (2011) относно използването на данни за мобилни телефони за проследяване на миграцията след земетресението в Хаити през 2010 г. Пример за втория вид - където системата е обект на изследване - е изследването на Jensen (2007) относно начина, по който въвеждането на мобилни телефони в цяла Керала, Индия, повлия на функционирането на пазара за риба. Смятам, че това разграничение е от полза, защото то изяснява, че проучванията, използващи цифрови източници на данни, могат да имат съвсем различни цели, дори ако използват един и същ вид източник на данни. За да изясните по-нататък тази разлика, опишете четирите проучвания, които сте видели: две, които използват цифрова система като инструмент и два, които използват цифрова система като обект на проучване. Можете да използвате примери от тази глава, ако искате.