активности

  • степен на тежина: лесно лесно , средно медиум , тешко тешко , многу тешко многу тешко
  • бара математика ( бара математика )
  • бара кодирање ( бара кодирање )
  • собирање на податоци ( собирање на податоци )
  • Мои фаворити ( мојот омилен )
  1. [ медиум , мојот омилен ] Алгоритамскиот конфликт беше проблем со Google трендови за грип. Прочитајте ја веста од Lazer et al. (2014) и напишете кратка, јасна порака до инженер во Google објаснувајќи го проблемот и нудејќи идеја за тоа како да го поправите.

  2. [ медиум ] Bollen, Mao, and Zeng (2011) тврдат дека податоците од Твитер може да се искористат за да се предвиди берзата. Овој наод доведе до создавање на хеџ фонд-Derwent Capital Markets-да инвестира во берзата врз основа на податоците собрани од Твитер (Jordan 2010) . Кои докази би сакале да ги видите пред да ги ставате парите во тој фонд?

  3. [ лесно ] Додека некои застапници за јавно здравје сметаат дека е-цигарите претставуваат ефективна помош за прекин на пушењето, други предупредуваат за потенцијалните ризици, како што се високите нивоа на никотин. Замислете дека истражувачот одлучува да го проучи јавното мислење кон е-цигарите со собирање на Твитер мислења поврзани со е-цигари и спроведување на расположение анализа.

    1. Кои се трите можни предрасуди за кои најмногу сте загрижени во оваа студија?
    2. Clark et al. (2016) водеа токму таквата студија. Прво, тие собраа 850.000 твитови кои користеа клучни зборови поврзани со е-цигарите од јануари 2012 до декември 2014 година. По поблиска проверка, сфатија дека многу од овие твитови беа автоматизирани (т.е. не се произведени од луѓе) и многу од овие автоматски твитови беа во суштина реклами. Тие развија алгоритам за откривање на човекот за да ги одвојат автоматските твитови од органски твитови. Користејќи го овој човечки детектиран алгоритам, откриле дека 80% од твитови се автоматизирани. Дали ова откритие го промени вашиот одговор на дел (а)?
    3. Кога го споредуваа чувството во органски и автоматски твитови, откриле дека автоматските твитови се попозитивни отколку органските твитови (6.17 наспроти 5.84). Дали ова откритие го менува вашиот одговор на (б)?
  4. [ лесно ] Во ноември 2009 година, Твитер го промени прашањето во полето за твитови од "Што правите?" До "Што се случува?" (Https://blog.twitter.com/2009/whats-happening).

    1. Како мислите дека промената на потршувањата ќе влијае на кој твитови и / или што твитуваат?
    2. Наведете еден истражувачки проект за кој би сакале да ве прашаат "Што правите?" Објаснете зошто.
    3. Наведете еден истражувачки проект за кој би сакале брза "Што се случува?" Објаснете зошто.
  5. [ лесно ] "Retweets" често се користат за мерење на влијание и ширење на влијание на Твитер. Првично, корисниците мораа да ја копираат и залепат твитката што им се допаѓаат, да го означат оригиналниот автор со неговата / нејзината рачка и рачно да напише "RT" пред твитот за да покаже дека е ретвит. Потоа, во 2009 година, Твитер додаде копче "ретвит". Во јуни 2016 година, Твитер им овозможи на корисниците да рекетираат сопствени твитови (https://twitter.com/twitter/status/742749353689780224). Дали мислите дека овие промени треба да влијаат на тоа како користите "retweets" во вашето истражување? Зошто да или зошто не?

  6. [ многу тешко , собирање на податоци , бара кодирање , мојот омилен ] Во многу дискутираниот труд, Мишел и неговите колеги (2011) анализираа содржината на повеќе од пет милиони дигитализирани книги во обид да ги идентификуваат долгорочните културни трендови. Податоците што ги користеа сега се објавени како податоци на Google NGrams, и така можеме да ги искористиме податоците за реплицирање и проширување на дел од нивната работа.

    Во еден од многуте резултати во весникот, Мишел и неговите колеги тврдат дека забораваме побрзо и побрзо. За одредена година, велат "1883", тие го пресметаа процентот на 1 грама објавени секоја година помеѓу 1875 и 1975 година, кои биле "1883". Тие размислуваа дека овој процент е мерка за интересот за настаните што се случија во таа година. На нивната слика 3а, тие ги цртале траекторите за употреба за три години: 1883, 1910 и 1950. Овие три години имаат заеднички модел: малку употреба пред таа година, потоа скок, а потоа распаѓање. Следно, за да се измери стапката на распаѓање за секоја година, Мишел и неговите колеги пресметувале "полуживот" на секоја година за сите години помеѓу 1875 и 1975 година. Во нивната слика 3а (вметнување), тие покажале дека полувремето на секој годината се намалува и тие тврдеа дека тоа значи дека ние го забораваме минатото побрзо и побрзо. Тие ја користеа Верзијата 1 од корпусот на англиски јазик, но потоа Гугл ја објави втората верзија на корпусот. Прочитајте ги сите делови од прашањето пред да започнете со кодирање.

    Оваа активност ќе ви даде практика за пишување еднократно шифра, толкување на резултатите и податоци со расправии (како што се работење со непријатни датотеки и справување со недостасуваат податоци). Оваа активност исто така ќе ви помогне да станете и да работите со богат и интересен назив на податоци.

    1. Добијте необработени податоци од веб-страницата на NGram Viewer на Google Книги. Особено, треба да ја користите верзијата 2 од корпусот на англиски јазик, која беше објавена на 1 јули 2012 година. Некомпресирана, оваа датотека е 1.4GB.

    2. Да се ​​рекреира главниот дел од слика 3а од Michel et al. (2011) . За да ја рекреирате оваа бројка, ќе ви бидат потребни две датотеки: оној што сте го презеле во делот (а) и датотеката "вкупно пребројувања", која можете да ја користите за да ги конвертирате суровите броеви во пропорции. Забележете дека вкупната датотека со броеви има структура која може да ја направи малку тешка за читање. Дали верзијата 2 од податоците од NGram произведува слични резултати на оние презентирани во Michel et al. (2011) , кои се базираат на податоци од верзија 1?

    3. Сега проверете го графиконот против графикот креиран од NGram Viewer.

    4. Повторете ја фигурата 3а (главна фигура), но промените ја \(y\) -оксијата како сурова броја на броеви (не стапката на споменатост).

    5. Дали разликата помеѓу (б) и (г) ве води во преиспитување на било кој од резултатите на Мишел и сор. (2011). Зошто да или зошто не?

    6. Сега, користејќи го соодносот на споменувањата, повторете го вметнувањето на сликата 3а. Тоа е, за секоја година помеѓу 1875 и 1975 година, пресметајте го полувреме на таа година. Полуживотот е дефиниран како број на години што поминува пред делот на споменувањето да достигне половина од својата максимална вредност. Забележете дека Michel et al. (2011) прават нешто покомплицирано за да го проценат делот III.6 од Подршката за информации за време на полуживот, но тие тврдат дека двата пристапи произведуваат слични резултати. Дали верзијата 2 од податоците од NGram дава слични резултати на оние презентирани во Michel et al. (2011) , кои се базираат на податоци од верзија 1? (Совет: Немојте да бидете изненадени ако не.)

    7. Дали имало години кои биле изнемоштени, како што се години што биле заборавени особено брзо или особено бавно? Кратко шпекулирајте за можните причини за тој модел и објаснете како ги идентификувавте изливите.

    8. Сега реплицирајте го овој резултат за верзијата 2 од податоците на NGrams на кинески, француски, германски, хебрејски, италијански, руски и шпански.

    9. Споредувајќи ги сите јазици, имало ли години кои биле изнемоштени, како што се години кои биле заборавени особено брзо или особено бавно? Накратко се шпекулира за можните причини за тој модел.

  7. [ многу тешко , собирање на податоци , бара кодирање , мојот омилен ] Penney (2016) истражуваше дали широко распространетиот публицитет за надзор на НСА / ПРИИМ (т.е. откритијата на Сноуден) во јуни 2013 година бил поврзан со остар и ненадеен пад на сообраќајот на статиите на Википедија на теми кои предизвикуваат загриженост за приватноста. Ако е така, оваа промена во однесувањето ќе биде во согласност со застрашувачкиот ефект што произлегува од масовниот надзор. Пристапот на Penney (2016) понекогаш се нарекува прекинати временски серии и е поврзан со пристапите опишани во дел 2.4.3.

    За да се изберат клучните теми, Пени се осврна на листата што ја користи Одделот за домашна безбедност на САД за следење и следење на социјалните медиуми. Листата на DHS ги категоризира определените термини за пребарување во голем број прашања, односно "Здравствена загриженост", "Безбедност во инфраструктурата" и "Тероризам". За студиската група, Penney ги користеше 48-те клучни зборови поврзани со "Тероризмот" (види додаток табела 8 ). Тој потоа ги обединува ставовите на Википедија за статии на месечна основа за соодветните 48 статии на Википедија во период од 32 месеци, од почетокот на јануари 2012 година до крајот на август 2014 година. За да го зајакне својот аргумент, тој исто така создаде неколку споредбени групи со следење статии статии на други теми.

    Сега, ќе ги повторите и проширите Penney (2016) . Сите необработени податоци што ќе ви бидат потребни за оваа активност се достапни од Википедија. Или можете да го добиете од R-пакетот wikipediatrend (Meissner and R Core Team 2016) . Кога ќе ги напишете вашите одговори, ве молиме означете кој извор на податоци сте користеле. (Забележете дека оваа иста активност се појавува и во поглавјето 6.) Оваа активност ќе ви овозможи да вежбате во размена на податоци и размислување за природни експерименти во големи извори на податоци. Исто така, ќе ве поттикне и ќе работи со потенцијално интересен извор на податоци за идните проекти.

    1. Прочитајте Penney (2016) и реплицирајте ја неговата фигура 2 која ги прикажува страниците за страниците за "тероризмот" пред и по откритијата на Сноуден. Ги интерпретира наодите.
    2. Потоа, реплицирајте ја сликата 4А, која ја споредува членовите на студиската група (статии поврзани со "тероризмот") со компараторска група користејќи клучни зборови категоризирани под "DHS и други агенции" од списокот DHS (види додаток 10 и фуснота 139). Ги интерпретира наодите.
    3. Во дел (б) ја споредите студиската група со една компараторска група. Penney, исто така, во споредба со две други компаративни групи: статии поврзани со "Инфраструктурна безбедност" (прилог табела 11) и популарни страници на Википедија (прилог табела 12). Дојдете со алтернативна компараторска група и проверете дали наодите од дел (б) се чувствителни на вашиот избор на компараторска група. Кој избор има најмногу смисла? Зошто?
    4. Пенни изјави дека клучни зборови поврзани со "тероризмот" се користат за да се изберат статиите на Википедија, бидејќи американската влада го наведе тероризмот како клучно оправдување за своите практики за онлајн надзор. Како проверка на 48-те клучни зборови поврзани со тероризмот, Penney (2016) исто така, спроведе анкета за Муррк, барајќи од испитаниците да ги рангираат секоја од клучните клучни зборови во однос на владините проблеми, чувствителноста и избегнувањето (прилог табели 7 и 8 ). Реплицирајте ја истражувањето на Муррк и споредете ги резултатите.
    5. Врз основа на резултатите во делот (г) и вашето читање на статијата, дали се согласувате со избор на клучни зборови на Пени во студиската група? Зошто да или зошто не? Ако не, што би предложиле наместо тоа?
  8. [ лесно ] Efrati (2016) објави, врз основа на доверливи информации, дека "вкупно споделување" на Фејсбук се намали за околу 5,5% годишно од година во година, додека "оригиналното споделување на емитувања" беше долу 21% годишно во текот на годината. Овој пад беше особено акутен кај корисниците на Фејсбук под 30-годишна возраст. Во извештајот му се припишува пад на два фактора. Едниот е растот на бројот на "пријатели" што луѓето ги имаат на Фејсбук. Од друга страна, некои активности за размена се префрлиле на пораки и на конкурентите како Snapchat. Во извештајот, исто така, се откриени неколку тактики кои Фејсбук се обиде да го зголеми споделувањето, вклучувајќи ги и промените на алгоритмите за нови содржини, кои ги прават оригиналните мислења поистакнати, како и периодични потсетници за оригиналните натписи со функцијата "На овој ден". Кои импликации, доколку ги има, ги имаат овие наоди за истражувачите кои сакаат да го користат Фејсбук како извор на податоци?

  9. [ медиум ] Која е разликата помеѓу социолог и историчар? Според Goldthorpe (1991) , главната разлика е контролата врз собирањето податоци. Историчарите се принудени да користат реликвии, додека социолозите можат да го прилагодат нивното собирање податоци за специфични цели. Прочитајте Goldthorpe (1991) . Како е разликата помеѓу социологијата и историјата поврзана со идејата на custommades и readymades?

  10. [ тешко ] Ова се базира на претходното прашање. Goldthorpe (1991) привлече голем број на критични одговори, вклучувајќи и еден од Ники Харт (1994) кој ја оспорувал посветеноста на Голдпорп да ги прилагоди податоците. За да ги разјасни потенцијалните ограничувања на прилагодените податоци, Харт го опиша Проектот за богатите работници, големо истражување за мерење на односот помеѓу социјалната класа и гласањето што го спроведоа Голдторп и неговите колеги во средината на 1960-тите. Како што може да се очекува од научник кој сакаше да дизајнира податоци за пронајдените податоци, Проектот за влијателни работници собираше податоци кои беа прилагодени за решавање на неодамна предложената теорија за иднината на општествената класа во ера на зголемување на животниот стандард. Но, Goldthorpe и неговите колеги некако "заборавиле" да соберат информации за гласачкото однесување на жените. Еве како Ники Харт (1994) сумираше целата епизода:

    "... тешко е да се избегне заклучокот дека жените се изоставени, бидејќи овој" прилагоден "набор на податоци беше затворен со парадигматична логика која го исклучи женското искуство. Поддржан од теоретска визија за класна свест и акција како машки преокупации ..., Голдторп и неговите колеги изградиле група емпириски докази кои ги хранеле и негуваат сопствените теоретски претпоставки, наместо да ги изложат на валиден тест за адекватноста ".

    Харт продолжи:

    "Емпириските сознанија на Проектот за богатите работници ни кажуваат повеќе за маскулинистичките вредности на социологијата во средината на векот, отколку што ги информираат процесите на стратификација, политика и материјален живот".

    Можете ли да помислите на други примери каде што прилагодената колекција на податоци има пристрасност на колектор на податоци вграден во него? Како ова се споредува со алгоритамски измами? Кои импликации може да ги има кога истражувачите треба да ги користат readymades и кога треба да користат custommades?

  11. [ медиум ] Во ова поглавје имам спротивставени податоци собрани од истражувачи за истражувачи со административни записи создадени од компании и влади. Некои луѓе ги нарекуваат овие административни досиеја "пронајдени податоци", што тие го прават спротивно на "дизајнираните податоци". Точно е дека административните записи се наоѓаат од страна на истражувачите, но исто така се високо дизајнирани. На пример, модерните технолошки компании работат многу напорно за да ги соберат и курат своите податоци. Така, овие административни досиеја се пронајдени и дизајнирани, само зависи од вашата перспектива (слика 2.12).

    Слика 2.12: Сликата е и патка и зајак; она што го гледате зависи од вашата перспектива. Големи извори на податоци се пронајдени и дизајнирани; повторно, она што го гледате зависи од вашата перспектива. На пример, евиденцијата за податоци за повици, која ја собира компанијата за мобилни телефони, ги наоѓа податоците од гледна точка на истражувачот. Но, овие исти податоци се дизајнирани од перспектива на некој што работи во одделот за фактурирање на телефонската компанија. Извор: Популарна месечна наука (1899) / Викимедија.

    Слика 2.12: Сликата е и патка и зајак; она што го гледате зависи од вашата перспектива. Големи извори на податоци се пронајдени и дизајнирани; повторно, она што го гледате зависи од вашата перспектива. На пример, евиденцијата за податоци за повици, која ја собира компанијата за мобилни телефони, ги наоѓа податоците од гледна точка на истражувачот. Но, овие исти податоци се дизајнирани од перспектива на некој што работи во одделот за фактурирање на телефонската компанија. Извор: Популарна месечна наука (1899) / Викимедија .

    Обезбеди пример на извор на податоци каде што гледањето како да е пронајдено и дизајнирано е корисно кога се користи тој извор на податоци за истражување.

  12. [ лесно ] Во внимателен есеј, Кристијан Сандвиг и Естер Харгитаи (2015) поделија дигитални истражувања во две широки категории во зависност од тоа дали дигиталниот систем е "инструмент" или "предмет на проучување". Пример за прв вид - каде што системот е инструмент е истражување на Бенгтсон и неговите колеги (2011) за користење на податоци за мобилни телефони за следење на миграцијата по земјотресот во Хаити во 2010 година. Пример за вториот вид - каде што системот е предмет на студија е истражување од Јенсен (2007) за тоа како воведувањето на мобилни телефони низ Керала, Индија влијаеше врз функционирањето на пазарот за риби. Оваа разлика е корисна бидејќи објаснува дека студиите што користат дигитални извори на податоци може да имаат сосема различни цели, дури и ако користат ист вид извор на податоци. Со цел понатаму да се разјаснат овие разлики, опишете четири студии што сте ги виделе: две кои користат дигитален систем како инструмент и два кои користат дигитален систем како објект на проучување. Можете да користите примери од ова поглавје ако сакате.