активности

клуч:

  • степен на тежина: лесни лесно , средни среден , тешко тешко , многу тешко многу тешко
  • бара математика ( бара математика )
  • бара кодирање ( бара кодирање )
  • собирање на податоци ( собирање на податоци )
  • Мои фаворити ( мојот омилен )
  1. [ среден , мојот омилен ] Алгоритамски изненадувачките проблем со Google грип Трендови. Читање на хартија од Lazer et al. (2014) , и напишете кратко, јасно е-маил на инженер во Google објаснување на проблемот и нудат идеја за тоа како да се реши проблемот.

  2. [ среден ] Bollen, Mao, and Zeng (2011) тврди дека податоците од Твитер може да се користи за предвидување на берзата. Ова откритие доведе до создавање на хеџ фонд-Derwent пазари на капитал, да се инвестира во акции на пазарот врз основа на податоците собрани од Твитер (Jordan 2010) . Какви докази ќе сакате да се види пред ставање вашите пари во тој фонд?

  3. [ лесно ] Додека некои поборници за јавно здравје поздравуваат е-цигари како ефективна помош за престанување со пушење, други предупредуваат за потенцијалните ризици, како што се на високо ниво на никотин. Замислете дека истражувач одлучи да учат на јавното мислење кон е-цигари со собирање поврзани со е-цигари мислења Твитер и спроведување на анализа расположение.

    1. Кои се трите можни предрасуди кои што се најмногу загрижени за тоа во оваа статија?
    2. Clark et al. (2016) имаше само таква студија. Прво, тие се собрани 850.000 твитови што се користи е-цигара поврзани со клучни зборови, од јануари 2012 година до декември 2014 година по поблиску инспекција, тие сфатија дека многу од овие твитови беа автоматски (на пример, не се произведени од страна на луѓето) и многу од овие автоматизирани твитови беа во суштина реклами. Тие развиле за откривање на алгоритам на човекот да се одделат автоматски твитови од органски tweets. Користејќи се со оваа човекови Откривање Алгоритам тие откриле дека 80% од твитовите се автоматизирани. Се менува ова откритие вашиот одговор на делот (а)?
    3. Кога тие во однос на расположение во органски и автоматски твитови тие откриле дека автоматски tweets се повеќе позитивни отколку органски твитови (6,17 наспроти 5,84). Се менува ова откритие го одговорот на (б)?
  4. [ лесно ] Во ноември 2009 година, Твитер промени на прашањето во полето за чуруликам од "Што правиш?" До "Што се случува?" (Https://blog.twitter.com/2009/whats-happening).

    1. Како мислите дека промената на инструкциите, за да влијае на кои чуруликам и / или она што го чуруликам?
    2. Име еден истражувачки проект, за кои би сакале прашува "Што правиш?" Објаснете зошто.
    3. Име еден истражувачки проект за кој би сакале конзолата "Што се случува?" Објаснете зошто.
  5. [ среден ] Kwak et al. (2010) анализирани 41.7 милиони кориснички профили, 1.47 милијарди општествените односи, 4262 trending теми, и 106 милиони твитови помеѓу 6-ти и 31-ви јуни 2009 година Врз основа на оваа анализа се заклучи дека Twitter опслужува повеќе како нов медиум на размена на информации од социјална мрежа.

    1. Со оглед на наод Kwak et al, она што вид на истражување би направиле со податоци Твитер? Каков вид на истражување ќе не направи со податоци Твитер? Зошто?
    2. Во 2010 година, додаде Твитер Кој да ги следите прилагодена услуга правење предлог за корисниците. Три препораки се дадени во време на главната страница. Препораки често се привлечени од една "пријатели на-пријатели" и меѓусебни контакти, исто така, се прикажани во препораката. Корисниците можат да се освежи да ја видите нов сет на препораки или посетете ја страницата со подолга листа на препораки. Дали мислите дека оваа нова функција ќе го промени вашиот одговор на дел а)? Зошто да или зошто не?
    3. Su, Sharma, and Goel (2016) оценува влијанието на Кој да ги следите на услуги и откриле дека додека корисниците од целиот спектар на популарноста корист од препораките, најпопуларните корисници профитирале значително повеќе од просекот. Се менува ова откритие вашиот одговор на дел б)? Зошто да или зошто не?
  6. [ лесно ] "Ретвитови" често се користи за мерење на влијанието и ширењето на влијанието на Твитер. Првично, корисниците мораше да копирате и залепите на Твитер им се допаднала, ознака на оригиналниот автор со неговата / нејзината рачка, и рачно да напишете "RT" пред чуруликам за да се покаже дека тоа е retweet. Потоа, во 2009 година Твитер додаде копче "retweet". Во јуни 2016 година, Твитер направено тоа можно за корисниците да retweet своите твитови (https://twitter.com/twitter/status/742749353689780224). Дали мислите дека овие промени треба да влијаат на тоа како да користите "ретвитови" во своето истражување? Зошто да или зошто не?

  7. [ среден , собирање на податоци , бара кодирање ] Michel et al. (2011) изградена корпус произлегуваат од напорите на Google да се дигитализираат книгите. Со помош на првиот верзија на силите, кој беше објавен во 2009 година и содржи повеќе од 5 милиони дигитализирани книги, авторите анализираат зборот фреквенција употреба за испитување на јазичните промени и културни трендови. Наскоро Книги Корпус на Google стана популарен извор на податоци за истражувачите, и 2-ри верзија на базата на податоци е издаден во 2012 година.

    Сепак, Pechenick, Danforth, and Dodds (2015) предупреди дека истражувачите треба целосно да го карактеризираат процесот на земање примероци од корпусот пред да го користите за цртање широк заклучоци. Главниот проблем е во тоа што корпус е библиотека во форма, што содржи еден на секоја книга. Како резултат на тоа, поединец, плоден автор е во можност да значително вметнете нова фрази во лексиконот на Google Книги. Згора на тоа, научни текстови претставува повеќе суштински дел од корпусот во текот на 1900-тите. Покрај тоа, со споредување на две верзии на фантастика бази на англиски јазик, Pechenick et al. најде докази дека недоволно за филтрирање се користи за производство на првата верзија. Сите податоци кои се потребни за вршење дејност е достапна тука: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Во Мишел et al., Е оригиналниот документ (2011) , тие се користат на 1-ви верзија на податоци во собата на англиски, заговор од фреквенцијата на користење на години "1880", "1912" и "1973", и заклучи дека "ние сме заборавање на нашето минато и побрзо со секој изминат година "(Сл. 3А, Мишел et al.). Идентични истата парцела користење 1) 1 верзија на силите, англиски базата (исто како на Сл. 3А, Мишел et al.)
    2. Сега се реплицираат во истата парцела со 1. верзија, англиски проза базата.
    3. Сега се реплицираат во истата парцела со 2 верзија на силите, англиски базата.
    4. Конечно, се реплицираат во истата парцела со 2 верзија, англиски проза базата.
    5. Опишете ги разликите и сличностите помеѓу овие четири парцели. Дали се согласувате со Мишел et al. првобитна толкување на набљудуваните тренд? (Совет: в) и г) треба да бидат исти како слика 16 во Pechenick et al).
    6. Сега дека сте го повтори ова откритие со користење на различни Google Книги корпуси, изберете друг јазичните промени или културни феномени презентирани во Мишел et al. Оригиналниот хартија. Дали се согласувате со нивното толкување во однос на ограничувањата дадени во Pechenick et al.? Да се ​​направи вашиот аргумент посилни, обидете се реплицираат во истиот график со користење на различни верзии на множество податоци како погоре.
  8. [ многу тешко , собирање на податоци , бара кодирање , мојот омилен ] Penney (2016) истражува дали поголем публицитет за зимскиот надзор / PRISM (на пример, откритијата на Сноуден) во јуни 2013 година се поврзани со остар и ненадеен пад во сообраќајот на Википедија статии за теми кои се подигне стравувањата поврзани со приватноста. Ако е така, оваа промена во однесувањето ќе биде во согласност со застрашувачки ефект од масовен надзор. Пристапот на Penney (2016) понекогаш се нарекува прекината временски серии дизајн и се однесува на пристапи во поглавјето за приближување на експерименти од набљудување на податоци (Дел 2.4.3).

    За да изберете тема клучни зборови, Penney од листата се користи од страна на Одделот за внатрешна безбедност на САД за следење на социјалните медиуми. листа на DHS категоризира одредени зборови за пребарување во широк спектар на прашања, односно, "здравствен проблем", "Инфраструктура за безбедност" и "тероризам". На студиската група, Penney користи четириесет и осум клучни зборови поврзани со "тероризам" (види Табела 8 Додаток). Тој потоа се собираат Википедија точки член поглед на месечна основа за соодветната четириесет и осум статии на Википедија над триесет и два месеци, од почетокот на јануари 2012 година до крајот на август 2014 година да се зајакне неговиот аргумент, тој, исто така, создаде неколку споредба групи со следење на пати напис на други теми.

    Сега, ви се случува да се реплицираат и да се прошири Penney (2016) . Сите необработени податоци што ќе ви треба за оваа активност е на располагање од Википедија (https://dumps.wikimedia.org/other/pagecounts-raw/). Или можете да го добиете од wikipediatrend на R пакет (Meissner and Team 2016) . Кога пишувате-до вашите одговори, ве молиме забележете кој извор на податоци се користи. (Забелешка: Оваа иста активност, исто така, се појавува во Поглавје 6)

    1. Прочитај Penney (2016) и реплицираат Слика 2 што покажува прегледи на страници за "тероризам" -related страни пред и по откритието на Сноуден. Интерпретираат наодите.
    2. Следно, се реплицираат Сл 4А, што е повисоко од студиската група ( "тероризам" -related статии) со споредбената група со користење на клучни зборови категоризираат под "DHS и други агенции" од листата DHS (види Додаток Табела 10). Интерпретираат наодите.
    3. Во дел б) ќе се спореди студиската група на еден споредбената група. Penney, исто така, во споредба со другите две компаратор групи: "Инфраструктура за безбедност" -related статии (Додаток Табела 11) и популарни страници на Википедија (Додаток Табела 12). Излезе со алтернатива споредбената група, и за тестирање ако наодите од дел б) е чувствителен на вашиот избор на споредбената група. Кои избор на споредбената група прави повеќето смисла? Зошто?
    4. Авторот наведува дека клучни зборови, кои се однесуваат на "тероризам" се користи за избор на статии на Википедија, бидејќи владата на САД наведоа тероризмот како клучен оправдување за својата онлајн практики за надзор. Како проверка на овие 48 "тероризам" -related клучни зборови, Penney (2016) , исто така, спроведе истражување на MTurk бара испитаниците да секој од клучни зборови во однос на Владата проблеми, приватност чувствителни, и избегнување (Додаток Табела 7 и 8). Идентични истражување за MTurk и да се споредат резултатите.
    5. Врз основа на резултатите делумно г) и читање на написот, се согласувате со избор на авторот на тема клучни зборови во студиската група? Зошто да или зошто не? Ако не, што би предложиле наместо неа?
  9. [ лесно ] Efrati (2016) извештаи, врз основа на доверливи информации, дека "целосна споделување" на Фејсбук се намали за околу 5,5% од година во година, додека "оригиналот споделување емитува" беше долу 21% од година во година. Овој пад е особено акутен со корисници на Фејсбук под 30-годишна возраст. Извештајот ја падот на два фактори. Една од нив е раст на бројот на "пријатели" луѓето имаат на Фејсбук. Другата е дека некои активности за споделување се префрли на пораки и на конкурентите, како што Snapchat. Во извештајот, исто така, откри неколку тактики Фејсбук се обиде да ја зголеми споделување, вклучувајќи Новости алгоритам измени кои го прават оригинални мислења повеќе истакнати, како и периодични потсетници на оригиналната корисници мислења "На овој ден" пред неколку години. Какви импликации, доколку ги има, дали овие наоди имаат за истражувачите кои сакаат да го користат Фејсбук како извор на податоци?

  10. [ среден ] Tumasjan et al. (2010) објавија дека процентот на твитови спомене една политичка партија се совпаѓа со процентот на гласови што ги добила партијата доби во германските парламентарни избори во 2009 година (Слика 2.9). Со други зборови, се чини дека можете да го користите Твитер да се предвиди на изборите. Во времето на оваа студија беше објавена тоа се смета за крајно возбудлив, бидејќи тоа се чинеше дека укажуваат на највредните користат за заеднички извор на големи податоци.

    Со оглед на лошите сајтови на големи податоци, сепак, треба веднаш да се скептични за овој резултат. Германците на Твитер во 2009 година беа сосема не-претставник на оваа група и симпатизерите на една партија може да чуруликам за политиката почесто. Така, се чини чудно што сите можни предрасуди кои може да се замисли некој начин ќе се поништи. Всушност, резултатите во Tumasjan et al. (2010) испадна да биде премногу добра за да биде вистина. Во нивниот труд, Tumasjan et al. (2010) смета шест политички партии: Демохристијанска партија (ЦДУ), Христијанско социјалната партија (ЦСУ), СПД, либералите (ФДП), левицата (Die Linke) и Партијата на зелените (Grüne). Сепак, повеќето споменати германската политичка партија на Твитер во тоа време беше на Пиратската партија (Piraten), партија која се бори против владините регулирање на интернет. Кога Пиратската партија се вклучени во анализата, Твитер споменува станува страшно индикатор за изборните резултати (Слика 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Слика 2.9: Твитер споменува појави да се предвидат резултатите на германските избори во 2009 година (Tumasjan et al 2010 год.), Но овој резултат излезе да зависи од некои произволно и неосновано избори (Jungherr, Јиргенс, Шоен и 2012 година).

    Слика 2.9: Твитер споменува појави да се предвидат резултатите на германските избори во 2009 година (Tumasjan et al. 2010) , Но овој резултат излезе да зависи од некои произволно и неосновано избори (Jungherr, Jürgens, and Schoen 2012) .

    Потоа, други истражувачи од целиот свет го користи познавач методи, како што се користење на чувство анализа да се направи разлика помеѓу позитивните и негативните споменува од страните-со цел да се подобри способноста на податоци Твитер да се предвиди различни видови на избори (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Еве како Huberty (2015) се сумираат резултатите од овие обиди да се предвиди избори:

    "Сите познати методите за прогнозирање врз основа на социјалните медиуми не успеаја кога предмет на барањата на вистински изборен прогнозирање прогресивен. Овие грешки се чини дека се должи на основните својства на социјалните медиуми, наместо да се методолошки и алгоритамски проблеми. На кратко, социјалните медиуми не се направи, и веројатно никогаш нема да, нудат стабилен, независен, репрезентативна слика на избирачите; и погодност примероци на социјалните медиуми немаат доволно податоци за да го надминете овие проблеми пост хок ".

    Прочитајте некои од истражувања кои водат Huberty (2015) до тој заклучок, и напишете белешка на една страна на политички кандидат опишувајќи дали и како Твитер треба да се користи да се предвиди избори.

  11. [ среден ] Што е разликата помеѓу социолог и историчар? Според Goldthorpe (1991) , главната разлика помеѓу социолог и историчар е контрола над собирање на податоци. Историчарите се принудени да ги користат остатоци при што социолозите да се прилагоди на својата колекција податоци за специфични намени. Прочитај Goldthorpe (1991) . Како е разликата помеѓу социологијата и историјата во врска со идејата за Custommades и Readymades?

  12. [ тешко ] Градење на претходното прашање, Goldthorpe (1991) го привлече голем број на критични реакции, вклучувајќи и еден од Ники Харт (1994) , кој предизвикал посветеност Goldthorpe за наменска податоци. За да се разјаснат потенцијални ограничувања на наменска податоци, Харт го опиша Богатите проект работник, голем анкета за мерење на односот помеѓу социјалната класа и со право на глас, која беше спроведена од страна на Goldthorpe и неговите колеги во средината на 1960-тите. Како што може да се очекува од еден научник кој фаворизира дизајниран податоци преку најдат податоци, богатите проект работник собираат податоците што се направени за да се обрати на неодамна предложи теорија за иднината на социјалните класа во ерата на зголемување на животниот стандард. Но, Goldthorpe и колеги некако "заборавија" да се соберат информации за однесувањето на глас на жените. Еве како Ники Харт (1994) резиме на целата епизода:

    ". . . тоа [е] тешко да се избегне заклучокот дека жените се изоставени, бидејќи овој "наменска" базата беше ограничена од страна на некој парадигматичен логика, која исклучени женски искуство. Управувано од теоретска визија на класната свест и акција како машки преокупации. . . , Goldthorpe и неговите колеги се изгради сет на емпириски докази кои се хранат и негуваат своите теоретски претпоставки, наместо да ги изложат на валиден тест за адекватност. "

    Харт продолжи:

    "На емпириските наоди на богатите работник проектот ни кажете нешто повеќе за masculinist вредности на социологијата средината на овој век отколку што информира процесот на раслојување, политиката и материјалниот живот."

    Можете да мислам на други примери каде колекција наменска податоци има предрасуди на податоци колектор вградени во него? Како го прави ова се споредуваат со алгоритамски изненадувачките? Какви импликации би можело тоа да се има за кога истражувачите треба да се користи Readymades и кога тие треба да се користи Custommades?

  13. [ среден ] Во ова поглавје, јас контраст податоците собрани од страна на истражувачите на истражувачите со административни записи создадени од страна на компаниите и владите. Некои луѓе го нарекуваат овие административни извори "се најде на податоци", кои се во спротивност со "наменета податоци." Точно е дека административни записи се пронајдени од страна на истражувачите, но тие се исто така многу дизајниран. На пример, модерни технолошки компании трошат огромни количини на време и ресурси за да се соберат и згрижувањето на нивните податоци. Така, овие административни извори се наоѓаат и дизајнирани, тоа само зависи од вашата перспектива (Слика 2.10).

    Слика 2.10: Сликата е и патка и зајакот; она што го гледате тоа зависи од вашата перспектива. Владата и бизнис административни извори се наоѓаат и наменети; она што го гледате тоа зависи од вашата перспектива. На пример, евиденција повик податоци собрани од страна на мобилен телефон на компанијата се наоѓаат податоците од гледна точка на еден истражувач. Но, овие исти податоци се дизајнирани перспектива податоци на некој кој работи во одделот за наплата на телефонска компанија. Извор: Заедничката Ризница

    Слика 2.10: Сликата е и патка и зајакот; она што го гледате тоа зависи од вашата перспектива. Владата и бизнис административни извори се наоѓаат и наменети; она што го гледате тоа зависи од вашата перспектива. На пример, евиденција повик податоци собрани од страна на мобилен телефон на компанијата се наоѓаат податоците од гледна точка на еден истражувач. Но, овие исти податоци се дизајнирани перспектива податоци на некој кој работи во одделот за наплата на телефонска компанија. Извор: Заедничката Ризница

    Да бидат пример за извор на податоци каде што се гледаат и како се најде и дизајниран е корисно кога се користи дека извор на податоци за истражување.

  14. [ лесно ] Во внимателен есеј, Кристијан Sandvig и Естер Hargittai (2015) опишуваат два вида на дигитални истражување, каде што на дигиталниот систем е "инструмент", или "цел на студијата." Еден пример на првиот тип на студии, е местото каде што Bengtsson и колеги (2011) се користи мобилен телефон податоци за следење на миграција по земјотресот во Хаити во 2010 година Еден пример на вториот вид е местото каде што Jensen (2007) студии како воведувањето на мобилни телефони во текот на Керала, Индија влијаат на функционирањето на пазарот за риби. Сметам дека ова корисно затоа што појаснува дека студиите со користење на дигитални извори на податоци може да имаат сосема различни цели, дури и ако тие се со користење на ист вид на извор на податоци. Со цел дополнително да го појасни оваа разлика, опис на четири студии кои сте виделе: две кои користат дигитален систем како инструмент и две кои користат дигитален систем како предмет на проучување. Можете да ги користите примери од оваа глава, ако сакате.