aktivnosti

  • степен тешкоће: једноставно лако , средња средња , тешко тешко , Веома тешко Веома тешко
  • захтева математику ( захтева математику )
  • захтева кодирање ( захтева кодирање )
  • прикупљање података ( прикупљање података )
  • моји фаворити ( моје омиљено )
  1. [ средња , моје омиљено ] Алгоритамски збуњивање је био проблем са Гоогле Флу Трендс. Прочитајте чланак Lazer et al. (2014) , и напишите кратку, јасну поруку е-маил инжењеру на Гоогле-у објашњавајући проблем и нудећи идеју како то поправити.

  2. [ средња ] Bollen, Mao, and Zeng (2011) тврде да се подаци из Твиттер-а могу користити за предвиђање берзе. Овај налаз је довео до стварања хедге фонда-Дервент Цапитал Маркетс-улагања на берзу на основу података прикупљених од Твиттера (Jordan 2010) . Који доказ желите да видите пре него што ставите свој новац у тај фонд?

  3. [ лако ] Док неки заговорници јавног здравља сматрају да е-цигарете представљају ефикасну помоћ за прекид пушења, други упозоравају на потенцијалне ризике, попут високог нивоа никотина. Замислите да истраживач одлучи да проучава јавно мњење према е-цигаретама прикупљањем тикетских постова везаних за е-цигарете и вршењем анализе расположења.

    1. Које су три могуће предрасуде за које сте највише забринути у овој студији?
    2. Clark et al. (2016) водила само такву студију. Прво су прикупили 850.000 твеетова који су користили кључне речи везане за е-цигарете од јануара 2012. до децембра 2014. Након ближе инспекције, схватили су да су многи од ових твеетова аутоматизовани (тј. Не произведени од стране људи), а многи од тих аутоматизованих твеетова су у суштини рекламе. Развили су алгоритам за детекцију људи како би раздвојили аутоматске твеетове из органских твеетова. Користећи овај алгоритам откривања људских података, открили су да је 80% твеетова аутоматизовано. Да ли овај налаз мења ваш одговор на део (а)?
    3. Када су упоређивали осећања у органским и аутоматизованим твеетовима, утврдили су да су аутоматизирани твеети били позитивнији од органских твеетова (6,17 наспрам 5,84). Да ли овај закључак мења ваш одговор на (б)?
  4. [ лако ] У новембру 2009, Твиттер је промијенио питање у твеет бок-у од "Шта радиш?" До "Шта се догађа?" (Хттпс://блог.твиттер.цом/2009/вхатс-хаппенинг).

    1. Како мислите да ће промена упита утицати на то ко твеетс и / или шта твеетује?
    2. Назовите један истраживачки пројекат, за који бисте више волели "Шта радите?" Објасните зашто.
    3. Назовите један истраживачки пројекат за који бисте волели да се упита "Шта се догађа?" Објасните зашто.
  5. [ лако ] "Ретвеетс" се често користе за мерење утицаја и ширења утицаја на Твиттер. У почетку су корисници морали копирати и налепити твеет који им се допао, означити оригинални аутора са његовом дршком и ручно укуцати "РТ" прије твеет-а како би указао да је то ретвеет. Затим, 2009. године, Твиттер је додао "ретвеет" дугме. У јуну 2016. године, Твиттер је омогућио корисницима да ретекују своје твеетове (хттпс://твиттер.цом/твиттер/статус/742749353689780224). Да ли мислите да би те промене требало да утичу на то како користите "ретвеете" у вашем истраживању? Зашто или зашто не?

  6. [ Веома тешко , прикупљање података , захтева кодирање , моје омиљено ] У једном широком расправљеном раду, Мицхел и колеге (2011) анализирали су садржај више од пет милиона дигитализованих књига у покушају да идентификују дугорочне културне трендове. Подаци које су користили сада су објављени као скуп података за Гоогле НГрамс, тако да можемо користити податке да би поновили и продужили део свог рада.

    У једном од многих резултата у раду, Мицхел и колеге тврде да заборављамо брже и брже. За одређену годину, кажу "1883", израчунали су проценат 1-грамова који су објављени сваке године између 1875. и 1975. године који су били "1883". Размишљали су да је овај проценат мерила интересовања за догађаје који су се догађали у тој години. На својој слици 3а, планиране су за три године: 1883, 1910, и 1950. Ове три године имају заједнички узорак: мала употреба пре те године, затим спике, а затим пропадање. Затим, да би се квантифицирала стопа распадања за сваку годину, Мицхел и колеге су израчунали "полу-живот" сваке године за све године између 1875. и 1975. године. На њиховој слици 3а (уложак) показали су да полуживот сваког година се смањује и они су тврдили да то значи да забрињавамо прошлост брже и брже. Користили су верзију 1 енглеског корпуса, али је Гоогле накнадно објавио другу верзију корпуса. Молимо прочитајте све делове питања пре него што почнете са кодирањем.

    Ова активност ће вам омогућити да пишете вишекратни код, интерпретирате резултате и размењујете податке (као што је рад са неугодним датотекама и руковање мањком података). Ова активност ће вам такође помоћи да устанете и покренете са богатим и занимљивим скупом података.

    1. Добијте необрађене податке са веб локације НГрам Виевер Гоогле Боокс. Конкретно, требало би да користите верзију 2 енглеског корпуса, који је објављен 1. јула 2012. године. Некомпресован, ова датотека је 1.4ГБ.

    2. Обновите главни део слике 3а Michel et al. (2011) . Да бисте поново креирали ову цифру, требат ће вам два фајла: она коју сте преузели у делу (а) и датотеку "тотал цоунтс", коју можете користити за претварање сирових бројева у пропорције. Имајте на уму да укупна датотека бројака има структуру која можда отежава читање. Да ли верзија 2 НГрам података даје сличне резултате онима приказаним у Michel et al. (2011) , који се заснивају на подацима из верзије 1?

    3. Сада проверите свој графикон на графикону који је направио НГрам Виевер.

    4. Поново окупите слику 3а (главна фигура), али промените \(y\) -акис као сиров број споменутих (не стопа помињања).

    5. Да ли разлика између (б) и (д) доводи до преиспитивања било ког резултата Мицхела и осталих. (2011). Зашто или зашто не?

    6. Сада, користећи проценат помена, поновите урезак са слике 3а. То јест, за сваку годину између 1875. и 1975. године израчунати полу-живот те године. Полу-живот се дефинише као број година који пролазе пре него што удио помирења достигне половину своје максималне вредности. Имајте на уму да је Michel et al. (2011) учинити нешто компликованије да процене полу-живот-види део ИИИ.6 подршке онлајн информације - али они тврде да оба приступа производе сличне резултате. Да ли верзија 2 НГрам података даје сличне резултате онима представљеним у Michel et al. (2011) , који се заснивају на подацима из верзије 1? (Савет: Не буди изненађен ако не.)

    7. Да ли је било година које су биле изванредне, као што су године које су заборављене нарочито брзо или посебно споро? Укратко шпекулирајте о могућим разлозима за тај образац и објасните како сте идентификовали изванредне.

    8. Сада поновите овај резултат за верзију 2 података НГрамса на кинеском, француском, немачком, хебрејском, италијанском, руском и шпанском језику.

    9. Поредећи на свим језицима, било је година које су биле изванредне, као што су године које су заборављене нарочито брзо или посебно споро? Укратко шпекулирајте о могућим разлозима за тај образац.

  7. [ Веома тешко , прикупљање података , захтева кодирање , моје омиљено ] Penney (2016) истраживао да ли широко распрострањени публицитет о надзору НСА / ПРИСМ (тј. Открића Сновден-а) у јуну 2013. године повезује са оштрим и наглим смањењем промета са чланака из Википедије о темама које покрећу приватност. Ако је тако, ова промена у понашању би била у складу са хладним ефектом који је резултат масовног надзора. Приступ Penney (2016) се понекад назива прекидом дизајна временских серија и односи се на приступ описан у одељку 2.4.3.

    Да би одабрали кључне речи о теми, Пеннеи се помиње на листи коју користи Министарство за унутрашњу безбедност САД-а за праћење и праћење друштвених медија. Списак ДХС-а категоризује одређене појмове претраживања у низу питања, тј. "Забрињавање здравља", "Безбедност инфраструктуре" и "Тероризам". За студијску групу, Пеннеи је користила 48 кључних ријечи у вези са "Тероризмом" (види прилог табелу 8 ). Он је затим збирао бројеве чланака из Википедије чланака на месечном нивоу за одговарајуће 48 чланака из Википедије у периоду од 32 месеца, од почетка јануара 2012. године до краја августа 2014. године. Да би ојачао свој аргумент, он је такође креирао неколико упоредних група праћењем чланак о другим темама.

    Сада ћете репродуцирати и продужити Penney (2016) . Сви сирови подаци који су вам потребни за ову активност доступни су на Википедији. Или га можете добити из Р-пакета википедиатренд (Meissner and R Core Team 2016) . Када напишете своје одговоре, имајте на уму који извор података сте користили. (Имајте на уму да се ова иста активност појављује иу поглављу 6.) Ова активност ће вам пружити вежбање у размјени података и размишљању о природним експериментима у великим изворима података. Такође ће вас покренути и покренути са потенцијално интересантним изворима података за будуће пројекте.

    1. Прочитајте Penney (2016) и поновите његову слику 2 која приказује приказе страница за странице "Тероризам" пре и после открића Сновден-а. Интерпретирајте налазе.
    2. Затим поновите слику 4А, која упоређује студијску групу (чланове о тероризму) са групом упоређивача користећи кључне ријечи категорисане под "ДХС & Остале агенције" са листе ДХС (погледајте прилог табела 10 и фусноте 139). Интерпретирајте налазе.
    3. У делу (б) упоређивали сте студијску групу са једном компараторном групом. Пеннеи је такође упоређивала са још двије групе упоређивача: чланци везани за "Безбедност инфраструктуре" (додатак табела 11) и популарне Википедиа странице (додатак табела 12). Изнесите алтернативну групу за упоређивање и проверите да ли су налази из дијела (б) осетљиви на ваш избор групе упоредних. Који избор има највише смисла? Зашто?
    4. Пеннеи је изјавио да су кључне ријечи везане за "тероризам" кориштене за одабир чланака из Википедије јер је америчка влада цитирала тероризам као кључно оправдање за своје онлајн праксе надзора. Као проверу 48 кључних кључних ријечи о тероризму, Penney (2016) такођер спровела истраживање о МТурк-у, тражећи од испитаника да оцјењују сваку од кључних ријечи у смислу владиних проблема, осјетљивости на приватност и избјегавања (табела 7 и 8 ). Поновите анкету на МТурк и упоредите резултате.
    5. На основу резултата у делу (д) и вашем читању чланка, да ли се слажете са Пеннеиовим избором кључних тема у студијској групи? Зашто или зашто не? Ако не, шта бисте предложили уместо тога?
  8. [ лако ] Efrati (2016) је, на основу повјерљивих информација, извијестио да је "укупно дијељење" на Фацебоок-у опало за око 5,5% годишње, док је "изворна емисија" забиљежила пад од 21% годишње. Овај пад је нарочито био акутан код корисника Фацебоок-а испод 30 година. Извештај приписује пад два фактора. Један је раст броја "пријатеља" људи на Фацебооку. Друга је чињеница да се неке активности дељења пребацују на поруке и такмичаре као што је Снапцхат. У извештају се такође открило неколико тактике које је Фацебоок покушао да подстакне размену, укључујући и алгоритам за алате који садрже изворне постове, као и периодичне подсјетнике на оригиналне постове с функцијом "На овај дан". Које импликације, ако их постоје, имају ти налази за истраживаче који желе користити Фацебоок као извор података?

  9. [ средња ] Која је разлика између социолога и историчара? Према Голдтхорпе (1991) , главна разлика је контрола прикупљања података. Историчари су приморани да користе реликвије, док социолози могу прилагодити њихово прикупљање података у одређене сврхе. Прочитајте Goldthorpe (1991) . Како је разлика између социологије и историје повезана са идејом о куповини и реадимадес?

  10. [ тешко ] Ово се заснива на претходном питању. Goldthorpe (1991) прикупио је низ критичних одговора, укључујући један од Ницки Харт (1994) који је изазвао Голдтхорпеову посвећеност прилагођеним подацима. У циљу разјашњавања потенцијалних ограничења појединих података, Харт је описао пројекат Аффлуент Воркер, велико истраживање за мерење односа између друштвене класе и гласања које је спровео Голдтхорпе и колеге средином 1960-их. Као што се могло очекивати од научника који је фаворизовао дизајниране податке над пронађеним подацима, Пројекат Аффлуент Воркер прикупио је податке који су прилагођени да се баве недавно предложеном теоријом о будућности друштвене класе у доба повећања животног стандарда. Али, Голдтхорпе и колеге су некако "заборавили" да прикупе информације о гласачком понашању жена. Ево како је Ницки Харт (1994) резимирао целу епизоду:

    "... тешко је избјећи закључак да су жене изостављене, јер је тај" прилагођен "скуп података дат ограниченом парадигматичном логиком која искључује женско искуство. Погађена теоријском визијом класне свесности и акције као мушке преокупације ..., Голдтхорпе и његове колеге конструисали су скуп емпиријских доказа који су хранили и неговали сопствене теоријске претпоставке уместо да их излажу валидном тесту адекватности. "

    Харт наставио:

    "Емпиријски налази Пројекта богатог радника говоре нам више о маскулинистичким вриједностима социологије средовезвора него што информишу процесе стратификације, политике и материјалног живота".

    Да ли можете да размислите о другим примерима у којима је прилагођено сакупљање података у себи уграђено збирке података? Како се ово упоређује са алгоритмичким збуњењем? Које импликације могу имати када истраживачи треба да користе реадимадес и када треба да користе цустоммадес?

  11. [ средња ] У овом поглављу, упоређивао сам податке које су истраживачи сакупљали истраживачима са административним подацима које су створиле компаније и владе. Неки људи називају ове административне податке "утврђеним подацима", који су у супротности са "пројектованим подацима". Тачно је да административне податке пронађу истраживачи, али су такође високо дизајнирани. На пример, модерне технолошке компаније веома напорно раде на прикупљању и цурирању својих података. Дакле, ове административне евиденције су пронађене и пројектоване, само зависи од ваше перспективе (слика 2.12).

    Слика 2.12: Слика је и патка и зец; оно што видите зависи од ваше перспективе. Велики извори података су пронађени и пројектовани; опет, оно што видите, зависи од ваше перспективе. На пример, подаци о позиву података прикупљени од компаније за мобилне телефоне налазе се подаци из перспективе истраживача. Али, ове исте записе су дизајнирани подаци из перспективе неког ко ради на одељењу за обрачун у телефонској компанији. Извор: Популар Сциенце Монтхли (1899) / Викимедиа Цоммонс.

    Слика 2.12: Слика је и патка и зец; оно што видите зависи од ваше перспективе. Велики извори података су пронађени и пројектовани; опет, оно што видите, зависи од ваше перспективе. На пример, подаци о позиву података прикупљени од компаније за мобилне телефоне налазе се подаци из перспективе истраживача. Али, ове исте записе су дизајнирани подаци из перспективе неког ко ради на одељењу за обрачун у телефонској компанији. Извор: Популар Сциенце Монтхли (1899) / Викимедиа Цоммонс .

    Наведите примјер извора података гдје је видјети га и како је пронађено и дизајнирано је корисно када користите тај извор података за истраживање.

  12. [ лако ] У пажљивом есеју, Цхристиан Сандвиг и Есзтер Харгиттаи (2015) поделили су дигитална истраживања у две широке категорије у зависности од тога да ли је дигитални систем "инструмент" или "предмет студирања". Пример првог типа - где је систем инструмент - истраживање Бенгтсона и колега (2011) о коришћењу података о мобилном телефону за праћење миграција након земљотреса на Хаитију 2010. године. Пример другог типа - где је систем предмет студирања - истражује Јенсен (2007) о томе како је увођење мобилних телефона широм Керала, Индије утицало на функционисање тржишта за рибу. Сматрам да је ова разлика корисна јер објашњава да студије које користе дигиталне изворе података могу имати сасвим различите циљеве чак и ако користе исти извор података. Да бисте додатно појаснили ову разлику, опишите четири студије које сте видели: два која користе дигитални систем као инструмент и два која користе дигитални систем као предмет студирања. Ако желите, можете користити примере из овог поглавља.