aktivnosti

Овај превод је креиран од стране рачунара. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

aktivnosti

кеи:

степен тежине: лако , средњи , тешко , Веома тешко
захтева математику ( $захтева математику$ )
захтева кодирање ( )
прикупљање података ( )
моји фаворити ( )

[ , ] Алгоритамска збуњујући је проблем са Гоогле грипа. Читао новине по Lazer et al. (2014) , и да пише кратке, јасне емаил инжењер у Гоогле-у објашњава проблем и нуди идеју како да решите проблем.
[ ] Bollen, Mao, and Zeng (2011) да се подаци из Твиттер може користити за предвиђање на берзи. Овај налаз је довело до стварања хеџ фонд-Дервент Цапитал Маркетс-да инвестирају на берзи на основу података прикупљених из Твиттер (Jordan 2010) . Који докази да желите да видите пре него што новац у том фонду?
[ ] Док су неки јавно здравље заговорници хаил е-цигарете као ефикасно помоћ за одвикавање од пушења, други упозоравају о потенцијалним ризицима, као што је на високом нивоу никотина. Замислите да истраживач одлучује да студира јавног мњења према е-цигарете за прикупљање е-цигарете везане за поруке Твиттер и спровођење анализе сентимент.
1. Које су три могућа предрасуде које су највише забринути у овој студији?
2. Clark et al. (2016) само такву студију. Прво, они прикупљени 850.000 твитова који користе Е-цигарета се односе на кључне речи од јануара 2012. до децембра 2014. Након ближе инспекције, схватили су да су многи од тих твитова су аутоматизовано (тј, не производи људи) и многи од ових аутоматских твитова су у суштини рекламе. Они су развили детекције алгоритам Хуман одвојити аутоматизованих твеетс од органских твитова. Користећи овај Људски Детецт Алгоритам су открили да 80% од твитова су аутоматизовано. Да ли ово откриће променити свој одговор на дела (а)?
3. Када су у односу на осећање у органским и аутоматским твитова су открили да су аутоматизовани твитови су више позитивних него органских твитова (6,17 наспрам 5,84). Да ли ово откриће променити свој одговор на (б)?
[ ] У новембру 2009. године, Твиттер променио питање у твеет кутији од "Шта радиш?" У "Шта се дешава?" (Хттпс://блог.твиттер.цом/2009/вхатс-хаппенинг).
1. Како мислите промена говорних порука ће утицати на који твеет и / или шта твеет?
2. Име једног истраживачки пројекат за који би желели одзив "Шта то радиш?" Објасни зашто.
3. Име једног истраживачки пројекат за који би желели упит "Шта се дешава?" Објасни зашто.
[ ] Kwak et al. (2010) 41,7 милиона корисничких профила, 1,47 милијарди друштвене односе, 4262 у тренду теме и 106 милиона твеет између 6. јуна и 31. јуна 2009. године На основу ове анализе су закључили да Твиттер служи више као нови медиј размене информација него друштвена мрежа.
1. С обзиром Квак ет ал је налаз, који тип истраживања би урадио са Твиттер подацима? Која врста истраживања би не са Твиттер подацима? Зашто?
2. У 2010. години, додао Твиттер А Вхо То Фоллов услугу израде по мери предлог за кориснике. Три препоруке су приказани у једном тренутку на главној страници. Препоруке су често извући из нечијих "фриендс-оф-пријатељима", а међусобни контакти су такође приказани у препоруци. Корисници могу освежити да види нови сет препорука или посетите страницу са дужи списак препорука. Да ли мислите да ова нова функција ће променити ваш одговор на део а)? Зашто или зашто не?
3. Su, Sharma, and Goel (2016) ефекат Ко То Фоллов сервис и установили да корисници широм популарности спектра користи од препорука, најпопуларнији корисници профитирали знатно више од просека. Да ли ово откриће променити свој одговор на део Б)? Зашто или зашто не?
[ ] "Ретвеетс" често се користе за мерење утицаја и ширења утицаја на Твиттер. У почетку, корисници су морали да копирате твеет им се свиђа, означите оригиналног аутора са његовом / њеном дршком, и ручно укуцајте "РТ" пре твеет да укаже да је то Ретвеет. Затим, у 2009 Твиттер додао дугме "ретвеет". У јуну 2016, Твитер је омогућило корисницима да ретвеет своје твеетс (хттпс://твиттер.цом/твиттер/статус/742749353689780224). Да ли мислите да ове промене би требало да утичу на то како да користите "Ретвеетс" у свом истраживању? Зашто или зашто не?
[ , , ] Michel et al. (2011) корпус враћа из Гоогле-овог напора да дигитализује књиге. Користећи прву верзију корпуса, која је објављена 2009. године и који се налази преко 5 милиона дигитализованих књига, аутори анализирају реч коришћење фреквенције да истражи језичке промене и културне трендове. Ускоро Гоогле Књиге Корпус постао популаран извор података за истраживаче, а 2. верзија базе података је објављен 2012. године.

Међутим, Pechenick, Danforth, and Dodds (2015) је да истраживачи морају да у потпуности карактеришу процес узорковања на корпуса пре употребе за израду широке закључака. Главно питање је да корпус је библиотека налик, који садржи једну од сваке књиге. Као резултат тога, појединца, плодан аутор је у стању да приметно убаците нове фразе у Гоогле Боокс лексикона. Штавише, научни текстови представљају све суштинске део корпуса током 1900-тих година. Поред тога, поређењем две верзије енглеског Фицтион скупова података, Пецхеницк ет ал на. фоунд доказ да довољно филтрирање је коришћен у изради прву верзију. Сви подаци који су потребни за активности је доступан овде: хттп://стораге.гооглеапис.цом/боокс/нграмс/боокс/датасетсв2.хтмл
1. У Мицхел ет ал. Оригиналном папиру (2011) , они су користили 1. верзију сета података енглеског, приказао учесталост употребе година "1880.", "1912" и "1973", и закључио да "смо заборављајући прошлост брже са сваком годином "(Сл. 3А, Мишел и др.). Поновити исту радњу користећи 1) 1. верзију корпуса, енглеском података (исто као рис. 3А, Мицхел ет ал.)
2. Сада поновити исту радњу са 1. верзији, енглески фикција података.
3. Сада поновити исту радњу са 2 верзије корпуса, енглески података.
4. Коначно, понови исти заплет са 2 верзије, енглески фикција података.
5. Описати разлике и сличности између ова четири парцеле. Да ли се слажете са Мицхел ет ал. Оригиналном тумачењу посматраног тренда? (Хинт: ц) и д) треба да буде исти као Слици 16 у Пецхеницк ет ал).
6. Сада када сте реплицирао ову једну констатацију користећи различите Гоогле Боокс корпусе, изаберите неку другу језичку промену или културних феномена представљен у Мицхел ет ал. Оригиналном папиру. Да ли се слажете са њиховим тумачењем у светлу ограничења представљених у Пецхеницк и др.? Да би ваш аргумент јачи, покушајте понови исти граф користећи различите верзије скупа података као горе.
[ , , , ] Penney (2016) да ли је распрострањен публицитет о НСА / ПРИСМ надзор (тј Сновден Ревелатионс) у јуну 2013. је повезује са оштрим и нагли пад у саобраћају на чланке из Википедије на теме које подижу забринутост у погледу приватности. Ако је тако, ова промена у понашању ће бити у складу са негативан ефекат услед масовног надзора. Приступ Penney (2016) понекад назива прекида дизајн време серије и односи се приступа у поглављу о приближавању експерименте са посматрачким подацима (одељак 2.4.3).

Да изаберете тему кључне речи, Пени из листе користи УС Департмент оф Хомеланд Сецурити за праћење и надгледање друштвене медије. Листа ДЗИ категоризује одређене термине за претрагу у низу питања, односно "здравствени проблем", "Инфраструктура безбедности," и "тероризам". За студијске групе, Пени користе се четрдесет осам кључних речи везаних за "тероризам" (види табелу 8 Додатак). Он је затим сакупљају Википедиа артицле виев цоунтс на месечном нивоу за одговарајуће четрдесет осам Википедиа чланака у периоду од тридесет два месеца, од почетка јануара 2012. до краја августа 2014. У циљу јачања своје аргументе, он је створио неколико поређење групе за праћење Погледи Члан на друге теме.

Сада, ти ћеш да реплицира и прошири Penney (2016) . Све сирови подаци који вам треба за ову активност је доступан од Википедиа (хттпс://думпс.викимедиа.орг/отхер/пагецоунтс-рав/~~ХЕАД=побј). Или га можете добити од: Р пакета википедиатренд (Meissner and Team 2016) . Када пишете уп ваше одговоре, имајте на уму који извор података сте користили. (Напомена: Овај исти активност се такође појављује у Поглављу 6)
1. Реад Penney (2016) понове Слика 2 који показује приказа страница за "тероризам" Трансакције с повезаним странама пре и после Сновден откровења. Тумаче налазе.
2. Следеће, реплицирати Фиг 4А, у поређењу студијску групу ( "тероризам" Трансакције с повезаним чланака) са којим се упоређује групом коришћењем кључних речи категорисани под "ДХС и других агенција" из листе ДХС (види Додатак Табела 10). Тумаче налазе.
3. У делу Б) упоредили студијску групу на један упоређује групи. Пени је у односу на друга два упоредбе групе: "Инфраструктура сигурности" Трансакције с повезаним чланцима (Табела 11) и популарне Википедиа страница (Табела 12). Смислити алтернативни упоређује групе, а проверили да ли су резултати из Дела Б) је осетљив на свој избор упоређује групе. Који избор упоређује групе има највише смисла? Зашто?
4. Аутор је навео да су кључне речи које се односе на "тероризам" користи за избор Википедиа чланке, јер је америчка влада наводи тероризам као кључни оправдање за своје онлајн пракси надзора. Као провјеру ових 48 "тероризам" Трансакције с повезаним кључним речима, Penney (2016) такође спровео истраживање о МТурк тражи од испитаника да оцијени сваки од кључних речи у погледу Владе Троубле, приватност слова, и избегавању (Прилог табели 7 и 8). Поновити анкете о МТурк и упоредите резултате.
5. На основу резултата у делу Д) и читањем текста, да ли се слажете са ауторовом избору тема кључних речи у студијској групи? Зашто или зашто не? Ако не, шта би уместо тога предлажемо?
[ ] Efrati (2016) на основу поверљивих информација, да "укупна дељење" на Фацебоок-у опао за око 5,5% годишње током године, а "Оригинал размена емисија" пао 21% у односу на претходну годину. Овај пад је нарочито изражен са Фацебоок корисницима испод 30 година старости. У извештају се приписује пад за два фактора. Једна је раст броја "пријатеља" људи имају на Фацебоок. Други је да нека активност дељење је прешла у порукама и на конкуренте као што су Снапцхат. У извештају се такође открила неколико тактику на Фацебоок су покушали да повећају размену, укључујући Невс Феед алгоритма Твеакс које чине оригиналне поруке израженија, као и периодичне подсетнике оригиналних поруке корисника "На овај дан" пре неколико година. Какве импликације, ако постоје, да ли ови налази имају за истраживаче који желе да користе Фацебоок као извор података?
[ ] Tumasjan et al. (2010) да је део твеет спомињу политичку странку упарен проценат гласова та странка примљена у немачком парламентарним изборима у 2009. години (слика 2.9). Другим речима, чинило се да бисте могли користити Твиттер предвидети изборе. У вријеме када је ова студија објављена је сматра изузетно узбудљив, јер је изгледало да предложи вредан користи за заједнички извор великих података.

С обзиром на лоше особине великих података, међутим, требало би одмах да буде скептичан овог резултата. Немци на Твиттер у 2009. години прилично не-репрезентативна група, и присталица једне стране можда чешће твеет о политици. Тако, изгледа изненађујуће да би све могуће предрасуде које сте могли замислити некако отказати. У ствари, резултати у Tumasjan et al. (2010) се да је сувише добро да би било истинито. У свом раду, Tumasjan et al. (2010) шест политичких странака: Цхристиан демократе (ЦДУ), Кристијан социјалдемократе (ЦСУ), СПД, либерали (ФДП), лева (Дие Линке), и Странка зелених (Груне). Међутим, најчешће се помињу немачка политичка странка на Твиттер је у то време био Пиратска партија (Пиратен), странка која се бори одлуке владе Интернета. Када је Пиратска партија укључене у анализу, Твиттер помиње постаје страшан предиктор изборних резултата (слика 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Слика 2.9: Твиттер помиње Изгледа да предвиди резултате немачке изборе 2009. године (Tumasjan et al. 2010) , Али овај резултат испостави да зависи од неких произвољних и неоправданих избора (Jungherr, Jürgens, and Schoen 2012) .

Након тога, други истраживачи широм света користе одгајивач методе-као што анализом сентимент да се направи разлика између позитивне и негативне помиње странака-како би се побољшала способност Твиттер података да предвиди низ различитих врста избора (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ево како Huberty (2015) је резултате ових покушаја да предвиђам изборе:

"Све познате методе предвиђања заснивају на друштвеним медијима нису, када се подвргне захтевима правог будућност изборне прогнозе. Ови пропусти изгледа да услед фундаменталних својстава друштвених медија, а не да се методолошким или алгоритамским тешкоћа. Укратко, друштвени медији не, и вероватно никада неће понудити стабилно, непристрасно, репрезентативна слика бирачког тела; и узорци погодност друштвених медија немају довољно података за фиксирање ови проблеми пост хоц. "

Реад нека истраживања која је довела Huberty (2015) тог закључка, и написати једну страницу мемо политички кандидат описује да ли и како Твиттер треба користити за предвиђање избора.
[ ] Која је разлика између социолога и историчара? Према Голдтхорпе (1991) , главна разлика између социолог и историчар је контрола над прикупљања података. Историчари су принуђени да користе мошти, док социолози могу да прилагоде своју прикупљање података за одређене намене. Реад Goldthorpe (1991) . Како је разлика између социологије и историје у вези са идејом Цустоммадес и Реадимадес?
[ ] Ослањајући се на претходно питање, Goldthorpe (1991) велики број критичких одговора, укључујући и један од Ницки Харт (1994) , са којим се Голдтхорпе је оданост таилор маде података. Да се разјасне потенцијална ограничења података таилор-маде оф Харт описао богатом Воркер Пројецт, велико истраживање за мерење однос између друштвене класе и гласања које је спровела Голдтхорпе и колеге средином 1960-их. Као што се могло очекивати од научника који су били за дизајнирао податке преко пронађеним подацима, богатом радник пројекта прикупљени су подаци који су прилагођени да се обрати недавно је предложио теорију о будућности друштвене класе у ери повећања животног стандарда. Али, Голдтхорпе и колеге некако "заборавио" да се прикупе информације о понашању гласа жена. Ево како Ники Харт (1994) цео епизода:

". . . то [је] тешко избећи закључак да су жене пропустио, јер ово 'таилор маде' скуп података је ограничена од стране парадигматског логике која искључује женског искуства. Вођен теоријски визијом класне свести и акције као мушких преокупација. . . , Голдтхорпе и његове колеге изграђен скуп емпиријских доказа који се хране и створило своје теоријске поставке, уместо да их изложе валидан тест адекватности. "

Харт наставио:

"Тхе емпиријски налази на работникот пројекта богатим нам рећи нешто више о мушких вредности социологије средином века него што обавести процесе раслојавање, политике и материјалног живота."

Можете ли се сетити других примера где колекција прилагођени подаци има предрасуде на прикупљање података уграђена у њега? Како се то упореди са алгоритмическој мешовити? Какве импликације би ово имати када истраживачи треба да користе Реадимадес и када би требало да користе Цустоммадес?
[ ] У овом поглављу, у супротности и податке прикупљене од стране истраживача за истраживача са административним подацима креираних од стране компаније и владе. Неки људи зову ови административни документи "фоунд податке", које су у контрасту са "дизајнираним подацима." Тачно је да су административни рецордс фоунд истраживачи, али су такође високо дизајнирани. На пример, модерне технологије компаније троше огромне количине времена и средстава за прикупљање и парох своје податке. Тако, ове административне евиденције су оба наћи и дизајниран, то само зависи од ваше перспективе (слика 2.10).

Слика 2.10: Слика је и патка и зец; оно што видите зависи од перспективе. Влада и пословне административне евиденције се и наћи и дизајнирани; оно што видите зависи од перспективе. На пример, записи су подаци позив прикупљени од стране мобилног телефона фирме налазе се подаци из перспективе истраживача. Али, ови Потпуно исти записи су намењени перспективу података неко ради у одељењу наплате у телефонској компанији. Извор: Викимедиа Цоммонс

Пружити пример извор података где се види и као наћи и дизајниран је корисно када се користи тај извор података за истраживање.
[ ] У замишљен есеју, Кристијан Сандвиг и Естер Харгиттаи (2015) две врсте дигиталног истраживања, где је дигитални систем је "инструмента" или "предмет истраживања." Пример прве врсте студија је где Бенгтссон је и колеге (2011) податке мобилних телефона да прате миграције након земљотреса на Хаитију у 2010. години primer друге врсте је место где Џенсен (2007) како је увођење мобилних телефона током Керала, Индија утицали на функционисање тржишта за рибе. Мислим да је то користан јер појашњава да су студије које користе дигиталне изворе података може имати сасвим различите циљеве чак и ако су користећи исту врсту извора података. У циљу даљег разјаснили ову разлику, описати четири студије које сте видели: два да користи дигитални систем као инструмент и два који користе дигитални систем као предмет студије. Можете користити примере из овог поглавља ако желите.