кеи:
[ , ] Алгоритамска збуњујући је проблем са Гоогле грипа. Читао новине по Lazer et al. (2014) , и да пише кратке, јасне емаил инжењер у Гоогле-у објашњава проблем и нуди идеју како да решите проблем.
[ ] Bollen, Mao, and Zeng (2011) да се подаци из Твиттер може користити за предвиђање на берзи. Овај налаз је довело до стварања хеџ фонд-Дервент Цапитал Маркетс-да инвестирају на берзи на основу података прикупљених из Твиттер (Jordan 2010) . Који докази да желите да видите пре него што новац у том фонду?
[ ] Док су неки јавно здравље заговорници хаил е-цигарете као ефикасно помоћ за одвикавање од пушења, други упозоравају о потенцијалним ризицима, као што је на високом нивоу никотина. Замислите да истраживач одлучује да студира јавног мњења према е-цигарете за прикупљање е-цигарете везане за поруке Твиттер и спровођење анализе сентимент.
[ ] У новембру 2009. године, Твиттер променио питање у твеет кутији од "Шта радиш?" У "Шта се дешава?" (Хттпс://блог.твиттер.цом/2009/вхатс-хаппенинг).
[ ] Kwak et al. (2010) 41,7 милиона корисничких профила, 1,47 милијарди друштвене односе, 4262 у тренду теме и 106 милиона твеет између 6. јуна и 31. јуна 2009. године На основу ове анализе су закључили да Твиттер служи више као нови медиј размене информација него друштвена мрежа.
[ ] "Ретвеетс" често се користе за мерење утицаја и ширења утицаја на Твиттер. У почетку, корисници су морали да копирате твеет им се свиђа, означите оригиналног аутора са његовом / њеном дршком, и ручно укуцајте "РТ" пре твеет да укаже да је то Ретвеет. Затим, у 2009 Твиттер додао дугме "ретвеет". У јуну 2016, Твитер је омогућило корисницима да ретвеет своје твеетс (хттпс://твиттер.цом/твиттер/статус/742749353689780224). Да ли мислите да ове промене би требало да утичу на то како да користите "Ретвеетс" у свом истраживању? Зашто или зашто не?
[ , , ] Michel et al. (2011) корпус враћа из Гоогле-овог напора да дигитализује књиге. Користећи прву верзију корпуса, која је објављена 2009. године и који се налази преко 5 милиона дигитализованих књига, аутори анализирају реч коришћење фреквенције да истражи језичке промене и културне трендове. Ускоро Гоогле Књиге Корпус постао популаран извор података за истраживаче, а 2. верзија базе података је објављен 2012. године.
Међутим, Pechenick, Danforth, and Dodds (2015) је да истраживачи морају да у потпуности карактеришу процес узорковања на корпуса пре употребе за израду широке закључака. Главно питање је да корпус је библиотека налик, који садржи једну од сваке књиге. Као резултат тога, појединца, плодан аутор је у стању да приметно убаците нове фразе у Гоогле Боокс лексикона. Штавише, научни текстови представљају све суштинске део корпуса током 1900-тих година. Поред тога, поређењем две верзије енглеског Фицтион скупова података, Пецхеницк ет ал на. фоунд доказ да довољно филтрирање је коришћен у изради прву верзију. Сви подаци који су потребни за активности је доступан овде: хттп://стораге.гооглеапис.цом/боокс/нграмс/боокс/датасетсв2.хтмл
[ , , , ] Penney (2016) да ли је распрострањен публицитет о НСА / ПРИСМ надзор (тј Сновден Ревелатионс) у јуну 2013. је повезује са оштрим и нагли пад у саобраћају на чланке из Википедије на теме које подижу забринутост у погледу приватности. Ако је тако, ова промена у понашању ће бити у складу са негативан ефекат услед масовног надзора. Приступ Penney (2016) понекад назива прекида дизајн време серије и односи се приступа у поглављу о приближавању експерименте са посматрачким подацима (одељак 2.4.3).
Да изаберете тему кључне речи, Пени из листе користи УС Департмент оф Хомеланд Сецурити за праћење и надгледање друштвене медије. Листа ДЗИ категоризује одређене термине за претрагу у низу питања, односно "здравствени проблем", "Инфраструктура безбедности," и "тероризам". За студијске групе, Пени користе се четрдесет осам кључних речи везаних за "тероризам" (види табелу 8 Додатак). Он је затим сакупљају Википедиа артицле виев цоунтс на месечном нивоу за одговарајуће четрдесет осам Википедиа чланака у периоду од тридесет два месеца, од почетка јануара 2012. до краја августа 2014. У циљу јачања своје аргументе, он је створио неколико поређење групе за праћење Погледи Члан на друге теме.
Сада, ти ћеш да реплицира и прошири Penney (2016) . Све сирови подаци који вам треба за ову активност је доступан од Википедиа (хттпс://думпс.викимедиа.орг/отхер/пагецоунтс-рав/~~ХЕАД=побј). Или га можете добити од: Р пакета википедиатренд (Meissner and Team 2016) . Када пишете уп ваше одговоре, имајте на уму који извор података сте користили. (Напомена: Овај исти активност се такође појављује у Поглављу 6)
[ ] Efrati (2016) на основу поверљивих информација, да "укупна дељење" на Фацебоок-у опао за око 5,5% годишње током године, а "Оригинал размена емисија" пао 21% у односу на претходну годину. Овај пад је нарочито изражен са Фацебоок корисницима испод 30 година старости. У извештају се приписује пад за два фактора. Једна је раст броја "пријатеља" људи имају на Фацебоок. Други је да нека активност дељење је прешла у порукама и на конкуренте као што су Снапцхат. У извештају се такође открила неколико тактику на Фацебоок су покушали да повећају размену, укључујући Невс Феед алгоритма Твеакс које чине оригиналне поруке израженија, као и периодичне подсетнике оригиналних поруке корисника "На овај дан" пре неколико година. Какве импликације, ако постоје, да ли ови налази имају за истраживаче који желе да користе Фацебоок као извор података?
[ ] Tumasjan et al. (2010) да је део твеет спомињу политичку странку упарен проценат гласова та странка примљена у немачком парламентарним изборима у 2009. години (слика 2.9). Другим речима, чинило се да бисте могли користити Твиттер предвидети изборе. У вријеме када је ова студија објављена је сматра изузетно узбудљив, јер је изгледало да предложи вредан користи за заједнички извор великих података.
С обзиром на лоше особине великих података, међутим, требало би одмах да буде скептичан овог резултата. Немци на Твиттер у 2009. години прилично не-репрезентативна група, и присталица једне стране можда чешће твеет о политици. Тако, изгледа изненађујуће да би све могуће предрасуде које сте могли замислити некако отказати. У ствари, резултати у Tumasjan et al. (2010) се да је сувише добро да би било истинито. У свом раду, Tumasjan et al. (2010) шест политичких странака: Цхристиан демократе (ЦДУ), Кристијан социјалдемократе (ЦСУ), СПД, либерали (ФДП), лева (Дие Линке), и Странка зелених (Груне). Међутим, најчешће се помињу немачка политичка странка на Твиттер је у то време био Пиратска партија (Пиратен), странка која се бори одлуке владе Интернета. Када је Пиратска партија укључене у анализу, Твиттер помиње постаје страшан предиктор изборних резултата (слика 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Након тога, други истраживачи широм света користе одгајивач методе-као што анализом сентимент да се направи разлика између позитивне и негативне помиње странака-како би се побољшала способност Твиттер података да предвиди низ различитих врста избора (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ево како Huberty (2015) је резултате ових покушаја да предвиђам изборе:
"Све познате методе предвиђања заснивају на друштвеним медијима нису, када се подвргне захтевима правог будућност изборне прогнозе. Ови пропусти изгледа да услед фундаменталних својстава друштвених медија, а не да се методолошким или алгоритамским тешкоћа. Укратко, друштвени медији не, и вероватно никада неће понудити стабилно, непристрасно, репрезентативна слика бирачког тела; и узорци погодност друштвених медија немају довољно података за фиксирање ови проблеми пост хоц. "
Реад нека истраживања која је довела Huberty (2015) тог закључка, и написати једну страницу мемо политички кандидат описује да ли и како Твиттер треба користити за предвиђање избора.
[ ] Која је разлика између социолога и историчара? Према Голдтхорпе (1991) , главна разлика између социолог и историчар је контрола над прикупљања података. Историчари су принуђени да користе мошти, док социолози могу да прилагоде своју прикупљање података за одређене намене. Реад Goldthorpe (1991) . Како је разлика између социологије и историје у вези са идејом Цустоммадес и Реадимадес?
[ ] Ослањајући се на претходно питање, Goldthorpe (1991) велики број критичких одговора, укључујући и један од Ницки Харт (1994) , са којим се Голдтхорпе је оданост таилор маде података. Да се разјасне потенцијална ограничења података таилор-маде оф Харт описао богатом Воркер Пројецт, велико истраживање за мерење однос између друштвене класе и гласања које је спровела Голдтхорпе и колеге средином 1960-их. Као што се могло очекивати од научника који су били за дизајнирао податке преко пронађеним подацима, богатом радник пројекта прикупљени су подаци који су прилагођени да се обрати недавно је предложио теорију о будућности друштвене класе у ери повећања животног стандарда. Али, Голдтхорпе и колеге некако "заборавио" да се прикупе информације о понашању гласа жена. Ево како Ники Харт (1994) цео епизода:
". . . то [је] тешко избећи закључак да су жене пропустио, јер ово 'таилор маде' скуп података је ограничена од стране парадигматског логике која искључује женског искуства. Вођен теоријски визијом класне свести и акције као мушких преокупација. . . , Голдтхорпе и његове колеге изграђен скуп емпиријских доказа који се хране и створило своје теоријске поставке, уместо да их изложе валидан тест адекватности. "
Харт наставио:
"Тхе емпиријски налази на работникот пројекта богатим нам рећи нешто више о мушких вредности социологије средином века него што обавести процесе раслојавање, политике и материјалног живота."
Можете ли се сетити других примера где колекција прилагођени подаци има предрасуде на прикупљање података уграђена у њега? Како се то упореди са алгоритмическој мешовити? Какве импликације би ово имати када истраживачи треба да користе Реадимадес и када би требало да користе Цустоммадес?
[ ] У овом поглављу, у супротности и податке прикупљене од стране истраживача за истраживача са административним подацима креираних од стране компаније и владе. Неки људи зову ови административни документи "фоунд податке", које су у контрасту са "дизајнираним подацима." Тачно је да су административни рецордс фоунд истраживачи, али су такође високо дизајнирани. На пример, модерне технологије компаније троше огромне количине времена и средстава за прикупљање и парох своје податке. Тако, ове административне евиденције су оба наћи и дизајниран, то само зависи од ваше перспективе (слика 2.10).
Пружити пример извор података где се види и као наћи и дизајниран је корисно када се користи тај извор података за истраживање.
[ ] У замишљен есеју, Кристијан Сандвиг и Естер Харгиттаи (2015) две врсте дигиталног истраживања, где је дигитални систем је "инструмента" или "предмет истраживања." Пример прве врсте студија је где Бенгтссон је и колеге (2011) податке мобилних телефона да прате миграције након земљотреса на Хаитију у 2010. години primer друге врсте је место где Џенсен (2007) како је увођење мобилних телефона током Керала, Индија утицали на функционисање тржишта за рибе. Мислим да је то користан јер појашњава да су студије које користе дигиталне изворе података може имати сасвим различите циљеве чак и ако су користећи исту врсту извора података. У циљу даљег разјаснили ову разлику, описати четири студије које сте видели: два да користи дигитални систем као инструмент и два који користе дигитални систем као предмет студије. Можете користити примере из овог поглавља ако желите.