клуч:
[ , ] Алгоритамски изненадувачките проблем со Google грип Трендови. Читање на хартија од Lazer et al. (2014) , и напишете кратко, јасно е-маил на инженер во Google објаснување на проблемот и нудат идеја за тоа како да се реши проблемот.
[ ] Bollen, Mao, and Zeng (2011) тврди дека податоците од Твитер може да се користи за предвидување на берзата. Ова откритие доведе до создавање на хеџ фонд-Derwent пазари на капитал, да се инвестира во акции на пазарот врз основа на податоците собрани од Твитер (Jordan 2010) . Какви докази ќе сакате да се види пред ставање вашите пари во тој фонд?
[ ] Додека некои поборници за јавно здравје поздравуваат е-цигари како ефективна помош за престанување со пушење, други предупредуваат за потенцијалните ризици, како што се на високо ниво на никотин. Замислете дека истражувач одлучи да учат на јавното мислење кон е-цигари со собирање поврзани со е-цигари мислења Твитер и спроведување на анализа расположение.
[ ] Во ноември 2009 година, Твитер промени на прашањето во полето за чуруликам од "Што правиш?" До "Што се случува?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) анализирани 41.7 милиони кориснички профили, 1.47 милијарди општествените односи, 4262 trending теми, и 106 милиони твитови помеѓу 6-ти и 31-ви јуни 2009 година Врз основа на оваа анализа се заклучи дека Twitter опслужува повеќе како нов медиум на размена на информации од социјална мрежа.
[ ] "Ретвитови" често се користи за мерење на влијанието и ширењето на влијанието на Твитер. Првично, корисниците мораше да копирате и залепите на Твитер им се допаднала, ознака на оригиналниот автор со неговата / нејзината рачка, и рачно да напишете "RT" пред чуруликам за да се покаже дека тоа е retweet. Потоа, во 2009 година Твитер додаде копче "retweet". Во јуни 2016 година, Твитер направено тоа можно за корисниците да retweet своите твитови (https://twitter.com/twitter/status/742749353689780224). Дали мислите дека овие промени треба да влијаат на тоа како да користите "ретвитови" во своето истражување? Зошто да или зошто не?
[ , , ] Michel et al. (2011) изградена корпус произлегуваат од напорите на Google да се дигитализираат книгите. Со помош на првиот верзија на силите, кој беше објавен во 2009 година и содржи повеќе од 5 милиони дигитализирани книги, авторите анализираат зборот фреквенција употреба за испитување на јазичните промени и културни трендови. Наскоро Книги Корпус на Google стана популарен извор на податоци за истражувачите, и 2-ри верзија на базата на податоци е издаден во 2012 година.
Сепак, Pechenick, Danforth, and Dodds (2015) предупреди дека истражувачите треба целосно да го карактеризираат процесот на земање примероци од корпусот пред да го користите за цртање широк заклучоци. Главниот проблем е во тоа што корпус е библиотека во форма, што содржи еден на секоја книга. Како резултат на тоа, поединец, плоден автор е во можност да значително вметнете нова фрази во лексиконот на Google Книги. Згора на тоа, научни текстови претставува повеќе суштински дел од корпусот во текот на 1900-тите. Покрај тоа, со споредување на две верзии на фантастика бази на англиски јазик, Pechenick et al. најде докази дека недоволно за филтрирање се користи за производство на првата верзија. Сите податоци кои се потребни за вршење дејност е достапна тука: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) истражува дали поголем публицитет за зимскиот надзор / PRISM (на пример, откритијата на Сноуден) во јуни 2013 година се поврзани со остар и ненадеен пад во сообраќајот на Википедија статии за теми кои се подигне стравувањата поврзани со приватноста. Ако е така, оваа промена во однесувањето ќе биде во согласност со застрашувачки ефект од масовен надзор. Пристапот на Penney (2016) понекогаш се нарекува прекината временски серии дизајн и се однесува на пристапи во поглавјето за приближување на експерименти од набљудување на податоци (Дел 2.4.3).
За да изберете тема клучни зборови, Penney од листата се користи од страна на Одделот за внатрешна безбедност на САД за следење на социјалните медиуми. листа на DHS категоризира одредени зборови за пребарување во широк спектар на прашања, односно, "здравствен проблем", "Инфраструктура за безбедност" и "тероризам". На студиската група, Penney користи четириесет и осум клучни зборови поврзани со "тероризам" (види Табела 8 Додаток). Тој потоа се собираат Википедија точки член поглед на месечна основа за соодветната четириесет и осум статии на Википедија над триесет и два месеци, од почетокот на јануари 2012 година до крајот на август 2014 година да се зајакне неговиот аргумент, тој, исто така, создаде неколку споредба групи со следење на пати напис на други теми.
Сега, ви се случува да се реплицираат и да се прошири Penney (2016) . Сите необработени податоци што ќе ви треба за оваа активност е на располагање од Википедија (https://dumps.wikimedia.org/other/pagecounts-raw/). Или можете да го добиете од wikipediatrend на R пакет (Meissner and Team 2016) . Кога пишувате-до вашите одговори, ве молиме забележете кој извор на податоци се користи. (Забелешка: Оваа иста активност, исто така, се појавува во Поглавје 6)
[ ] Efrati (2016) извештаи, врз основа на доверливи информации, дека "целосна споделување" на Фејсбук се намали за околу 5,5% од година во година, додека "оригиналот споделување емитува" беше долу 21% од година во година. Овој пад е особено акутен со корисници на Фејсбук под 30-годишна возраст. Извештајот ја падот на два фактори. Една од нив е раст на бројот на "пријатели" луѓето имаат на Фејсбук. Другата е дека некои активности за споделување се префрли на пораки и на конкурентите, како што Snapchat. Во извештајот, исто така, откри неколку тактики Фејсбук се обиде да ја зголеми споделување, вклучувајќи Новости алгоритам измени кои го прават оригинални мислења повеќе истакнати, како и периодични потсетници на оригиналната корисници мислења "На овој ден" пред неколку години. Какви импликации, доколку ги има, дали овие наоди имаат за истражувачите кои сакаат да го користат Фејсбук како извор на податоци?
[ ] Tumasjan et al. (2010) објавија дека процентот на твитови спомене една политичка партија се совпаѓа со процентот на гласови што ги добила партијата доби во германските парламентарни избори во 2009 година (Слика 2.9). Со други зборови, се чини дека можете да го користите Твитер да се предвиди на изборите. Во времето на оваа студија беше објавена тоа се смета за крајно возбудлив, бидејќи тоа се чинеше дека укажуваат на највредните користат за заеднички извор на големи податоци.
Со оглед на лошите сајтови на големи податоци, сепак, треба веднаш да се скептични за овој резултат. Германците на Твитер во 2009 година беа сосема не-претставник на оваа група и симпатизерите на една партија може да чуруликам за политиката почесто. Така, се чини чудно што сите можни предрасуди кои може да се замисли некој начин ќе се поништи. Всушност, резултатите во Tumasjan et al. (2010) испадна да биде премногу добра за да биде вистина. Во нивниот труд, Tumasjan et al. (2010) смета шест политички партии: Демохристијанска партија (ЦДУ), Христијанско социјалната партија (ЦСУ), СПД, либералите (ФДП), левицата (Die Linke) и Партијата на зелените (Grüne). Сепак, повеќето споменати германската политичка партија на Твитер во тоа време беше на Пиратската партија (Piraten), партија која се бори против владините регулирање на интернет. Кога Пиратската партија се вклучени во анализата, Твитер споменува станува страшно индикатор за изборните резултати (Слика 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Потоа, други истражувачи од целиот свет го користи познавач методи, како што се користење на чувство анализа да се направи разлика помеѓу позитивните и негативните споменува од страните-со цел да се подобри способноста на податоци Твитер да се предвиди различни видови на избори (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Еве како Huberty (2015) се сумираат резултатите од овие обиди да се предвиди избори:
"Сите познати методите за прогнозирање врз основа на социјалните медиуми не успеаја кога предмет на барањата на вистински изборен прогнозирање прогресивен. Овие грешки се чини дека се должи на основните својства на социјалните медиуми, наместо да се методолошки и алгоритамски проблеми. На кратко, социјалните медиуми не се направи, и веројатно никогаш нема да, нудат стабилен, независен, репрезентативна слика на избирачите; и погодност примероци на социјалните медиуми немаат доволно податоци за да го надминете овие проблеми пост хок ".
Прочитајте некои од истражувања кои водат Huberty (2015) до тој заклучок, и напишете белешка на една страна на политички кандидат опишувајќи дали и како Твитер треба да се користи да се предвиди избори.
[ ] Што е разликата помеѓу социолог и историчар? Според Goldthorpe (1991) , главната разлика помеѓу социолог и историчар е контрола над собирање на податоци. Историчарите се принудени да ги користат остатоци при што социолозите да се прилагоди на својата колекција податоци за специфични намени. Прочитај Goldthorpe (1991) . Како е разликата помеѓу социологијата и историјата во врска со идејата за Custommades и Readymades?
[ ] Градење на претходното прашање, Goldthorpe (1991) го привлече голем број на критични реакции, вклучувајќи и еден од Ники Харт (1994) , кој предизвикал посветеност Goldthorpe за наменска податоци. За да се разјаснат потенцијални ограничувања на наменска податоци, Харт го опиша Богатите проект работник, голем анкета за мерење на односот помеѓу социјалната класа и со право на глас, која беше спроведена од страна на Goldthorpe и неговите колеги во средината на 1960-тите. Како што може да се очекува од еден научник кој фаворизира дизајниран податоци преку најдат податоци, богатите проект работник собираат податоците што се направени за да се обрати на неодамна предложи теорија за иднината на социјалните класа во ерата на зголемување на животниот стандард. Но, Goldthorpe и колеги некако "заборавија" да се соберат информации за однесувањето на глас на жените. Еве како Ники Харт (1994) резиме на целата епизода:
". . . тоа [е] тешко да се избегне заклучокот дека жените се изоставени, бидејќи овој "наменска" базата беше ограничена од страна на некој парадигматичен логика, која исклучени женски искуство. Управувано од теоретска визија на класната свест и акција како машки преокупации. . . , Goldthorpe и неговите колеги се изгради сет на емпириски докази кои се хранат и негуваат своите теоретски претпоставки, наместо да ги изложат на валиден тест за адекватност. "
Харт продолжи:
"На емпириските наоди на богатите работник проектот ни кажете нешто повеќе за masculinist вредности на социологијата средината на овој век отколку што информира процесот на раслојување, политиката и материјалниот живот."
Можете да мислам на други примери каде колекција наменска податоци има предрасуди на податоци колектор вградени во него? Како го прави ова се споредуваат со алгоритамски изненадувачките? Какви импликации би можело тоа да се има за кога истражувачите треба да се користи Readymades и кога тие треба да се користи Custommades?
[ ] Во ова поглавје, јас контраст податоците собрани од страна на истражувачите на истражувачите со административни записи создадени од страна на компаниите и владите. Некои луѓе го нарекуваат овие административни извори "се најде на податоци", кои се во спротивност со "наменета податоци." Точно е дека административни записи се пронајдени од страна на истражувачите, но тие се исто така многу дизајниран. На пример, модерни технолошки компании трошат огромни количини на време и ресурси за да се соберат и згрижувањето на нивните податоци. Така, овие административни извори се наоѓаат и дизајнирани, тоа само зависи од вашата перспектива (Слика 2.10).
Да бидат пример за извор на податоци каде што се гледаат и како се најде и дизајниран е корисно кога се користи дека извор на податоци за истражување.
[ ] Во внимателен есеј, Кристијан Sandvig и Естер Hargittai (2015) опишуваат два вида на дигитални истражување, каде што на дигиталниот систем е "инструмент", или "цел на студијата." Еден пример на првиот тип на студии, е местото каде што Bengtsson и колеги (2011) се користи мобилен телефон податоци за следење на миграција по земјотресот во Хаити во 2010 година Еден пример на вториот вид е местото каде што Jensen (2007) студии како воведувањето на мобилни телефони во текот на Керала, Индија влијаат на функционирањето на пазарот за риби. Сметам дека ова корисно затоа што појаснува дека студиите со користење на дигитални извори на податоци може да имаат сосема различни цели, дури и ако тие се со користење на ист вид на извор на податоци. Со цел дополнително да го појасни оваа разлика, опис на четири студии кои сте виделе: две кои користат дигитален систем како инструмент и две кои користат дигитален систем како предмет на проучување. Можете да ги користите примери од оваа глава, ако сакате.