дейности

Key:

  • степен на трудност: лесно лесно , среден среда , твърд твърд , много трудно много трудно
  • изисква математика ( изисква по математика )
  • изисква кодиране ( изисква кодиране )
  • събиране на данни ( събиране на данни )
  • любимите ми ( Моят фаворит )
  1. [ среда , Моят фаворит ] Алгоритмичната объркващ проблем с Google Flu Trends. Прочетете статията на Lazer et al. (2014) , и да напише кратко, ясно имейл на инженер в Google обяснява проблема и предлагане представа за това как да се реши проблема.

  2. [ среда ] Bollen, Mao, and Zeng (2011) твърди, че данни от Twitter могат да се използват за прогнозиране на фондовия пазар. Това откритие е довело до създаването на хедж фонд-Derwent Capital Markets-да инвестират на фондовия пазар въз основа на данни, събрани от Twitter (Jordan 2010) . Какви доказателства ще искате да видите, преди да поставите парите си в този фонд?

  3. [ лесно ] Докато някои защитници на общественото здраве градушка електронни цигари като ефективна помощ за отказване от тютюнопушене, други предупреждават за потенциалните рискове, като например най-високи нива на никотин. Представете си, че един изследовател реши да проучи общественото мнение към електронните цигари, като събира, свързани с електронните цигари мнения Twitter и провеждане на анализ настроения.

    1. Кои са трите възможни отклонения, че сте най-притеснен за в това проучване?
    2. Clark et al. (2016) изтича точно такова проучване. Първо, те събрани 850,000 туитове, които се използват е-цигара, свързани с ключови думи от януари 2012 до декември 2014 г. При по-внимателно вглеждане, те разбраха, че много от тези туитове са автоматизирани (т.е., не са произведени от хора) и много от тези автоматизирани туитове са по същество реклами. Те разработили алгоритъм за разпознаване на Human да се разделят автоматизирани туитове от органични туитове. Използването на този Human Detect Алгоритъм те установили, че 80% от туитове са автоматизирани. Се променя тази констатация отговор на въпроса си към част (а)?
    3. Когато те в сравнение с настроенията в органични и автоматизирани туитове те установили, че автоматизираните туитове са по-положителни, отколкото органични туитове (6.17 срещу 5.84). Се променя тази констатация си отговор (б)?
  4. [ лесно ] През ноември 2009 г., Twitter променила въпроса в полето за туит от "Какво правиш?" До "Какво става?" (Https://blog.twitter.com/2009/whats-happening).

    1. Как мислите, че промяната на указания ще засегне които чуруликане и / или това, което те чуруликане?
    2. Назовете един изследователски проект, за които бихте предпочели подканата "Какво правиш?" Обяснете защо.
    3. Назовете един изследователски проект, за които бихте предпочели подканата "Какво става?" Обяснете защо.
  5. [ среда ] Kwak et al. (2010) анализира 41.7 милиона потребителски профили, 1.47 млрд социални отношения, 4262 налагащи се теми, както и 106 милиона туита между 06 юни и 31 юни 2009 г. Въз основа на този анализ те заключи, че Twitter обслужва повече като нова среда за обмен на информация от социална мрежа.

    1. Като се има предвид констатация Квак и сътр е, какъв тип изследвания бихте направили с данни на Twitter? Какъв тип изследвания ще ви не използва данните на Twitter? Защо?
    2. През 2010 г., добавя Twitter с кого да се Следвайте услуга направи адекватен предложение към потребителите. Три препоръки са показани по време на главната страница. Препоръки често са привлечени от нечии "приятели-на-приятели", и взаимни контакти също са показани в препоръката. Потребителите могат да се освежат, за да видите нов набор от препоръки или да посетите страницата с по-дълъг списък с препоръки. Смятате ли, че тази нова функция ще промени вашия отговор на част а)? Защо или защо не?
    3. Su, Sharma, and Goel (2016) оценява ефекта на кого да се Следвайте услуга и е установено, че докато потребителите в целия спектър на популярност се възползвали от препоръките, най-популярните потребителите възползвали значително повече от средното за страната. Се променя тази констатация си отговор на част б)? Защо или защо не?
  6. [ лесно ] "Ретуитовете" са често използвани за измерване на влиянието и разпространението на влияние върху Twitter. Първоначално, потребителите трябваше да копирате и поставите чуруликане те харесва, маркира оригиналния автор с неговата / нейната дръжка, и ръчно тип "RT" преди чуруликане за да покаже, че това е Препратете. След това, през 2009 г. Twitter добавен бутон "препубликувате". През юни 2016 г., Twitter направи възможно за потребителите да Препратете собствените си туитове (https://twitter.com/twitter/status/742749353689780224). Смятате ли, че тези промени трябва да влияят на начина, който използвате "ретуитовете" в своето изследване? Защо или защо не?

  7. [ среда , събиране на данни , изисква кодиране ] Michel et al. (2011) изработена корпус излиза от усилията на Google да дигитализира книги. Използването на първата версия на корпуса, която е публикувана през 2009 г. и съдържа над 5 милиона цифровизирани книги, авторите анализират дума честота използване за разследване на езиковите промени и културни тенденции. Скоро Книги Корпуса на Google стана популярен източник на данни за изследователи, както и 2-ра версия на базата данни е издаден през 2012 година.

    Въпреки това, Pechenick, Danforth, and Dodds (2015) предупреди, че учените трябва да напълно характеризират процеса на вземане на проби на корпуса преди да го използвате за изготвяне общи заключения. Основният проблем е, че корпусът е библиотека, подобни, съдържащ един от всяка книга. В резултат на това физическо лице, плодовит автор е в състояние да забележимо поставете нови фрази в речника на Google Книги. Нещо повече, научни текстове представляват все по-съществена част от корпуса през 1900г. В допълнение, чрез сравняване на две версии на фантастика набори от данни на английски, Pechenick и др. намерено доказателство, че недостатъчно филтриране се използва в производството на първата версия. Всичко на данните, необходими за дейността можете да намерите тук: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. В Michel и др. На оригиналната хартия (2011) , те са използвали първото версия на данни сет на английски, изобразени на честотата на използване на годините "1880", "1912" и "1973", и заключи, че "ние сме забравяйки миналото ни по-бързо с всяка изминала година "(фиг. 3А, Michel и др.). Дублиране на същия парцел, използвайки 1) 1-ва версия на корпуса, английски набор от данни (същото като фиг. 3А, Michel и др.)
    2. Сега възпроизведе същия парцел с първото версия, английски фантастика набор от данни.
    3. Сега възпроизведе същия парцел с 2-ра версия на корпуса, английски набор от данни.
    4. Накрая, репликира същия парцел с втората версия, английски фантастика набор от данни.
    5. Опишете разликите и приликите между тези четири парцела. Съгласни ли сте с Мишел и др. е оригинална интерпретация на наблюдаваната тенденция? (Съвет: в) и г), трябва да бъде същата като фигура 16 в Pechenick и др).
    6. Сега, когато сте репликира този извод въз основа на различна Google Books корпуси, изберете друга езикова промяна или културни явления представени в Michel и др. На оригиналната хартия. Съгласни ли сте с тяхното тълкуване в светлината на ограниченията, представени в Pechenick и др.? За да бъде аргумент си по-силен, опитайте се възпроизведе същата графика с помощта на различни версии на данните, посочени по-горе.
  8. [ много трудно , събиране на данни , изисква кодиране , Моят фаворит ] Penney (2016) изследва дали гласност за НСА наблюдение / PRISM (т.е. откровенията Сноудън) през юни 2013 г., е свързано с рязко и внезапно намаляване на трафика на статии от Уикипедия, по теми, които предизвикват опасения за поверителност. Ако е така, тази промяна в поведението би било в съответствие с възпиращ ефект в резултат на масово наблюдение. Подходът на Penney (2016) , понякога се нарича прекъсната време серия дизайн и е свързана с подходите в главата за сближаване експерименти от наблюдателни данни (раздел 2.4.3).

    За да изберете темата ключови думи, Penney, посочен в списъка, използван от Министерството на вътрешната сигурност на САЩ за проследяване и наблюдение на социалните медии. Списъкът на DHS категоризира определени думи за търсене в редица въпроси, т.е. "загриженост за здравето", "Инфраструктура за сигурност," и "тероризъм". За изследваната група, Penney използва Четиридесет и осем ключови думи, свързани с "тероризма" (виж Таблица 8 допълнението). След това той сумира Уикипедия брои статия Изглед на месечна база за съответните четиридесет и осем статии в Уикипедия над тридесет-период от два месеца, от началото на януари 2012 г. до края на август 2014 г. За да се засили неговия аргумент, той също така е създаден няколко сравняване групи чрез проследяване видяна статия по други теми.

    Сега, вие ще се възпроизведе и да удължи Penney (2016) . Всички необработените данни, че ще ви трябва за тази дейност е на разположение от Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Или можете да го получите от wikipediatrend на R пакет (Meissner and Team 2016) . Когато пишете-нагоре отговорите си, моля, имайте предвид, кой източник на данни, който сте използвали. (Забележка: Същата активност също се появява в глава 6)

    1. Прочетете Penney (2016) и репликира фигура 2, която показва вижданията на страницата за "тероризъм" -свързани страници преди и след откровението Сноудън. Тълкувайте констатациите.
    2. На следващо място, репликира фигура 4А, който сравнява изследваната група ( "тероризъм" -свързани статии) със сравнителен група с помощта на ключови думи, категоризирани в "DHS & други агенции" от списъка DHS (виж Приложение Таблица 10). Тълкувайте констатациите.
    3. В част б) ти сравнение на проучвателна група за един сравнителен група. Penney също в сравнение с другите две сравнителните групи: "Инфраструктура на сигурността" -свързани изделия (Приложение Таблица 11) и популярните страници в Уикипедия (Приложение Таблица 12). Излезе с алтернатива сравнителна група, и се тества дали констатациите от част б) е чувствителен към избора си на сравнителната група. Кои избор на сравнителна група прави най смисъл? Защо?
    4. Авторът твърди, че ключови думи, свързани с "тероризма" са били използвани, за да изберете статиите в Уикипедия, защото правителството на САЩ, цитирани тероризма като ключов оправдание за своите онлайн практики за наблюдение. За проверка на тези 48 "тероризъм" -свързани ключови думи, Penney (2016) също проведе проучване на MTurk пита анкетираните да оценят всяка от ключовите думи по отношение на правителствените Trouble, Декларация-чувствителна, и избягване (Приложение Таблица 7 и 8). Дублиране на изследването на MTurk и сравни резултатите си.
    5. Въз основа на резултатите в част г) и си прочит на статията, съгласни ли сте с избора на автора на темата ключови думи в изследваната група? Защо или защо не? Ако не, какво бихте предложили вместо това?
  9. [ лесно ] Efrati (2016) доклади, базирани на поверителна информация, че "общо споделяне" на Facebook е намалял с около 5,5% на годишна база, докато "оригинален споделяне предаването" беше надолу с 21% на годишна база. Този спад е особено остър с потребители на Facebook под 30-годишна възраст. В доклада се дължи на спада на два фактора. Един от тях е ръстът в броя на "приятели" хора имат по Facebook. Другата е, че някои дейности, споделяне е изместен към съобщения и да конкуренти като Snapchat. В доклада също така разкри няколко тактики, Facebook се е опитал да даде тласък за споделяне, включително News Feed алгоритъм ощипвам, които правят оригинални мнения по-видни, както и периодични напомняния на оригиналните потребителите пощи "На този ден" преди няколко години. Какви последици, ако има такива, се тези находки имат за изследователи, които искат да използват Facebook като източник на данни?

  10. [ среда ] Tumasjan et al. (2010) съобщава, че част от туитове в които се споменава политическа партия съответства на съотношението на гласовете, че партията, получени в германския парламентарните избори през 2009 г. (Фигура 2.9). С други думи, се оказа, че бихте могли да използвате Twitter, за да се предскаже изборите. По време на това проучване е публикувано бе счетено за изключително вълнуващо, защото както изглежда показва ценна използване на общ източник на големи данни.

    Предвид лошите черти на големи данни, обаче, трябва незабавно да бъдат скептични на този резултат. Германци на Twitter през 2009 г. са доста не-представителна група, и привърженици на една партия може да чуруликам за политиката по-често. По този начин, изглежда изненадващо, че всички възможни отклонения, които бихте могли да си представят по някакъв начин ще се изравняват. В действителност, резултатите в Tumasjan et al. (2010) се оказа прекалено хубаво, за да е истина. В статията си, Tumasjan et al. (2010) смята шест политически партии: Християндемократи (ХДС), християнски социалдемократи (ХСС), SPD, либералите (FDP), наляво (Die Linke), както и Зелената партия (Grüne). Въпреки това, най-често споменаваните германската политическа партия на Twitter по това време беше на Пиратската партия (Piraten), една партия, която се бори с държавно регулиране на интернет. Когато Пиратската партия е била включена в анализа, Twitter споменава става ужасно предиктор на изборните резултати (Фигура 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Фигура 2.9: Twitter споменава изглежда да се предскаже резултатите от немски избори през 2009 г. (Tumasjan и сътр 2010.), Но този резултат се оказва, че зависи от някои произволни и необосновани решения (Jungherr, Jürgens, и Schoen 2012 г.).

    Фигура 2.9: Twitter споменава изглежда да се предскаже резултатите от немски избори от 2009 г. (Tumasjan et al. 2010) , Но този резултат се оказва, че зависи от някои произволни и необосновани решения (Jungherr, Jürgens, and Schoen 2012) .

    Впоследствие, други изследователи от целия свят са използвани красиви методи, като например използване на анализ настроения да се прави разлика между положителни и отрицателни споменавания на страните-, за да се подобри способността на данни на Twitter, за да се предскаже разнообразие от различни видове избори (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ето как Huberty (2015) обобщава резултатите от тези опити да се прогнозират избори:

    "Всички известни методи за прогнозиране, основани на социалните медии не са успели, когато е подложен на исканията на истинска изборна прогнозиране-далновиден. Тези неуспехи изглежда се дължи на основните свойства на социалните медии, а не да методологични или алгоритмични трудности. Накратко, социалните медии не, и вероятно никога няма, предлагат стабилна, безпристрастен, представителна картина на избирателите; и удобство проби от социалните медии липсват достатъчно данни, които да бъдат решени тези проблеми, последвали. "

    Прочетете някои от изследванията, които да доведат Huberty (2015) до това заключение, и напишете бележка на една страница към политически кандидат, описващ дали и как Twitter трябва да се използва за прогнозиране на избори.

  11. [ среда ] Каква е разликата между социолог и историк? Според Goldthorpe (1991) , основната разлика между социолог и историк е контрол върху събирането на данни. Историците са принудени да използват мощи има предвид, че социолозите могат да приспособят тяхното събиране на данни за специфични цели. Прочетете Goldthorpe (1991) . Как е разликата между социологията и историята, свързана с идеята за Custommades и Readymades?

  12. [ твърд ] Въз основа на предишния въпрос, Goldthorpe (1991) привлече редица критични реакции, включително и един от Nicky Харт (1994) , който се справи с преданост Goldthorpe към конкретните нужди на данни. За да се изяснят потенциалните ограничения на съобразени с конкретните данни, Харт е описано богатите Worker проекта, голяма проучване за измерване на връзката между социална класа и гласуване, което е проведено от Goldthorpe и колеги в средата на 1960. Както можеше да се очаква от един учен, който дават предимство проектиран данни над намерени данни, богатите Worker Проектът събира данни, които се пригодени за справяне с наскоро предложи теория за бъдещето на социалната класа в ерата на повишаване на жизнения стандарт. Но, Goldthorpe и колеги някак си "забравили" да се събере информация за поведението на гласуване на жените. Ето как Ники Харт (1994) обобщение на целия епизод:

    ". , , тя [е] трудно да се избегне заключението, че жените са били пропуснати, защото това "според конкретните нужди" набор от данни се ограничава само с парадигматичен логика, която изключва женски опит. Водени от теоретична визия на класово съзнание и действие като мъжки занимания. , , , Goldthorpe и колегите му, построени набор от емпирични доказателства, които хранят и подхранва собствените си теоретични предположения, вместо да ги изложи на валиден тест за адекватност. "

    Харт продължи:

    "Емпиричните констатациите заможни Worker проекта ни казват повече за masculinist стойности на социологията средата на века, отколкото те информират процесите на стратификация, политиката и материалния живот."

    Сещате ли се за други примери, където колекция, съобразени с конкретните данни има пристрастия на колектора на данни, вградена в него? Как това се сравни с алгоритмичен погрешни изводи? Какви последици може да има това за когато изследователите трябва да използват Readymades и когато те трябва да използват Custommades?

  13. [ среда ] В тази глава I контрастира данни, събрани от учените за изследователи с административни записи, създадени от компании и правителства. Някои хора наричат ​​тези административни регистри "са намерени данни", които те контрастират с "предназначени данни." Вярно е, че административните записи са открити от изследователи, но те са също така силно проектирани. Например, модерни технологични компании харчат огромни количества време и ресурси, за да се съберат и да подбира своите данни. По този начин, тези административни записи са открити, така и проектирани, тя просто зависи от вашата гледна точка (фигура 2.10).

    Фигура 2.10: Картината е едновременно патица и заек; това, което виждате, зависи от вашата гледна точка. Правителството и бизнеса административни записи са открити, така и предназначени; това, което виждате, зависи от вашата гледна точка. Например, записите с данни повикване, събрани от един мобилен телефон на фирмата са намерени данни от гледна точка на изследователя. Но, тези точно същите записи са предназначени перспектива данни на някой, който работи в отдела за фактуриране на телефонната компания. Източник: Wikimedia Commons

    Фигура 2.10: Картината е едновременно патица и заек; това, което виждате, зависи от вашата гледна точка. Правителството и бизнеса административни записи са открити, така и предназначени; това, което виждате, зависи от вашата гледна точка. Например, записите с данни повикване, събрани от един мобилен телефон на фирмата са намерени данни от гледна точка на изследователя. Но, тези точно същите записи са предназначени перспектива данни на някой, който работи в отдела за фактуриране на телефонната компания. Източник: Wikimedia Commons

    Даде пример за източник на данни, когато го видя, така както е установено и проектиран е от полза, когато се използва този източник на данни за научни изследвания.

  14. [ лесно ] В един внимателен есе, Christian Sandvig и Естер Hargittai (2015) описват два вида цифров изследвания, където цифровата система е "инструмент" или "обект на изследване." Пример за първия вид проучване е, когато Bengtsson и колеги (2011) се използва данни за мобилни телефони, за да проследи миграцията след земетресението в Хаити през 2010 г. Един пример за втория вид е мястото, където Jensen (2007) проучвания как въвеждането на мобилни телефони в целия Керала, Индия повлияха на функционирането на пазара за риба. Намирам това за полезно, тъй като изяснява, че проучвания с използване на цифрови източници на данни могат да имат съвсем различни цели, дори ако те използват един и същи вид на източника на данни. С цел да се изясни това разграничение, описват четири проучвания, които сте виждали: две, които използват цифрова система като инструмент и две, които използват цифрова система като обект на проучване. Можете да използвате примери от тази глава, ако искате.