aktivity

Klíč:

  • Stupeň obtížnosti: lehká snadný , středně střední tvrdé tvrdý , velmi těžké velmi těžké
  • vyžaduje matematiku ( vyžaduje matematiku )
  • vyžaduje kódování ( vyžaduje kódování )
  • sběr dat ( sběr dat )
  • můj oblíbený ( můj oblíbený )
  1. [ střední , můj oblíbený ] Algoritmický matoucí byl problém s Chřipkové trendy Google. Číst noviny podle Lazer et al. (2014) , a napsat krátkou, jasnou e-mail inženýr ve společnosti Google s vysvětlením problému a nabízí představu o tom, jak problém vyřešit.

  2. [ střední ] Bollen, Mao, and Zeng (2011) tvrdí, že data z Twitteru mohou být použity k predikci na akciovém trhu. Toto zjištění vedlo k vytvoření investiční fond-Derwent Capital Markets-investovat na akciovém trhu na základě údajů získaných od Twitteru (Jordan 2010) . Jaké důkazy byste chtěli vidět před uvedením své peníze v tomto fondu?

  3. [ snadný ] Zatímco někteří zastánci veřejného zdraví krupobití e-cigarety jako účinný nástroj pro odvykání kouření, jiní varují před možnými riziky, jako jsou výškových úrovní nikotinu. Představte si, že výzkumný pracovník rozhodne pro studium veřejného mínění směrem k e-cigarety tím, že sbírá e-cigarety související Twitter příspěvky a provádění analýz sentimentu.

    1. Jaké jsou tři možné předsudky, které jste nejvíce znepokojují v této studii?
    2. Clark et al. (2016) běžel právě takovou studii. Za prvé, sbírali 850.000 tweety, které používají klíčová slova, e-cigareta účely od ledna 2012 do prosince 2014. Při bližším zkoumání zjistili, že mnoho z těchto tweetů byly automatizované (tj nevyrábí lidí) a mnoho z těchto automatizovaných tweetů byly v zásadě spoty. Oni vyvinuli algoritmus detekce lidského oddělit automatizované tweety od jiných organických tweetů. Pomocí tohoto Human Detect algoritmus zjistili, že byly automatizované 80% tweetů. Znamená toto zjištění změnit svou odpověď na části (a)?
    3. Když porovnávali sentiment v organických a automatizovanými tweetů zjistili, že automatizované tweety jsou příznivější než organická tweetů (6,17 oproti 5,84). Znamená toto zjištění změnit svou odpověď (b)?
  4. [ snadný ] V listopadu 2009, Twitter změnil otázku tweetu krabici od "Co to děláš?" To "Co se děje?" (Https://blog.twitter.com/2009/whats-happening).

    1. Jak myslíš, že změna bude mít vliv na výzvy, kteří pípání a / nebo co pípání?
    2. Pojmenovat jeden výzkumný projekt, pro který byste raději dotaz: "Co to děláš?" Vysvětlete, proč.
    3. Pojmenovat jeden výzkumný projekt, pro který byste raději výzvu "Co se děje?" Vysvětlete, proč.
  5. [ střední ] Kwak et al. (2010) analyzovali 41,7 milionu uživatelských profilů, 1,47 miliardy společenských vztahů 4262 témat sledování trendů a 106 milionů tweetů mezi 6. června a 31. června 2009. Na základě této analýzy jsou k závěru, že Twitter slouží spíše jako nové médium o sdílení informací než Based sociální síť.

    1. Vzhledem k nálezu Kwak kol je, jaký typ výzkumu byste s Twitter data? Jaký typ výzkumu, nebyli byste dělat s Twitter data? Proč?
    2. V roce 2010 přidal Twitter a Who následovat službu dělat na míru návrh uživatelům. Tři doporučení jsou zobrazeny v čase na hlavní stránce. Doporučení jsou často čerpány z něčích "přátelé-of-přátelé," a vzájemné kontakty jsou také zobrazeny v doporučení. Uživatelé mohou aktualizovat vidět novou sadu doporučení nebo navštívit stránku s delším seznamem doporučení. Myslíte si, že tato nová funkce změní svou odpověď na část)? Proč nebo proč ne?
    3. Su, Sharma, and Goel (2016) hodnotil efekt Kdo následovat servis a zjistil, že zatímco uživatelé napříč spektrem popularity těžil z doporučení, nejpopulárnější uživatelé profitovala podstatně více, než je průměr. Znamená toto zjištění změnit svou odpověď na část B)? Proč nebo proč ne?
  6. [ snadný ] "Retweets" se často používají k měření vlivu a šíření vlivu na Twitteru. Zpočátku museli uživatelé zkopírovat a vložit tweet měli rádi, označte původní autor s jeho / její rukojetí a ručně před tweetu typu "RT" pro indikaci, že je to retweet. Pak, v roce 2009 Twitter přidal tlačítko "retweet". V červnu 2016, Twitter umožnil uživatelům retweet své tweety (https://twitter.com/twitter/status/742749353689780224). Myslíte si, že by tyto změny neměly mít vliv na tom, jak používat "retweets" ve svém výzkumu? Proč nebo proč ne?

  7. [ střední , sběr dat , vyžaduje kódování ] Michel et al. (2011) zkonstruoval korpus vznikající ze snahy společnosti Google digitalizovat knihy. Použití první verze korpusu, který byl zveřejněn v roce 2009 a obsahovala přes 5 milionů digitalizovaných knih, autoři analyzují slovo četnost využití zkoumat jazykové změny a kulturní trendy. Brzy Google Books Corpus stal oblíbeným zdrojem dat pro výzkumné pracovníky, a druhá verze databáze byla vydána v roce 2012.

    Nicméně, Pechenick, Danforth, and Dodds (2015) varoval, že výzkumní pracovníci musí plně charakterizovat proces vzorkovací korpusu před jejím použitím pro kreslení obecné závěry. Hlavním problémem je, že korpus je knihovna, podobné výrobky, obsahující jednu z každé knihy. V důsledku toho jedince, plodný autor je schopen výrazně vložit nové věty do lexikonu Google Books. Kromě toho vědecké texty představují stále podstatnou část korpusu skrz 1900s. Navíc tím, že porovnání dvou verzí hraných datové sady anglických, Pechenick et al. nalezen důkaz, že nedostatečná filtrace byla použita při výrobě první verzi. Všechny údaje potřebné pro činnost je k dispozici zde: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. V Michel et al., Originální papír (2011) , oni používali 1. verzi sady dat anglické, vyneseny četnosti použití letech "1880", "1912" a "1973", a dospěl k závěru, že "jsme zapomněl svou minulost rychleji každým rokem "(obr. 3A, Michel et al.). Replikovat stejný děj pomocí 1) 1. verze korpusu, anglicky datovém souboru (stejně jako na obr. 3A, Michel et al.)
    2. Nyní replikovat stejný pozemek o 1. verze, anglické beletrie datové sady.
    3. Nyní replikovat stejný děj s 2. verzí korpusu, anglicky datovém souboru.
    4. A konečně, replikovat stejný pozemek o 2. verze, anglické beletrie datové sady.
    5. Popsat rozdíly a podobnosti mezi těmito čtyřmi pozemků. Souhlasíte s Michelem et al., Originální interpretace pozorovaného trendu? (Tip: c) a d), by měla být stejná jako na obrázku 16 v Pechenick et al).
    6. Nyní, když byly replikovány tento nález za použití různých Knihy Google korpusů, pak zvolíme jinou jazykovou změnu nebo kulturní jevy prezentované v Michel et al., Originální papír. Souhlasíte s jejich výkladu s ohledem na omezení uvedených v Pechenick et al.? Aby se vaše argumentace silnější, zkuste zopakovat stejný graf s využitím různých verzí sady dat jak je uvedeno výše.
  8. [ velmi těžké , sběr dat , vyžaduje kódování , můj oblíbený ] Penney (2016) zkoumá, zda je rozšířená publicita o NSA / PRISM dohledu (tj Snowden odhalením) v červnu 2013 je spojen s prudkým a náhlým poklesem návštěvnosti Wikipedia články o tématech, které vyvolávají obavy o ochraně osobních údajů. Pokud ano, tato změna v chování by bylo v souladu s mrazivým efektem vyplývající z hromadný dozor. Přístup Penney (2016) je někdy nazýván v přerušené časová řada design a je spojené s přístupů v kapitole o sblížení experimenty z pozorovacích dat (§ 2.4.3).

    Chcete-li zvolit toto téma klíčová slova, Penney uvedených v seznamu použité amerického ministerstva pro vnitřní bezpečnost pro sledování a monitorování sociálních médií. Seznam DHS kategorizuje určité hledané termíny do celé řady otázek, tedy "Health Concern", "bezpečnostní infrastrukturu," a "terorismu". Pro studijní skupiny, Penney použity čtyřicet osm klíčová slova vztahující se k "terorismu" (viz tabulka 8 Dodatek). On pak agregované počty zobrazení článku Wikipedie na měsíční bázi pro odpovídající osmačtyřiceti články z Wikipedie více než třiceti dvouměsíčního období od začátku ledna 2012 do konce srpna 2014. Za účelem posílení jeho argument, on také vytvořil několik porovnání skupiny tím, že sleduje názory článek o jiných tématech.

    Nyní budete replikovat a rozšiřovat Penney (2016) . Všechna surová data, která budete potřebovat pro tuto činnost je k dispozici od Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Nebo ji můžete získat od R balíčku wikipediatrend (Meissner and Team 2016) . Když píšete-up vaše odpovědi, upozorňujeme, který zdroj dat jste použili. (Poznámka: Toto stejné aktivita se objevuje také v kapitole 6)

    1. Přečtěte si Penney (2016) a replikovat Obrázek 2, který ukazuje zobrazených stránek za "terorismus" by tudíž stránek před a po Snowden odhalení. Interpretovat výsledky.
    2. Dále replikovat obr 4A, který porovnává studijní skupinu ( "terorismu" spojené se studiem články) se srovnávací skupině pomocí klíčových slov roztříděné podle "DHS a dalších agentur" ze seznamu DHS (viz příloha Tabulka 10). Interpretovat výsledky.
    3. V části b), které ve srovnání studijní skupinu na jeden srovnávací skupině. Penney také ve srovnání s dalšími dvěma srovnávacích skupinách: "Bezpečnost infrastruktury" by tudíž články (příloha tabulka 11) a populárních stránek Wikipedii (dodatek tabulka 12). Přijít s alternativním srovnávací skupině, a otestovat, zda poznatky z části b) je citlivá na vaší volbě srovnávací skupině. Která volba srovnávací skupině dává největší smysl? Proč?
    4. Autor uvedl, že klíčová slova vztahující se k "terorismu" se používá k volbě články z Wikipedie, protože americká vláda citovaný proti terorismu jako hlavní ospravedlnění pro své on-line postupů dohledu. Jako kontrola těchto 48 "terorismu" by tudíž klíčová slova, Penney (2016) také provedla průzkum o MTurk dotazováni na obsah hodnotit každou z klíčových slov, pokud jde o vlády Trouble, Soukromí citlivý a vyhnout (dodatek tabulka 7 a 8). Replikovat průzkum na MTurk a porovnat své výsledky.
    5. Na základě výsledků z části d) a vaše čtení tohoto článku založen, souhlasíte s výběrem autorově témat klíčových slov ve studijní skupině? Proč nebo proč ne? Pokud ne, jaké byste navrhovali místo toho?
  9. [ snadný ] Efrati (2016) zprávy, na základě důvěrných informací, že "celková sdílení" na Facebooku snížil o 5,5% meziroční nárůst, zatímco "původní sdílení broadcast" se snížil o 21% oproti loňskému roku. Tento pokles byl zvláště akutní u uživatelů Facebooku pod 30 let věku. Zpráva připisuje pokles dvěma faktorům. Jedním z nich je nárůst počtu "přátel" lidé mají na Facebooku. Na druhé straně je, že některé sdílení aktivita se přesunula do zpráv a konkurenty, jako snapchat. Zpráva rovněž odhalila několik taktiku Facebook se pokusil posílit sdílení, včetně News Feed algoritmus vylepšení, které tvoří originální příspěvky výraznější, stejně jako periodické připomenutí původních uživatelů přispívání "V tento den" Před několika lety. Jaké důsledky, pokud vůbec, se tyto nálezy jsou pro výzkumné pracovníky, kteří chtějí používat Facebook jako zdroj dat?

  10. [ střední ] Tumasjan et al. (2010) uvádějí, že podíl tweets zmiňujících politickou stranu uzavřeno podíl hlasů, které strana obdržela v německém parlamentních volbách v roce 2009 (obr 2.9). Jinými slovy, to vypadalo, že byste mohli použít Twitter předpovědět volby. V době psaní této studie byla zveřejněna bylo považováno za velmi vzrušující, protože to vypadalo, že navrhnout cennou využití pro společný zdroj velkých dat.

    Vzhledem k tomu, špatné vlastnosti zpracování velkých objemů dat, nicméně, měli byste okamžitě být skeptický tohoto výsledku. Němci na Twitteru v roce 2009 byly docela skupina nereprezentativní, a příznivci by jedna strana mohla tweet o politice častěji. Zdá se tedy, překvapivé, že všechny možné předsudky, které byste mohli představit nějak vyruší. Ve skutečnosti, výsledky v Tumasjan et al. (2010) se ukázalo být příliš dobré, aby to byla pravda. Ve svém článku, Tumasjan et al. (2010) považován za šest politických stran: křesťanští demokraté (CDU), Křesťansko-sociální demokraté (CSU), SPD, liberály (FDP) a levá (Die Linke) a Stranu zelených (Grüne). Nicméně, nejčastěji zmiňováno německá politická strana na Twitteru byl v té době Pirátská strana (Piraten), strana, která bojuje proti vládní regulaci Internetu. Když byl Pirátská strana zahrnuty do analýzy, Twitter zmíní se stane strašná prediktor volebních výsledků (obr 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Obrázek 2.9: Twitter se zmiňuje se zdá předvídat výsledky německého voleb v roce 2009 (Tumasjan et al 2010)., Ale tento výsledek se ukáže, že jsou závislé na některých svévolný a neodůvodněný volby (Jungherr, Jürgens a Schoen 2012).

    Obrázek 2.9: Twitter se zmiňuje se zdá předvídat výsledky německého voleb v roce 2009 (Tumasjan et al. 2010) , Ale tento výsledek se ukáže, že jsou závislé na některých svévolný a neodůvodněný volby (Jungherr, Jürgens, and Schoen 2012) .

    Následně, jiní výzkumníci po celém světě používají milovník způsoby-jako například za použití analýzy cit rozlišovat mezi pozitivní a negativní zmínky o stran-v, aby se zlepšila schopnost Twitter dat předpovědět celou řadu různých typů voleb (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Zde je návod, jak Huberty (2015) shrnuje výsledky těchto pokusů předpovědět volby:

    "Všechny známé prognostické metody založené na sociálních médiích se nepodařilo když je vystaven k požadavkům opravdového výhledový volební prognózy. Tyto poruchy se zdají být v důsledku základních vlastností sociálních médií, spíše než metodologických nebo algoritmické problémy. Stručně řečeno, sociální média nemají, a pravděpodobně nikdy nebude, nabízejí stabilní, nezkreslené, reprezentativní obraz voličů; a vzorky pohodlí sociálních médií chybí dostatečné údaje opravit tyto problémy post hoc ".

    Přečtěte si některé z výzkumu, který vedl Huberty (2015) k takovému závěru, a napsat jednu stránku poznámku politického kandidáta popisující, zda a jak Twitter by měly být použity k předpovědi volby.

  11. [ střední ] Jaký je rozdíl mezi sociolog a historik? Podle Goldthorpem (1991) , hlavní rozdíl mezi sociolog a historik je kontrola nad sběr dat. Historici jsou nuceni používat ostatky, zatímco sociologové mohou přizpůsobit svůj osobní data jsou shromažďována ke specifickým účelům. Přečtěte Goldthorpe (1991) . Jak je rozdíl mezi sociologie a historie souvisí s myšlenkou Custommades a readymades?

  12. [ tvrdý ] V návaznosti na předchozí otázku, Goldthorpe (1991) nakreslil řadu kritických reakcí, včetně jednoho z Nicky Hart (1994) , který napadal Goldthorpem oddanost na míru vyrobené dat. K objasnění možných omezení dat na míru, Hart popsal bohatých Worker Project, velký průzkum pro měření vztahu mezi sociální třídou a hlasování, který byl řízen Goldthorpem a kolegy v polovině-1960. Jak by se dalo očekávat od učence, který zvýhodňuje navrhl dat přes zjištěných údajů, hojnosti Worker Project shromažďují data, která byla přímo zaměřená na nedávno navrženou teorii o budoucnosti sociální třídy v době zvyšující se životní úrovně. Ale Goldthorpe a jeho kolegové nějak "zapomněl" shromažďovat informace o volebním chování žen. Zde je návod, jak Nicky Hart (1994) shrnuje celou epizodu:

    ". , , to [je] těžké vyhnout se závěru, že ženy byly vynechány, neboť tento "šité na míru" datový soubor byl uvězněn pomocí paradigmatickém logiky, která vyloučené ženskou zkušenost. Poháněn teoretické vize třídního uvědomění a akce jako mužských starostí. , , , Goldthorpe a jeho kolegové zkonstruoval řadu empirických důkazů, které krmí a udržovanou vlastní teoretické předpoklady namísto jejich vystavení platného testu přiměřenosti. "

    Hart pokračoval:

    "Na empirické poznatky z bohatých Worker Project nám říci více o masculinist hodnotách sociologie v polovině století, než informují o tom procesy stratifikace, politiky a hmotného života."

    Vzpomenete si na dalších příkladů, kdy sběr dat šité na míru má zaujatosti kolekcí dat v něm zabudovány? Jak to v porovnání s algoritmické matoucí? Jaké důsledky by to mohlo mít, když výzkumní pracovníci by měli používat readymades a když oni by měli používat Custommades?

  13. [ střední ] V této kapitole kontrastoval I dat shromážděných výzkumnými pracovníky pro výzkumné pracovníky s administrativními záznamy vytvořené společnostmi a vládami. Někteří lidé říkají tyto administrativní záznamy "nalezeno dat", které kontrastují s "navržených daty." Je pravda, že správní záznamy jsou nalezeny výzkumní pracovníci, ale jsou také velmi určeny. Například moderní technologické firmy utratit obrovské množství času a zdrojů ke shromažďování a kaplan jejich data. Tak, tyto administrativní záznamy jsou oba našel a navrženy, to záleží na úhlu pohledu (obrázek 2.10).

    Obrázek 2.10: Na obrázku je i kachna a králíka; co vidíte, závisí na úhlu pohledu. Vládní a obchodní administrativní záznamy jsou oba nalezen a navržen; co vidíte, závisí na úhlu pohledu. Například, datové záznamy získané pomocí mobilního telefonu společnosti jsou k dispozici data z pohledu výzkumného pracovníka. Ale tyto přesně stejné záznamy jsou navrženy tak, datový pohled na někoho, kdo pracuje v účtovacím oddělením telefonní společnosti. Zdroj: Wikimedia Commons

    Obrázek 2.10: Na obrázku je i kachna a králíka; co vidíte, závisí na úhlu pohledu. Vládní a obchodní administrativní záznamy jsou oba nalezen a navržen; co vidíte, závisí na úhlu pohledu. Například, datové záznamy získané pomocí mobilního telefonu společnosti jsou k dispozici data z pohledu výzkumného pracovníka. Ale tyto přesně stejné záznamy jsou navrženy tak, datový pohled na někoho, kdo pracuje v účtovacím oddělením telefonní společnosti. Zdroj: Wikimedia Commons

    Poskytnout příklad zdroj dat, kde vidět to jak z našel a navrženy tak je užitečné při použití tohoto zdroje dat pro výzkum.

  14. [ snadný ] V promyšlené eseje, Christian Sandvig a Eszter Hargittai (2015) popisují dva druhy digitálního výzkumu, kde je digitální systém je "nástroj" nebo "předmět studia." Příkladem prvního druhu studia je místo, kde Bengtsson a jeho kolegové (2011) používaných dat mobilních telefonů ke sledování migrace po zemětřesení na Haiti v roce 2010. Jako příklad druhého druhu je místo, kde Jensen (2007) studie, jak zavedení mobilních telefonů na celém Kerala, Indie dopad na fungování trhu s rybami. Připadá mi to užitečné, protože objasňuje, že studie využívající digitální datové zdroje mohou mít zcela odlišné cíle, i když používají stejný typ zdroje dat. Za účelem dalšího objasnění tohoto rozdílu, popsat čtyři studie, které jste viděli: dvě, které používají digitální systém jako nástroj a dvě, které používají digitální systém jako předmět studia. Můžete používat příklady z této kapitoly, pokud chcete.