aktivity

  • stupeň obtížnosti: snadné snadný , médium střední , tvrdé tvrdý , velmi obtížné velmi obtížné
  • vyžaduje matematiku ( vyžaduje matematiku ).
  • vyžaduje kódování ( vyžaduje kódování ).
  • sběr dat ( sběr dat ).
  • můj oblíbený ( můj oblíbený ).
  1. [ střední , můj oblíbený ] Algoritmické zmatení byl problém s Chřipkovými trendy Google. Přečtěte si papír Lazer et al. (2014) a napsat stručný a jasný e-mail inženýrovi společnosti Google, který vysvětluje problém a nabídne představu o tom, jak ho opravit.

  2. [ střední ] Bollen, Mao, and Zeng (2011) tvrdí, že údaje z Twitteru lze použít k předpovědi akciového trhu. Toto zjištění vedlo k vytvoření hedgeového fondu - Derwent Capital Markets - investovat na akciovém trhu na základě údajů shromážděných z Twitteru (Jordan 2010) . Jaké důkazy byste chtěli vidět před vložením svých peněz do tohoto fondu?

  3. [ snadný ] Zatímco někteří zastánci veřejného zdraví považují elektronické cigarety za účinnou pomoc při odvykání kouření, ostatní varují před potenciálními riziky, jako je vysoká hladina nikotinu. Představte si, že výzkumný pracovník se rozhodne pro studium veřejného mínění vůči e-cigaretu tím, že shromažďuje příspěvky týkající se digitálních cigaret souvisejících s elektronickými cigaretami a provádí analýzu sentimentu.

    1. Jaké jsou tři možné předsudky, u kterých se v této studii nejvíce obáváte?
    2. Clark et al. (2016) proběhl právě takovou studii. Za prvé, shromáždili 850 000 tweetů, které používaly klíčová slova související s e-cigaretou od ledna 2012 do prosince 2014. Při bližším prohlídce si uvědomili, že mnohé z těchto tweets byly automatizované (tj. Nebyly vyrobeny lidmi) a mnohé z těchto automatizovaných tweets byly v podstatě reklamy. Vyvinuli algoritmus detekce člověka k oddělení automatizovaných tweets od organických tweets. Pomocí tohoto lidského algoritmu zjistili, že 80% tweets bylo automatizováno. Toto zjištění změní odpověď na část (a)?
    3. Když srovnávali sentiment v organických a automatizovaných twetech, zjistili, že automatizované tweety byly pozitivnější než organické tweety (6,17 versus 5,84). Zjišťuje toto zjištění vaše odpověď na (b)?
  4. [ snadný ] V listopadu 2009 Twitter změnil otázku v kolonce "Co děláš?" Na "Co se děje?" (Https://blog.twitter.com/2009/whats-happening).

    1. Jak si myslíte, že změna výzvy ovlivní, kdo tweety a / nebo to, co tweet?
    2. Název jednoho výzkumného projektu, pro který byste preferovali výzvu "Co děláte?" Vysvětlete proč.
    3. Naznačte jeden výzkumný projekt, pro který byste preferovali výzvu "Co se děje?" Vysvětlete proč.
  5. [ snadný ] "Retweets" se často používají k měření vlivu a šíření vlivu na Twitter. Zpočátku uživatelé museli kopírovat a vkládat tweet, který se jim líbili, označit originálního autora jeho rukojetí a ručně zadat "RT" před tweetem, což naznačuje, že jde o retweet. Pak v roce 2009 Twitter přidal tlačítko "retweet". V červnu 2016 služba Twitter umožnila uživatelům opakovat vlastní tweety (https://twitter.com/twitter/status/742749353689780224). Myslíte si, že tyto změny by měly mít vliv na to, jak ve výzkumu používáte retweety? Proč nebo proč ne?

  6. [ velmi obtížné , sběr dat , vyžaduje kódování , můj oblíbený ] Ve velmi diskutovaném článku Michel a kolegové (2011) analyzovali obsah více než pěti milionů digitalizovaných knih ve snaze identifikovat dlouhodobé kulturní trendy. Data, kterou použili, byla nyní uvolněna jako datová sada společnosti Google NGrams, a proto můžeme data použít k replikaci a rozšíření části jejich práce.

    V jednom z mnoha výsledků v práci Michel a kolegové argumentovali, že zapomínáme rychleji a rychleji. Pro určitý rok, řekněme "1883", vypočítali poměr 1 gramů publikovaných v každém roce mezi lety 1875 a 1975, které byly "1883". Zdůvodnili, že tento poměr je měřítkem zájmu o události, ke kterým došlo v tomto roce. Ve svém obrázku 3a vykreslovali trajektorie použití po dobu tří let: 1883, 1910 a 1950. Tyto tři roky mají společný vzorec: málo použití před tím rokem, pak špice, pak rozpad. Poté, aby kvantifikoval míru úpadku pro každý rok, Michel a kolegové vypočítali "poločas" každého roku pro všechny roky mezi lety 1875 a 1975. Na jejich obrázku 3a (vložka), ukázali, že poločas každého rok klesá, a argumentovali, že to znamená, že zapomínáme na minulost rychleji a rychleji. Používali Verzi 1 korpusu anglického jazyka, ale následně Google vydala druhou verzi korpusu. Předtím, než začnete kódovat, přečtěte si všechny části otázky.

    Tato aktivita vám poskytne praxi psaní opakovaně použitelného kódu, výsledků tlumočení a hádky s daty (například práce s nevhodnými soubory a zacházení s chybějícími daty). Tato aktivita vám také pomůže začít s bohatou a zajímavou datovou sadou.

    1. Získejte nezpracované údaje z webových stránek prohlížeče NGM služby Google Books. Zejména byste měli používat verzi 2 anglického korpusu, který byl vydán 1. července 2012. Nekomprimovaný tento soubor je 1,4 GB.

    2. Znovu vytvořte hlavní část obrázku 3a Michel et al. (2011) . Chcete-li tento obrázek znovu vytvořit, budete potřebovat dva soubory: ten, který jste si stáhli částečně (a), a soubor "total counts", který můžete použít k převodu surových hodnot na proporce. Vezměte na vědomí, že celkový počet souborů má strukturu, která může způsobit, že je trochu těžké číst. Má verze 2 dat NGram podobné výsledky, které jsou uvedeny v publikaci Michel et al. (2011) , které vycházejí z údajů verze 1?

    3. Nyní zkontrolujte graf proti grafu vytvořenému prohlížečem NGram.

    4. Obnovte obrázek 3a (hlavní obrázek), ale změňte hodnotu \(y\) tak, aby se jednalo o počet surovin (nikoliv o míru zmínek).

    5. Rozdíly mezi (b) a (d) vedou k přehodnocení kteréhokoliv z výsledků Michela a kol. (2011). Proč nebo proč ne?

    6. Nyní pomocí poměru zmínek zopakujte vložku z obrázku 3a. To znamená, že pro každý rok mezi lety 1875 a 1975 vypočítáme poločas daného roku. Poločas rozpadu je definován jako počet let, který uplyne předtím, než poměr zmíněných údajů dosáhne poloviny jeho špičkové hodnoty. Poznamenejme, že Michel et al. (2011) dělají něco složitějšího k odhadu poločasu rozpadu - viz oddíl III.6 Podpora on-line informací - ale tvrdí, že oba přístupy mají podobné výsledky. Provede verze 2 dat NGram podobné výsledky, jaké jsou uvedeny v publikaci Michel et al. (2011) , které vycházejí z údajů verze 1? (Tip: Nenechte se překvapit, pokud tomu tak není.)

    7. Byly tam nějaké roky, které byly mimořádné, například roky, které byly zapomenuty zvlášť rychle nebo zvlášť pomalu? Stručně spekulujte o možných příčinách tohoto vzorce a vysvětlete, jak jste identifikovali odlehlé hodnoty.

    8. Nyní replikujte tento výsledek pro verzi 2 dat NGrams v čínštině, francouzštině, němčině, hebrejštině, italštině, ruštině a španělštině.

    9. Ve srovnání se všemi jazyky existovaly nějaké roky, které byly mimořádné, například roky, které byly zapomenuty zvlášť rychle nebo zvlášť pomalu? Stručně spekulujte o možných příčinách tohoto vzoru.

  7. [ velmi obtížné , sběr dat , vyžaduje kódování , můj oblíbený ] Penney (2016) zkoumala, zda rozšířená publicita o sledování NSA / PRISM (tj. Snowdenových odhalení) v červnu 2013 byla spojena s prudkým a náhlým poklesem návštěvnosti článků Wikipedie o tématech, které vyvolávají obavy o ochranu soukromí. Pokud ano, tato změna v chování by byla v souladu s chladícím účinkem vyplývajícím z hromadného dozoru. Přístup Penney (2016) je někdy nazýván přerušovaným designem časové řady a souvisí s přístupy popsanými v části 2.4.3.

    Chcete-li vybrat klíčová slova pro téma, Penney odkazoval na seznam používaný americkým ministerstvem vnitřní bezpečnosti pro sledování a sledování sociálních médií. Seznam DHS kategorizuje určité vyhledávací termíny do řady problémů, např. "Zdraví," "Bezpečnost infrastruktury" a "Terorismus". Pro studijní skupinu použila Penney 48 klíčových slov souvisejících s terorismem (viz tabulka 8 dodatku) ). Souhrnný článek o počtu článků Wikipedie se počítá měsíčně na odpovídající 48 článků Wikipedie za období 32 měsíců od začátku ledna 2012 do konce srpna 2014. Pro posílení jeho argumentace vytvořil několik srovnávacích skupin sledováním názory článků na další témata.

    Nyní budete replikovat a rozšířit Penney (2016) . Všechna surová data, která budete potřebovat pro tuto činnost, jsou k dispozici na webu Wikipedia. Nebo ji můžete získat z balíčku R-wikipedirend (Meissner and R Core Team 2016) . Když píšete své odpovědi, vezměte prosím na vědomí, který zdroj dat jste použili. (Uvědomte si, že stejná aktivita se také objevuje v kapitole 6.) Tato aktivita vám poskytne praktické zkušenosti s problematikou dat a přemýšlení o přirozených experimentech ve velkých zdrojích dat. Také vás zajímá potenciálně zajímavý zdroj dat pro budoucí projekty.

    1. Přečtěte si Penney (2016) a zopakujte jeho obrázek 2, který zobrazuje pohledy na stránky související s terorismem před a po Snowdenových odhaleních. Interpretujte poznatky.
    2. Dále replikujte obrázek 4A, který porovnává studijní skupinu (články týkající se "terorismu") s komparátorovou skupinou, která používá klíčová slova zařazená pod "DHS a dalšími agenturami" ze seznamu DHS (viz příloha tabulka 10 a poznámka pod čarou 139). Interpretujte poznatky.
    3. V části (b) jste srovnávali studijní skupinu s jednou komparátorovou skupinou. Penney také porovnal s dvěma dalšími komparativními skupinami: články týkající se bezpečnosti infrastruktury (příloha tabulka 11) a populární stránky Wikipedie (tabulka přílohy 12). Vydejte se s alternativní skupinou komparátorů a vyzkoušejte, zda jsou nálezy z části (b) citlivé na váš výběr komparátorové skupiny. Který výběr má nejvíce smysl? Proč?
    4. Penney uvedl, že klíčová slova týkající se "terorismu" byla použita k výběru článků Wikipedie, protože vláda USA citovala terorismus jako klíčové ospravedlnění pro své on-line postupy dozoru. Jako kontrola těchto 48 klíčových slov souvisejících s terorismem provedla společnost Penney (2016) také průzkum MTurk, v němž žádá, aby respondenti vyhodnotili všechna ht klíčová slova z hlediska vládních potíží, citlivých na soukromí a zamezení (příloha 7 a 8 ). Replikujte průzkum MTurk a srovnejte své výsledky.
    5. Na základě výsledků v části (d) a vašeho čtení článku souhlasíte s výběrem klíčových klíčových slov ve skupině Penney? Proč nebo proč ne? Pokud ne, co byste místo toho navrhli?
  8. [ snadný ] Efrati (2016) na základě důvěrných informací uvedla, že "celkové sdílení" na Facebooku se meziročně snížilo o 5,5%, zatímco "původní sdílené vysílání" se meziročně snížilo o 21%. Tento pokles byl obzvláště akutní u uživatelů Facebook ve věku do 30 let. Zpráva připisuje pokles dvěma faktorům. Jedním z nich je nárůst počtu přátel, které mají lidé na Facebooku. Druhým je to, že se někteří sdílející aktivity přesunuli ke zprávám a konkurentům, jako je například Snapchat. Zpráva rovněž odhalila několik taktik, které se Facebook snažila zvýšit sdílení, včetně úprav algoritmů News Feed, které činí originální příspěvky významnějšími, stejně jako pravidelné připomenutí původních příspěvků s funkcí "Na tento den". Jaké důsledky, pokud nějaké, mají tyto poznatky pro vědce, kteří chtějí použít Facebook jako zdroj dat?

  9. [ střední ] Jaký je rozdíl mezi sociologem a historikem? Podle Goldthorpe (1991) je hlavním rozdílem kontrola sběru dat. Historici jsou nuceni používat památky, zatímco sociologové mohou přizpůsobit shromažďování údajů k určitým účelům. Přečtěte si Goldthorpe (1991) . Jaký je rozdíl mezi sociologií a historií v souvislosti s myšlenkou zakázky a hotové výroby?

  10. [ tvrdý ] Toto vychází z předchozího dotazu. Goldthorpe (1991) vypracoval několik kritických odpovědí, včetně jednoho od Nickyho Harta (1994) který zpochybnil oddanost Goldthorpe k přizpůsobeným údajům. Aby objasnil potenciální omezení na míru šitých dat, popsal Hart projekt "Affluent Worker", rozsáhlý průzkum, který měřil vztah mezi společenskou třídou a hlasováním, který vedl Goldthorpe a kolegové v polovině šedesátých let. Jak lze očekávat od učence, který upřednostňoval navrhovaná data před zjištěnými daty, Projekt Affluent Worker shromáždil data, která byla přizpůsobena k řešení nedávno navržené teorie o budoucnosti společenské třídy v éře rostoucí životní úrovně. Ale Goldthorpe a kolegové nějak "zapomněli", aby shromáždili informace o volebním chování žen. Takhle Nicky Hart (1994) shrnul celou epizodu:

    "... je obtížné vyhnout se závěru, že ženy byly vynechány, protože tato sada dat" na míru "byla omezena paradigmatickou logikou, která vylučovala zkušenosti žen. Vedená teoretickou vizí třídního vědomí a činnosti jako mužských zájmů ..., Goldthorpe a jeho kolegové sestavili soubor empirických důkazů, které místo toho vystavovaly platnému testu přiměřenosti.

    Hart pokračoval:

    "Empirické poznatky projektu Affluent Worker nám říkají více o maskulinistických hodnotách sociologie v polovině století, než o procesech stratifikace, politiky a hmotného života."

    Mohli byste přemýšlet o dalších příkladech, ve kterých je kolekce sběru dat na míru vyvinuta? Jak to porovnáme s algoritmickým zmatením? Jaké důsledky by mohly mít tyto skutečnosti, když by výzkumní pracovníci měli používat hotové modely a kdy by měli používat zakázku?

  11. [ střední ] V této kapitole jsem porovnával údaje shromážděné výzkumnými pracovníky pro výzkumníky s administrativními záznamy vytvořenými společnostmi a vládami. Někteří lidé nazývají tyto administrativní záznamy "nalezené údaje", které kontrastují s "navrženými daty". Je pravda, že správní záznamy naleznou výzkumní pracovníci, ale jsou také vysoce navrženy. Například moderní technologické společnosti velmi tvrdě pracují na shromažďování a vyřizování svých údajů. Tyto administrativní záznamy jsou tedy nalezeny a navrženy, záleží jen na vaší perspektivě (obrázek 2.12).

    Obrázek 2.12: Obraz je jak kachna, tak i králík; to, co vidíte, závisí na vaší perspektivě. Zdroje velkých dat jsou nalezeny a navrženy; opět, to, co vidíte, závisí na vaší perspektivě. Například záznamy o datových voláních shromážděné společností mobilních telefonů naleznou údaje z pohledu výzkumného pracovníka. Ale tyto přesně stejné záznamy jsou navrženy z hlediska osoby, která pracuje na fakturačním oddělení telefonní společnosti. Zdroj: Popular Science Monthly (1899) / Wikimedia Commons.

    Obrázek 2.12: Obraz je jak kachna, tak i králík; to, co vidíte, závisí na vaší perspektivě. Zdroje velkých dat jsou nalezeny a navrženy; opět, to, co vidíte, závisí na vaší perspektivě. Například záznamy o datových voláních shromážděné společností mobilních telefonů naleznou údaje z pohledu výzkumného pracovníka. Ale tyto přesně stejné záznamy jsou navrženy z hlediska osoby, která pracuje na fakturačním oddělení telefonní společnosti. Zdroj: Popular Science Monthly (1899) / Wikimedia Commons .

    Uveďte příklad zdroje dat, kde je vidět, jak je nalezeno, tak i navrženo, je užitečné při použití tohoto zdroje dat pro výzkum.

  12. [ snadný ] Křesťan Sandvig a Eszter Hargittai (2015) v myšlenkové eseji rozdělili digitální výzkum do dvou širokých kategorií v závislosti na tom, zda je digitální systém "nástrojem" nebo "předmětem studia". Příkladem prvního druhu - kde je systém nástrojem - je výzkum Bengtssona a kolegů (2011) o využití mobilních telefonních údajů pro sledování migrace po zemětřesení na Haiti v roce 2010. Příkladem druhého druhu - kde je systém předmětem studia - je výzkum od Jensena (2007) o tom, jak zavedení mobilních telefonů v celém Keralu v Indii ovlivnilo fungování trhu s rybami. Tento rozdíl považuji za užitečný, protože objasňuje, že studie využívající digitální zdroje dat mohou mít zcela odlišné cíle, i když používají stejný zdroj dat. Chcete-li toto rozlišení lépe objasnit, popište čtyři studie, které jste viděli: dva, které používají digitální systém jako nástroj a dva, které používají digitální systém jako předmět studia. Pokud chcete, můžete použít příklady z této kapitoly.