Klíč:
[ , ] Algoritmický matoucí byl problém s Chřipkové trendy Google. Číst noviny podle Lazer et al. (2014) , a napsat krátkou, jasnou e-mail inženýr ve společnosti Google s vysvětlením problému a nabízí představu o tom, jak problém vyřešit.
[ ] Bollen, Mao, and Zeng (2011) tvrdí, že data z Twitteru mohou být použity k predikci na akciovém trhu. Toto zjištění vedlo k vytvoření investiční fond-Derwent Capital Markets-investovat na akciovém trhu na základě údajů získaných od Twitteru (Jordan 2010) . Jaké důkazy byste chtěli vidět před uvedením své peníze v tomto fondu?
[ ] Zatímco někteří zastánci veřejného zdraví krupobití e-cigarety jako účinný nástroj pro odvykání kouření, jiní varují před možnými riziky, jako jsou výškových úrovní nikotinu. Představte si, že výzkumný pracovník rozhodne pro studium veřejného mínění směrem k e-cigarety tím, že sbírá e-cigarety související Twitter příspěvky a provádění analýz sentimentu.
[ ] V listopadu 2009, Twitter změnil otázku tweetu krabici od "Co to děláš?" To "Co se děje?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analyzovali 41,7 milionu uživatelských profilů, 1,47 miliardy společenských vztahů 4262 témat sledování trendů a 106 milionů tweetů mezi 6. června a 31. června 2009. Na základě této analýzy jsou k závěru, že Twitter slouží spíše jako nové médium o sdílení informací než Based sociální síť.
[ ] "Retweets" se často používají k měření vlivu a šíření vlivu na Twitteru. Zpočátku museli uživatelé zkopírovat a vložit tweet měli rádi, označte původní autor s jeho / její rukojetí a ručně před tweetu typu "RT" pro indikaci, že je to retweet. Pak, v roce 2009 Twitter přidal tlačítko "retweet". V červnu 2016, Twitter umožnil uživatelům retweet své tweety (https://twitter.com/twitter/status/742749353689780224). Myslíte si, že by tyto změny neměly mít vliv na tom, jak používat "retweets" ve svém výzkumu? Proč nebo proč ne?
[ , , ] Michel et al. (2011) zkonstruoval korpus vznikající ze snahy společnosti Google digitalizovat knihy. Použití první verze korpusu, který byl zveřejněn v roce 2009 a obsahovala přes 5 milionů digitalizovaných knih, autoři analyzují slovo četnost využití zkoumat jazykové změny a kulturní trendy. Brzy Google Books Corpus stal oblíbeným zdrojem dat pro výzkumné pracovníky, a druhá verze databáze byla vydána v roce 2012.
Nicméně, Pechenick, Danforth, and Dodds (2015) varoval, že výzkumní pracovníci musí plně charakterizovat proces vzorkovací korpusu před jejím použitím pro kreslení obecné závěry. Hlavním problémem je, že korpus je knihovna, podobné výrobky, obsahující jednu z každé knihy. V důsledku toho jedince, plodný autor je schopen výrazně vložit nové věty do lexikonu Google Books. Kromě toho vědecké texty představují stále podstatnou část korpusu skrz 1900s. Navíc tím, že porovnání dvou verzí hraných datové sady anglických, Pechenick et al. nalezen důkaz, že nedostatečná filtrace byla použita při výrobě první verzi. Všechny údaje potřebné pro činnost je k dispozici zde: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) zkoumá, zda je rozšířená publicita o NSA / PRISM dohledu (tj Snowden odhalením) v červnu 2013 je spojen s prudkým a náhlým poklesem návštěvnosti Wikipedia články o tématech, které vyvolávají obavy o ochraně osobních údajů. Pokud ano, tato změna v chování by bylo v souladu s mrazivým efektem vyplývající z hromadný dozor. Přístup Penney (2016) je někdy nazýván v přerušené časová řada design a je spojené s přístupů v kapitole o sblížení experimenty z pozorovacích dat (§ 2.4.3).
Chcete-li zvolit toto téma klíčová slova, Penney uvedených v seznamu použité amerického ministerstva pro vnitřní bezpečnost pro sledování a monitorování sociálních médií. Seznam DHS kategorizuje určité hledané termíny do celé řady otázek, tedy "Health Concern", "bezpečnostní infrastrukturu," a "terorismu". Pro studijní skupiny, Penney použity čtyřicet osm klíčová slova vztahující se k "terorismu" (viz tabulka 8 Dodatek). On pak agregované počty zobrazení článku Wikipedie na měsíční bázi pro odpovídající osmačtyřiceti články z Wikipedie více než třiceti dvouměsíčního období od začátku ledna 2012 do konce srpna 2014. Za účelem posílení jeho argument, on také vytvořil několik porovnání skupiny tím, že sleduje názory článek o jiných tématech.
Nyní budete replikovat a rozšiřovat Penney (2016) . Všechna surová data, která budete potřebovat pro tuto činnost je k dispozici od Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Nebo ji můžete získat od R balíčku wikipediatrend (Meissner and Team 2016) . Když píšete-up vaše odpovědi, upozorňujeme, který zdroj dat jste použili. (Poznámka: Toto stejné aktivita se objevuje také v kapitole 6)
[ ] Efrati (2016) zprávy, na základě důvěrných informací, že "celková sdílení" na Facebooku snížil o 5,5% meziroční nárůst, zatímco "původní sdílení broadcast" se snížil o 21% oproti loňskému roku. Tento pokles byl zvláště akutní u uživatelů Facebooku pod 30 let věku. Zpráva připisuje pokles dvěma faktorům. Jedním z nich je nárůst počtu "přátel" lidé mají na Facebooku. Na druhé straně je, že některé sdílení aktivita se přesunula do zpráv a konkurenty, jako snapchat. Zpráva rovněž odhalila několik taktiku Facebook se pokusil posílit sdílení, včetně News Feed algoritmus vylepšení, které tvoří originální příspěvky výraznější, stejně jako periodické připomenutí původních uživatelů přispívání "V tento den" Před několika lety. Jaké důsledky, pokud vůbec, se tyto nálezy jsou pro výzkumné pracovníky, kteří chtějí používat Facebook jako zdroj dat?
[ ] Tumasjan et al. (2010) uvádějí, že podíl tweets zmiňujících politickou stranu uzavřeno podíl hlasů, které strana obdržela v německém parlamentních volbách v roce 2009 (obr 2.9). Jinými slovy, to vypadalo, že byste mohli použít Twitter předpovědět volby. V době psaní této studie byla zveřejněna bylo považováno za velmi vzrušující, protože to vypadalo, že navrhnout cennou využití pro společný zdroj velkých dat.
Vzhledem k tomu, špatné vlastnosti zpracování velkých objemů dat, nicméně, měli byste okamžitě být skeptický tohoto výsledku. Němci na Twitteru v roce 2009 byly docela skupina nereprezentativní, a příznivci by jedna strana mohla tweet o politice častěji. Zdá se tedy, překvapivé, že všechny možné předsudky, které byste mohli představit nějak vyruší. Ve skutečnosti, výsledky v Tumasjan et al. (2010) se ukázalo být příliš dobré, aby to byla pravda. Ve svém článku, Tumasjan et al. (2010) považován za šest politických stran: křesťanští demokraté (CDU), Křesťansko-sociální demokraté (CSU), SPD, liberály (FDP) a levá (Die Linke) a Stranu zelených (Grüne). Nicméně, nejčastěji zmiňováno německá politická strana na Twitteru byl v té době Pirátská strana (Piraten), strana, která bojuje proti vládní regulaci Internetu. Když byl Pirátská strana zahrnuty do analýzy, Twitter zmíní se stane strašná prediktor volebních výsledků (obr 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Následně, jiní výzkumníci po celém světě používají milovník způsoby-jako například za použití analýzy cit rozlišovat mezi pozitivní a negativní zmínky o stran-v, aby se zlepšila schopnost Twitter dat předpovědět celou řadu různých typů voleb (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Zde je návod, jak Huberty (2015) shrnuje výsledky těchto pokusů předpovědět volby:
"Všechny známé prognostické metody založené na sociálních médiích se nepodařilo když je vystaven k požadavkům opravdového výhledový volební prognózy. Tyto poruchy se zdají být v důsledku základních vlastností sociálních médií, spíše než metodologických nebo algoritmické problémy. Stručně řečeno, sociální média nemají, a pravděpodobně nikdy nebude, nabízejí stabilní, nezkreslené, reprezentativní obraz voličů; a vzorky pohodlí sociálních médií chybí dostatečné údaje opravit tyto problémy post hoc ".
Přečtěte si některé z výzkumu, který vedl Huberty (2015) k takovému závěru, a napsat jednu stránku poznámku politického kandidáta popisující, zda a jak Twitter by měly být použity k předpovědi volby.
[ ] Jaký je rozdíl mezi sociolog a historik? Podle Goldthorpem (1991) , hlavní rozdíl mezi sociolog a historik je kontrola nad sběr dat. Historici jsou nuceni používat ostatky, zatímco sociologové mohou přizpůsobit svůj osobní data jsou shromažďována ke specifickým účelům. Přečtěte Goldthorpe (1991) . Jak je rozdíl mezi sociologie a historie souvisí s myšlenkou Custommades a readymades?
[ ] V návaznosti na předchozí otázku, Goldthorpe (1991) nakreslil řadu kritických reakcí, včetně jednoho z Nicky Hart (1994) , který napadal Goldthorpem oddanost na míru vyrobené dat. K objasnění možných omezení dat na míru, Hart popsal bohatých Worker Project, velký průzkum pro měření vztahu mezi sociální třídou a hlasování, který byl řízen Goldthorpem a kolegy v polovině-1960. Jak by se dalo očekávat od učence, který zvýhodňuje navrhl dat přes zjištěných údajů, hojnosti Worker Project shromažďují data, která byla přímo zaměřená na nedávno navrženou teorii o budoucnosti sociální třídy v době zvyšující se životní úrovně. Ale Goldthorpe a jeho kolegové nějak "zapomněl" shromažďovat informace o volebním chování žen. Zde je návod, jak Nicky Hart (1994) shrnuje celou epizodu:
". , , to [je] těžké vyhnout se závěru, že ženy byly vynechány, neboť tento "šité na míru" datový soubor byl uvězněn pomocí paradigmatickém logiky, která vyloučené ženskou zkušenost. Poháněn teoretické vize třídního uvědomění a akce jako mužských starostí. , , , Goldthorpe a jeho kolegové zkonstruoval řadu empirických důkazů, které krmí a udržovanou vlastní teoretické předpoklady namísto jejich vystavení platného testu přiměřenosti. "
Hart pokračoval:
"Na empirické poznatky z bohatých Worker Project nám říci více o masculinist hodnotách sociologie v polovině století, než informují o tom procesy stratifikace, politiky a hmotného života."
Vzpomenete si na dalších příkladů, kdy sběr dat šité na míru má zaujatosti kolekcí dat v něm zabudovány? Jak to v porovnání s algoritmické matoucí? Jaké důsledky by to mohlo mít, když výzkumní pracovníci by měli používat readymades a když oni by měli používat Custommades?
[ ] V této kapitole kontrastoval I dat shromážděných výzkumnými pracovníky pro výzkumné pracovníky s administrativními záznamy vytvořené společnostmi a vládami. Někteří lidé říkají tyto administrativní záznamy "nalezeno dat", které kontrastují s "navržených daty." Je pravda, že správní záznamy jsou nalezeny výzkumní pracovníci, ale jsou také velmi určeny. Například moderní technologické firmy utratit obrovské množství času a zdrojů ke shromažďování a kaplan jejich data. Tak, tyto administrativní záznamy jsou oba našel a navrženy, to záleží na úhlu pohledu (obrázek 2.10).
Poskytnout příklad zdroj dat, kde vidět to jak z našel a navrženy tak je užitečné při použití tohoto zdroje dat pro výzkum.
[ ] V promyšlené eseje, Christian Sandvig a Eszter Hargittai (2015) popisují dva druhy digitálního výzkumu, kde je digitální systém je "nástroj" nebo "předmět studia." Příkladem prvního druhu studia je místo, kde Bengtsson a jeho kolegové (2011) používaných dat mobilních telefonů ke sledování migrace po zemětřesení na Haiti v roce 2010. Jako příklad druhého druhu je místo, kde Jensen (2007) studie, jak zavedení mobilních telefonů na celém Kerala, Indie dopad na fungování trhu s rybami. Připadá mi to užitečné, protože objasňuje, že studie využívající digitální datové zdroje mohou mít zcela odlišné cíle, i když používají stejný typ zdroje dat. Za účelem dalšího objasnění tohoto rozdílu, popsat čtyři studie, které jste viděli: dvě, které používají digitální systém jako nástroj a dvě, které používají digitální systém jako předmět studia. Můžete používat příklady z této kapitoly, pokud chcete.