aktivity

kľúč:

  • Stupeň obtiažnosti: ľahká jednoduchý , stredne stredná tvrdé usilovne , veľmi ťažké veľmi ťažké
  • vyžaduje matematiku ( vyžaduje matematiku )
  • vyžaduje kódovanie ( vyžaduje kódovanie )
  • zber dát ( zber dát )
  • moje obľúbené ( môj obľúbený )
  1. [ stredná , môj obľúbený ] Algoritmické mätúce bol problém s Chrípkové trendy Google. Čítať noviny podľa Lazer et al. (2014) , a napísať krátku, jasnú e-mail inžinier v spoločnosti Google s vysvetlením problému a ponúka predstavu o tom, ako problém vyriešiť.

  2. [ stredná ] Bollen, Mao, and Zeng (2011) tvrdí, že dáta z Twitteru môžu byť použité na predikciu na akciovom trhu. Toto zistenie viedlo k vytvoreniu investičný fond-Derwent Capital Markets-investovať na akciovom trhu na základe údajov získaných od Twitteri (Jordan 2010) . Aké dôkazy by ste chceli vidieť pred uvedením svoje peniaze v tomto fonde?

  3. [ jednoduchý ] Kým niektorí zástancovia verejného zdravia krupobitie e-cigarety ako účinný nástroj na odvykanie od fajčenia, iní varujú pred možnými rizikami, ako sú výškových úrovní nikotínu. Imagine, že výskumník si volia public mienky o e-cigariet collecting e-cigarety-related Twitter miesta a uskutočnením analýzy sentiment.

    1. Aké sú tri možné predsudky, ktoré ste najviac znepokojujú v tejto štúdii?
    2. Clark et al. (2016) bežal práve takúto štúdiu. Po prvé, zbierali 850.000 tweety, ktoré používajú kľúčové slová, e-cigareta účely od januára 2012 do decembra 2014. Pri bližšom skúmaní zistili, že mnoho z týchto tweetov boli automatizované (tj nevyrába ľudí) a mnoho z týchto automatizovaných tweetov boli v zásade spoty. Oni vyvinuli algoritmus detekcie ľudského oddeliť automatizované tweety od iných organických tweetov. Pomocou tohto Human Detect algoritmus zistili, že boli automatizované 80% tweetov. Znamená toto zistenie zmeniť svoju odpoveď na časti (a)?
    3. Keď porovnávali sentiment v organických a automatizovanými tweetov zistili, že automatizované tweety sú priaznivejšie ako organické tweetov (6,17 oproti 5,84). Znamená toto zistenie zmeniť svoju odpoveď (b)?
  4. [ jednoduchý ] V novembri 2009, Twitter zmenil otázku tweetu krabici od "Čo to robíš?" To "Čo sa deje?" (Https://blog.twitter.com/2009/whats-happening).

    1. Ako myslíš, že zmena výziev bude mať vplyv, ktorý pípanie a / alebo čo pípanie?
    2. Pomenovať jeden výskumný projekt, pre ktorý by ste radšej otázka: "Čo to robíš?" Vysvetlite, prečo.
    3. Pomenovať jeden výskumný projekt, pre ktorý by ste radšej výzvu "Čo sa deje?" Vysvetlite, prečo.
  5. [ stredná ] Kwak et al. (2010) analyzovali 41,7 milióna používateľských profilov, 1,47 miliardy spoločenských vzťahov 4262 tém sledovanie trendov a 106 miliónov tweetov medzi 6. júna a 31. júna 2009. Na základe tejto analýzy sú k záveru, že Twitter slúžia skôr ako nové médium o zdieľaní informácií než Based sociálna sieť.

    1. Vzhľadom k nálezu Kwak kolies je, aký typ výskumu by ste s Twitter dáta? Aký typ výskumu, neboli by ste robiť s Twitter dáta? Prečo?
    2. V roku 2010 pridal Twitter a Who nasledovať službu robiť na mieru návrh užívateľom. Tri odporúčania sú zobrazené v čase na hlavnej stránke. Odporúčania sú často čerpané z niekoho "priateľmi-of-priatelia," a vzájomné kontakty sú tiež zobrazené v odporúčaní. Užívatelia môžu aktualizovať vidieť novú sadu odporúčania alebo navštíviť stránku s dlhším zoznamom odporúčania. Myslíte si, že táto nová funkcia zmení svoju odpoveď na časť)? Prečo áno alebo prečo nie?
    3. Su, Sharma, and Goel (2016) hodnotil efekt Kto nasledovať servis a zistil, že zatiaľ čo používatelia naprieč spektrom popularity ťažil z odporúčaní, najpopulárnejší používatelia profitovala podstatne viac, než je priemer. Znamená toto zistenie zmeniť svoju odpoveď na časť B)? Prečo áno alebo prečo nie?
  6. [ jednoduchý ] "Retweets" sa často používajú na meranie vplyvu a šírenie vplyvu na Twitteri. Spočiatku museli používatelia skopírovať a vložiť tweet mali radi, označte pôvodný autor s jeho / jej rukoväťou a ručne pred tweetu typu "RT" pre indikáciu, že je to retweet. Potom, v roku 2009 Twitter pridal tlačidlo "retweet". V júni 2016, Twitter umožnil používateľom retweet svoje tweety (https://twitter.com/twitter/status/742749353689780224). Myslíte si, že by tieto zmeny nemali mať vplyv na tom, ako používať "retweets" vo svojom výskume? Prečo áno alebo prečo nie?

  7. [ stredná , zber dát , vyžaduje kódovanie ] Michel et al. (2011) skonštruoval korpus vznikajúce zo snahy spoločnosti Google digitalizovať knihy. Použitie prvá verzia korpusu, ktorý bol uverejnený v roku 2009 a obsahovala vyše 5 miliónov digitalizovaných kníh, autori analyzujú slovo frekvencia uplatňovania skúmať jazykové zmeny a kultúrne trendy. Čoskoro Google Books Corpus stal obľúbeným zdrojom dát pre výskumných pracovníkov, a druhá verzia databázy bola vydaná v roku 2012.

    Avšak, Pechenick, Danforth, and Dodds (2015) varoval, že výskumní pracovníci musia plne charakterizovať proces vzorkovacej korpusu pred jej použitím pre kreslenie všeobecné závery. Hlavným problémom je, že korpus je knižnica, podobné výrobky obsahujúce jednu z každej knihy. V dôsledku toho jedinca, plodný autor je schopný výrazne vložiť nové vety do lexikónu Google Books. Okrem toho vedecké texty predstavujú stále podstatnú časť korpusu skrz 1900s. Navyše tým, že porovnanie dvoch verzií hraných dátovej sady anglických, Pechenick et al. nájdený dôkaz, že nedostatočná filtrácia bola použitá pri výrobe prvej verzii. Všetky údaje potrebné pre činnosť je k dispozícii tu: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. V Michel et al., Originálne papier (2011) , oni používali 1. verziu sady dát anglickej, vynesené frekvencie použitia rokoch "1880", "1912" a "1973", a dospel k záveru, že "sme zabudol svoju minulosť rýchlejšie každým rokom "(obr. 3A, Michel et al.). Replikovať rovnaký dej pomocou 1) 1. verzia korpusu, anglicky dátovom súbore (rovnako ako na obr. 3A, Michel et al.)
    2. Teraz replikovať rovnaký pozemok o 1. verzie, anglickej beletrie dátovej sady.
    3. Teraz replikovať rovnaký dej s 2. verziou korpusu, anglicky dátovom súbore.
    4. A konečne, replikovať rovnaký pozemok o 2. verzie, anglickej beletrie dátovej sady.
    5. Popísať rozdiely a podobnosti medzi týmito štyrmi pozemkov. Súhlasíte s Michelom et al., Originálne interpretácia pozorovaného trendu? (Tip: c) a d), by mala byť rovnaká ako na obrázku 16 v Pechenick et al).
    6. Teraz, keď boli replikované tento nález za použitia rôznych Knihy Google korpusov, potom zvolíme inú jazykovú zmenu alebo kultúrne javy prezentované v Michel et al., Originálny papier. Súhlasíte s ich výkladu s ohľadom na obmedzení uvedených v Pechenick et al.? Aby sa vaše argumentácie silnejší, skúste zopakovať rovnaký graf s využitím rôznych verzií sady dát ako je uvedené vyššie.
  8. [ veľmi ťažké , zber dát , vyžaduje kódovanie , môj obľúbený ] Penney (2016) skúma, či je rozšírená publicita o NSA / PRISM dohľadu (tj Snowden odhalením) v júni 2013 je spojený s prudkým a náhlym poklesom návštevnosti Wikipedia články o témach, ktoré vyvolávajú obavy o ochrane osobných údajov. Ak áno, táto zmena v správaní by bolo v súlade s mrazivým efektom vyplývajúce z hromadný dozor. Prístup Penney (2016) je niekedy nazývaný v prerušenej časový rad dizajn a je spojené s prístupov v kapitole o zblíženie experimenty z pozorovacích dát (§ 2.4.3).

    Ak chcete zvoliť túto tému kľúčové slová, Penney uvedených v zozname použitej amerického ministerstva pre vnútornú bezpečnosť pre sledovanie a monitorovanie sociálnych médií. Zoznam DHS kategorizuje určité hľadané termíny do celej rady otázok, teda "Health Concern", "bezpečnostnú infraštruktúru," a "terorizmu". Pre študijnej skupiny, Penney použité štyridsaťosem kľúčové slová vzťahujúce sa k "terorizmu" (pozri tabuľku 8 Dodatok). On potom agregované počty zobrazení článku Wikipédie na mesačnej báze pre zodpovedajúce štyridsiatich ôsmich články z Wikipédie viac ako tridsiatich dvojmesačného obdobia od začiatku januára 2012 do konca augusta 2014. Na posilnenie jeho argument, on tiež vytvoril niekoľko porovnaní skupiny tým, že sleduje názory článok o iných témach.

    Teraz budete replikovať a rozširovať Penney (2016) . Všetky surové dáta, ktoré budete potrebovať pre túto činnosť je k dispozícii od Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Alebo ju môžete získať od R balíčka wikipediatrend (Meissner and Team 2016) . Keď píšete-up vaše odpovede, upozorňujeme, ktorý zdroj údajov ste použili. (Poznámka: Toto rovnaké aktivita sa objavuje aj v kapitole 6)

    1. Prečítajte si Penney (2016) a replikovať Obrázok 2, ktorý ukazuje zobrazených stránok za "terorizmus" by preto stránok pred a po Snowden odhalení. Interpretovať výsledky.
    2. Ďalej replikovať obr 4A, ktorý porovnáva študijnú skupinu ( "terorizmu" spojené so štúdiom články) sa porovnávacej skupine pomocou kľúčových slov roztriedené podľa "DHS a ďalších agentúr" zo zoznamu DHS (pozri prílohu Tabuľka 10). Interpretovať výsledky.
    3. V časti b), ktoré v porovnaní študijnú skupinu na jeden porovnávacej skupine. Penney tiež v porovnaní s ďalšími dvoma porovnávacích skupinách: "Bezpečnosť infraštruktúry" by teda články (príloha tabuľka 11) a populárnych stránok Wikipédii (dodatok tabuľka 12). Prísť s alternatívnym porovnávacej skupine, a otestovať, či poznatky z časti b) je citlivá na vašej voľbe porovnávacej skupine. Ktorá voľba porovnávacej skupine dáva najväčší zmysel? Prečo?
    4. Autor uviedol, že kľúčové slová vzťahujúce sa k "terorizmu" sa používa na voľbe články z Wikipédie, pretože americká vláda citovaný proti terorizmu ako hlavný ospravedlnenie pre svoje on-line postupov dohľadu. Ako kontrola týchto 48 "terorizmu" by teda kľúčové slová, Penney (2016) tiež uskutočnila prieskum o MTurk pýtali na obsah hodnotiť každú z kľúčových slov, pokiaľ ide o vlády Trouble, Súkromie citlivý a vyhnúť (dodatok tabuľka 7 a 8). Replikovať prieskum na MTurk a porovnať svoje výsledky.
    5. Na základe výsledkov z časti d) a vaše čítanie tohto článku založený, súhlasíte s výberom autorovom tém kľúčových slov vo študijnej skupine? Prečo áno alebo prečo nie? Ak nie, aké by ste navrhovali namiesto toho?
  9. [ jednoduchý ] Efrati (2016) správy, na základe dôverných informácií, že "celková zdieľanie" na Facebooku znížil o 5,5% medziročný nárast, zatiaľ čo "pôvodné zdieľanie broadcast" sa znížil o 21% oproti minulému roku. Tento pokles bol obzvlášť akútne u užívateľov Facebooku pod 30 rokov veku. Správa pripisuje pokles dvoma faktorom. Jedným z nich je nárast počtu "priateľov" ľudia majú na Facebooku. Na druhej strane je, že niektoré zdieľanie aktivita sa presunula do správ a konkurentmi, ako snapchat. Správa tiež odhalila niekoľko taktiku Facebook sa pokúsil posilniť zdieľanie, vrátane News Feed algoritmus vylepšenia, ktoré tvoria originálne príspevky výraznejšie, rovnako ako periodické pripomenutie pôvodných užívateľov prispievania "V tento deň" Pred niekoľkými rokmi. Aké dôsledky, ak vôbec, sa tieto nálezy sú pre výskumných pracovníkov, ktorí chcú používať Facebook ako zdroj dát?

  10. [ stredná ] Tumasjan et al. (2010) uvádzajú, že podiel tweets zmieňujúcu politickú stranu uzavreté podiel hlasov, ktoré strana dostala v nemeckom parlamentných voľbách v roku 2009 (obr 2.9). Inými slovami, to vyzeralo, že by ste mohli použiť Twitter predpovedať voľby. V čase písania tejto štúdie bola zverejnená bolo považované za veľmi vzrušujúce, pretože to vyzeralo, že navrhnúť cennú využitie pre spoločný zdroj veľkých dát.

    Vzhľadom k tomu, zlé vlastnosti spracovanie veľkých objemov dát, však, mali by ste okamžite byť skeptický tohto výsledku. Nemci na Twitteri v roku 2009 boli celkom skupina nereprezentatívne, a priaznivci by jedna strana mohla tweet o politike častejšie. Zdá sa teda, prekvapivé, že všetky možné predsudky, ktoré by ste mohli predstaviť nejako vyruší. V skutočnosti, výsledky v Tumasjan et al. (2010) sa ukázalo byť príliš dobré, aby to bola pravda. Vo svojom článku, Tumasjan et al. (2010) považovaný za šesť politických strán: kresťanskí demokrati (CDU), Kresťansko-sociálnej demokrati (CSU), SPD, liberálmi (FDP) a ľavá (Die Linke) a Stranu zelených (Grüne). Avšak, najčastejšie zmieňované nemecká politická strana na Twitteri bol v tej dobe Pirátska strana (Piraten), strana, ktorá bojuje proti vládnej regulácii Internetu. Keď bol Pirátska strana zahrnuté do analýzy, Twitter zmieni sa stane strašná prediktor volebných výsledkov (obr 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Obrázok 2.9: Twitter sa zmieňuje sa zdá predvídať výsledky nemeckého volieb v roku 2009 (Tumasjan et al 2010)., Ale tento výsledok sa ukáže, že sú závislé na niektorých svojvoľný a neodôvodnený voľby (Jungherr, Jürgens a Schoen 2012).

    Obrázok 2.9: Twitter sa zmieňuje sa zdá predvídať výsledky nemeckého volieb v roku 2009 (Tumasjan et al. 2010) , Ale tento výsledok sa ukáže, že sú závislé na niektorých svojvoľný a neodôvodnený voľby (Jungherr, Jürgens, and Schoen 2012) .

    Následne, iní výskumníci po celom svete používajú milovník spôsobmi-ako napríklad za použitia analýzy cit rozlišovať medzi pozitívne a negatívne zmienky o strán-v, aby sa zlepšila schopnosť Twitter dát predpovedať celý rad rôznych typov volieb (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Tu je návod, ako Huberty (2015) sumarizuje výsledky týchto pokusov predpovedať voľby:

    "Všetky známe metódy predpovedania založené na sociálnych médiách sa nepodarilo keď je vystavený k požiadavkám ozajstného výhľadový volebnej prognózy. Tieto poruchy sa zdajú byť spôsobené na podstatné vlastnosti sociálnych médií, skôr než metodických alebo algoritmické problémy. Stručne povedané, sociálne médiá nemajú, a pravdepodobne nikdy nebude, ponúkajú stabilný, neskreslené, reprezentatívny obraz voličov; a vzorky pohodlie sociálnych médií chýba dostatočné údaje opraviť tieto problémy post hoc ".

    Prečítajte si niektoré z výskumu, ktorý viedol Huberty (2015) k takému záveru, a napísať jednu stránku poznámku politického kandidáta popisujúce, či a ako Twitter by mali byť použité na predpovede voľby.

  11. [ stredná ] Aký je rozdiel medzi sociológ a historik? Podľa Goldthorpe (1991) , hlavný rozdiel medzi sociológ a historik je kontrola nad zber dát. Historici sú nútení používať pozostatky, zatiaľ čo sociológovia môžu prispôsobiť svoj osobné údaje sa zbierajú na špecifické účely. Prečítajte Goldthorpe (1991) . Ako je rozdiel medzi sociológie a histórie súvisí s myšlienkou Custommades a readymades?

  12. [ usilovne ] V nadväznosti na predchádzajúcu otázku, Goldthorpe (1991) nakreslil rad kritických reakcií, vrátane jedného z Nicky Hart (1994) , ktorý napádal Goldthorpe oddanosť na mieru vyrobené dát. Na objasnenie možných obmedzení dát na mieru, Hart opísal bohatých Worker Project, veľký prieskum pre meranie vzťahu medzi sociálnou triedou a hlasovania, ktorý bol riadený Goldthorpe a kolegami v polovici-1960. Ako by sa dalo očakávať od učenca, ktorý zvýhodňuje navrhol dát cez zistených údajov, hojnosti Worker Project zhromažďujú dáta, ktoré boli priamo zameraná na nedávno navrhovanej teóriu o budúcnosti sociálnej triedy v čase zvyšujúcej sa životnej úrovne. Ale Goldthorpe a jeho kolegovia nejako "zabudol" zhromažďovať informácie o volebnom správaní žien. Tu je návod, ako Nicky Hart (1994) zhŕňa celú epizódu:

    ". , , to [je] ťažké vyhnúť sa záveru, že ženy boli vynechané, pretože tento "šité na mieru" dátový súbor bol uväznený pomocou paradigmatickém logiky, ktorá vylúčené ženskú skúsenosť. Poháňaný teoretickej vízie triedneho uvedomenia a akcie ako mužských starostí. , , , Goldthorpe a jeho kolegovia skonštruoval rad empirických dôkazov, ktoré kŕmi a udržiavanú vlastné teoretické predpoklady namiesto ich vystavenie platného testu primeranosti. "

    Hart pokračoval:

    "Na empirické poznatky z bohatých Worker Project nám povedať viac o masculinist hodnotách sociológie v polovici storočia, ako informujú o tom procesy stratifikácia, politiky a hmotného života."

    Spomeniete si na ďalších príkladov, kedy zber dát šité na mieru má zaujatosti kolekcií dát v ňom zabudované? Ako to v porovnaní s algoritmické mätúce? Aké dôsledky by to mohlo mať, keď výskumní pracovníci by mali používať readymades a keď oni by mali používať Custommades?

  13. [ stredná ] V tejto kapitole kontrastoval Aj dát zhromaždených výskumníkmi pre výskumníkov s administratívnymi záznamy vytvorené spoločnosťami a vládami. Niektorí ľudia hovoria tieto administratívne záznamy "nájdené dát", ktoré kontrastujú s "navrhnutých dátami." Je pravda, že administratívne záznamy sú nájdené výskumní pracovníci, ale sú tiež veľmi určené. Napríklad moderné technologické firmy minúť obrovské množstvo času a zdrojov na zhromažďovanie a kaplán ich dáta. Tak, tieto administratívne záznamy sú obaja našiel a navrhnuté, to záleží na uhle pohľadu (obrázok 2.10).

    Obrázok 2.10: Na obrázku je aj kačica a králika; čo vidíte, závisí od uhla pohľadu. Vládne a obchodné administratívne záznamy sú obaja nájdený a navrhnutý; čo vidíte, závisí od uhla pohľadu. Napríklad, dátové záznamy získané pomocou mobilného telefónu spoločnosti sú k dispozícii dáta z pohľadu výskumného pracovníka. Ale tieto presne rovnaké záznamy sú navrhnuté tak, dátový pohľad na niekoho, kto pracuje účtovacieho oddelením telefónnej spoločnosti. Zdroj: Wikimedia Commons

    Obrázok 2.10: Na obrázku je aj kačica a králika; čo vidíte, závisí od uhla pohľadu. Vládne a obchodné administratívne záznamy sú obaja nájdený a navrhnutý; čo vidíte, závisí od uhla pohľadu. Napríklad, dátové záznamy získané pomocou mobilného telefónu spoločnosti sú k dispozícii dáta z pohľadu výskumného pracovníka. Ale tieto presne rovnaké záznamy sú navrhnuté tak, dátový pohľad na niekoho, kto pracuje účtovacieho oddelením telefónnej spoločnosti. Zdroj: Wikimedia Commons

    Poskytnúť príklad zdroj údajov, kde vidieť to ako z našiel a navrhnuté tak je užitočné pri použití tohto zdroja dát pre výskum.

  14. [ jednoduchý ] V premyslené eseje, Christian Sandvig a Eszter Hargittai (2015) popisujú dva druhy digitálneho výskumu, kde je digitálny systém je "nástroj" alebo "predmet štúdia." Príkladom prvého druhu štúdia je miesto, kde Bengtsson a jeho kolegovia (2011) používaných dát mobilných telefónov na sledovanie migrácie po zemetrasení na Haiti v roku 2010. ako príklad druhého druhu je miesto, kde Jensen (2007) štúdie, ako zavedenie mobilných telefónov na celom Kerala, India vplyv na fungovanie trhu s rybami. Pripadá mi to užitočné, pretože objasňuje, že štúdia využívajúce digitálne dátové zdroje môžu mať úplne odlišné ciele, aj keď používajú rovnaký typ zdroja údajov. Za účelom ďalšieho objasnenia tohto rozdielu, popísať štyri štúdie, ktoré ste videli: dve, ktoré používajú digitálny systém ako nástroj a dve, ktoré používajú digitálne systém ako predmet štúdia. Môžete používať príklady z tejto kapitoly, ak chcete.