aktiviteter

Nyckel:

  • Svårighetsgrad: lätt lätt , medium medium , hård hård , väldigt hårt väldigt hårt
  • kräver math ( kräver math )
  • kräver kodning ( kräver kodning )
  • datainsamling ( datainsamling )
  • mina favoriter ( min favorit )
  1. [ medium , min favorit ] Algoritmisk confounding var ett problem med Google Flu Trends. Läs artikeln av Lazer et al. (2014) , och skriva en kort, tydlig e-post till en ingenjör på Google förklarar problemet och erbjuder en idé om hur man rättar till problemet.

  2. [ medium ] Bollen, Mao, and Zeng (2011) hävdar att data från Twitter kan användas för att förutsäga aktiemarknaden. Denna upptäckt ledde till skapandet av en hedgefond-Derwent Capital Markets-att investera i aktiemarknaden baserad på data som samlats in från Twitter (Jordan 2010) . Vilka bevis skulle du vilja se innan du sätter in pengar i denna fond?

  3. [ lätt ] Medan vissa folkhälsospråkar hagel e-cigaretter som ett effektivt hjälpmedel för rökavvänjning, andra varnar om potentiella risker, såsom höga nivåer av nikotin. Föreställ dig att en forskare beslutar att studera den allmänna opinionen mot e-cigaretter genom att samla e-cigaretter relaterade Twitter inlägg och genomföra känsla analys.

    1. Vilka är de tre möjliga fördomar som du är mest orolig för i denna studie?
    2. Clark et al. (2016) sprang just en sådan studie. Först samlas de 850.000 tweets som används e-cigarett-relaterade sökord från januari 2012 till december 2014. Vid närmare inspektion, insåg de att många av dessa tweets var automatiserade (dvs inte produceras av människor) och många av dessa automatiska tweets var i huvudsak reklamfilmer. De utvecklade en människa upptäckt algoritm för att separera automatiska tweets från organiska tweets. Med hjälp av denna Human Detect Algorithm fann de att 80% av tweets automatiserades. Innebär detta fynd ändra ditt svar på en del (a)?
    3. När de jämförde känslan i organiska och automatiserade tweets fann de att de automatiserade tweets är mer positiv än organiska tweets (6,17 jämfört med 5,84). Innebär detta fynd ändra ditt svar till (b)?
  4. [ lätt ] I november 2009, Twitter ändrade frågan i tweet rutan från "Vad gör du?" Till "Vad händer?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hur tror du att bytet av uppmaningarna kommer att påverka vem tweet och / eller vad de tweet?
    2. Nämna ett forskningsprojekt som du föredrar uppmaningen "Vad gör du?" Förklara varför.
    3. Nämna ett forskningsprojekt som du föredrar uppmaningen "Vad händer?" Förklara varför.
  5. [ medium ] Kwak et al. (2010) analyserade 41,7 miljoner användarprofiler, 1,47 miljarder sociala relationer, 4262 trender ämnen, och 106 miljoner tweets mellan 6 juni och 31 juni, 2009. Baserat på denna analys drog de ​​slutsatsen att Twitter fungerar mer som ett nytt medium för informationsutbyte än en socialt nätverk.

    1. Med tanke på Kwak et al slutsats, vilken typ av forskning skulle du göra med Twitter data? Vilken typ av forskning skulle du inte göra med Twitter data? Varför?
    2. Under 2010 lade Twitter Who att följa tjänsten gör skräddarsydd förslag till användare. Tre rekommendationer visas samtidigt på huvudsidan. Rekommendationer ofta dras från ens "vänner-of-vänner" och ömsesidiga kontakter visas också i rekommendationen. Användare kan uppdatera för att se en ny uppsättning rekommendationer eller besöka en sida med en längre lista med rekommendationer. Tror du att den här nya funktionen skulle ändra ditt svar på en del a)? Varför eller varför inte?
    3. Su, Sharma, and Goel (2016) utvärderade effekten av Vem att följa service och fann att medan användare i hela popularitet spektrum nytta av rekommendationerna, de mest populära användare tjänade betydligt mer än genomsnittet. Innebär detta fynd ändra ditt svar till del b)? Varför eller varför inte?
  6. [ lätt ] "Retweets" används ofta för att mäta påverkan och spridning av inflytande på Twitter. Inledningsvis användare hade att kopiera och klistra in tweet de gillade, märka den ursprungliga författaren med hans / hennes handtaget och manuellt skriva "RT" innan tweet för att indikera att det är en retweet. Då, i 2009 Twitter lagt till en knapp "retweet". I juni 2016 Twitter gjorde det möjligt för användare att retweet egna tweets (https://twitter.com/twitter/status/742749353689780224). Tycker du att dessa förändringar bör påverka hur du använder "retweets" i din forskning? Varför eller varför inte?

  7. [ medium , datainsamling , kräver kodning ] Michel et al. (2011) konstruerade en korpus som härrör från Googles försök att digitalisera böcker. Använda den första versionen av corpus, som publicerades i 2009 och innehöll över 5 miljoner digitaliserade böcker, författarna analyserade ordvalet frekvens för att undersöka språkliga förändringar och kulturella trender. Snart Google Books Corpus blev en populär datakälla för forskare, och en 2: a versionen av databasen släpptes 2012.

    Men Pechenick, Danforth, and Dodds (2015) varnade för att forskare måste helt karakterisera samplingsprocessen av corpus innan du använder den för att dra allmänna slutsatser. Den viktigaste frågan är att corpus är biblioteket-liknande, innehållande en av varje bok. Som ett resultat, en individ, är produktiv författare kan märkbart införa nya fraser i Google Books lexikon. Dessutom vetenskapliga texter utgör en allt väsentlig del av corpus hela 1900-talet. Dessutom, genom att jämföra två versioner av de engelska Fiction dataset, Pechenick et al. funnit bevis för att otillräcklig filtrering användes vid framställning av den första versionen. Alla uppgifter som behövs för verksamheten finns här: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. I Michel et al. Ursprungliga papper (2011) , använde de den 1: a versionen av den engelska datamängden, plottas frekvensen av användning av åren "1880", "1912" och "1973", och konstaterade att "vi är glömma vårt förflutna snabbare för varje år "(Fig. 3A, Michel et al.). Replikera samma tomt genom att använda en) 1. Versionen av corpus, engelska dataset (samma som Fig. 3A, Michel et al.)
    2. Nu replikera samma tomt med den 1: a versionen, engelsk skönlitteratur dataset.
    3. Nu replikera samma tomt med den 2: a versionen av corpus, engelska dataset.
    4. Slutligen, replikera samma tomt med den 2: a versionen, engelsk skönlitteratur dataset.
    5. Beskriva skillnaderna och likheterna mellan dessa fyra tomter. Håller du med Michel et al. Ursprungliga tolkning av den observerade trenden? (Tips: c) och d) bör vara densamma som figur 16 i Pechenick et al).
    6. Nu när du har replik detta ett fynd med hjälp av olika Google Books corpora, välja en annan språklig förändring eller kulturella fenomen som presenteras i Michel et al. Ursprungliga papper. Håller du med deras tolkning i ljuset av de begränsningar som presenteras i Pechenick et al.? För att fortsätta med argument starkare, försöka replikera samma diagram med olika versioner av datamängden som ovan.
  8. [ väldigt hårt , datainsamling , kräver kodning , min favorit ] Penney (2016) undersöker om den utbredda publicitet om NSA / PRISM övervakning (dvs. Snowden avslöjanden) i juni 2013 i samband med en kraftig och plötslig minskning av trafiken till Wikipedia-artiklar om ämnen som höjer integritetsfrågor. Om så är fallet, skulle denna förändring i beteende vara förenliga med en avkylande effekt till följd av massövervakning. Tillvägagångssättet för Penney (2016) kallas ibland en avbruten tidsseriedesign och är relaterad till de metoder i kapitlet om tillnärmning av experiment från observationsdata (avsnitt 2.4.3).

    Att välja ämnet nyckelord hänvisade Penney till listan som används av US Department of Homeland Security för att spåra och övervaka sociala medier. DHS lista kategoriserar vissa söktermer i en rad frågor, det vill säga "hälsorisk", "Infrastructure Security" och "terrorism". För undersökningsgruppen använde Penney de fyrtioåtta sökord relaterade till "Terrorism" (se tabell 8 Bilaga). Han samman sedan Wikipedia artikeln visningsantal på månadsbasis för motsvarande fyrtioåtta Wikipedia-artiklar under en trettiotvå månader, från början av januari 2012 till slutet av augusti 2014. För att stärka hans argument, också skapade han flera jämförelse grupper genom att spåra utsikt artikel om andra ämnen.

    Nu kommer ni att replikera och utvidga Penney (2016) . Alla rådata som du behöver för denna verksamhet är tillgänglig från Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Eller så kan du få det från R paketet wikipediatrend (Meissner and Team 2016) . När du skriver upp dina svar, observera vilken datakälla du använde. (Obs: Samma aktivitet visas också i kapitel 6)

    1. Läs Penney (2016) och replikera figur 2 som visar sidvisningar för "terrorism" -relaterade sidor före och efter Snowden uppenbarelse. Tolka resultaten.
    2. Därefter replikera fig 4A, som jämför studiegruppen ( "terrorism" -relaterade artiklar) med en jämförelsegrupp med hjälp av sökord kategoriseras under "DHS & andra organ" från DHS listan (se tillägg tabell 10). Tolka resultaten.
    3. I del b) du jämfört studiegruppen till en jämförelsegrupp. Penney också jämfört med två andra jämförelsegrupper: "Infrastructure Security" -relaterade artiklar (Bilagetabell 11) och populära Wikipedia sidor (Bilagetabell 12). Kom upp med en alternativ jämförelsegruppen, och testa om resultaten från del b) är känslig för valet av jämförelsegruppen. Vilka val av jämförelsegruppen gör mest meningsfullt? Varför?
    4. Författaren uppgav att sökord för "terrorism" användes för att välja ut de Wikipedia-artiklar, eftersom den amerikanska regeringen hänvisas till terrorism som en viktig motivering för sina online-övervakningsmetoder. Som en kontroll av dessa 48 "terrorism" -relaterade sökord, Penney (2016) genomförde också en undersökning om MTurk ber respondenterna att betygsätta varje sökord i fråga om regerings Trouble, Privacy-Känslig, och undvikande (Bilagetabell 7 och 8). Replikera undersökningen om MTurk och jämföra resultaten.
    5. Baserat på resultaten i del d) och din läsning av artikeln, håller du med författarens val av ämne nyckelord i studiegruppen? Varför eller varför inte? Om inte, vad skulle du föreslå istället?
  9. [ lätt ] Efrati (2016) rapporter, baserade på konfidentiell information, som "total delning" på Facebook hade minskat med ca 5,5% jämfört med året innan medan "ursprungliga sändningen sharing" var ned 21% jämfört med föregående år. Denna nedgång var särskilt akut med Facebook-användare under 30 år. Den rapport som tillskrivs nedgången på två faktorer. En är tillväxten i antalet "vänner" människor har på Facebook. Den andra är att en del att dela verksamheten har flyttats till meddelande och konkurrenter som snapchat. Rapporten visade också flera taktik Facebook hade försökt att öka delning, inklusive News Feed algoritm tweaks som gör ursprungliga inlägg mer framträdande, liksom periodiska påminnelser om de ursprungliga inlägg användare "På denna dag" för flera år sedan. Vilka konsekvenser, om någon, har dessa fynd har för forskare som vill använda Facebook som en datakälla?

  10. [ medium ] Tumasjan et al. (2010) rapporterade att andelen tweets hänvisar ett politiskt parti matchade andel av rösterna som partiet fick i den tyska riksdagsvalet 2009 (Figur 2.9). Med andra ord, visade det sig att du kan använda Twitter för att förutsäga valet. När den här studien publicerades ansågs det oerhört spännande eftersom det verkade att föreslå en värdefull användning för en vanlig källa till big data.

    Med tanke på de dåliga egenskaperna hos stora uppgifter, men du bör omedelbart vara skeptisk till detta resultat. Tyskar på Twitter under 2009 var ganska icke-representativ grupp, och anhängare av ett parti kan tweet om politik oftare. Således verkar det förvånande att alla tänkbara fördomar som ni kan föreställa något sätt skulle ta ut varandra. I själva verket visar resultaten i Tumasjan et al. (2010) visade sig vara för bra för att vara sant. I sina papper, Tumasjan et al. (2010) anses sex politiska partier: Kristdemokraterna (CDU), krist Socialdemokraterna (CSU), SPD, liberaler (FDP), Vänsterpartiet (Die Linke) och miljöpartiet (Grüne). Men de mest omtalade tyska politiska partiet på Twitter på den tiden var Piratpartiet (Piraten), ett parti som kämpar statlig reglering av Internet. När Piratpartiet ingick i analysen, Twitter nämner blir en fruktansvärd prediktor för valresultatet (Figur 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Figur 2,9: Twitter nämner verkar för att förutsäga resultatet av 2009 tyska valet (Tumasjan et al 2010.), Men detta resultat visar sig vara beroende av vissa godtyckliga och omotiverade val (Jungherr, Jürgens, och Schoen 2012).

    Figur 2,9: Twitter nämner verkar för att förutsäga resultatet av 2009 tyska valet (Tumasjan et al. 2010) , Men detta resultat visar sig vara beroende av vissa godtyckliga och omotiverade val (Jungherr, Jürgens, and Schoen 2012) .

    Därefter har andra forskare runt om i världen används snyggare metoder-såsom att använda känsla analys att skilja mellan positiva och negativa omnämnanden av parterna-i syfte att förbättra möjligheterna för Twitter uppgifter för att förutsäga en mängd olika typer av val (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Här är hur Huberty (2015) sammanfattade resultaten av dessa försök att förutsäga val:

    "Alla kända prognosmetoder bygger på sociala medier har misslyckats när de utsätts för de krav som sann framåtblickande val- prognoser. Dessa misslyckanden tycks bero på fundamentala egenskaper hos sociala medier, snarare än till metodologiska eller algoritmiska problem. Kort sagt, sociala medier inte, och förmodligen aldrig kommer att erbjuda en stabil, opartisk, representativ bild av väljarna; och bekvämlighet prover av sociala medier saknar tillräckliga data för att åtgärda dessa problem i efterhand. "

    Läs några av den forskning som leder Huberty (2015) till denna slutsats, och skriva en sida memo till en politisk kandidat som beskriver om och hur Twitter bör användas för att förutse val.

  11. [ medium ] Vad är skillnaden mellan en sociolog och en historiker? Enligt Goldthorpe (1991) , den största skillnaden mellan en sociolog och en historiker är kontroll över datainsamling. Historiker tvingas använda reliker medan sociologer kan skräddarsy sin datainsamling till särskilda ändamål. Läs Goldthorpe (1991) . Hur är skillnaden mellan sociologi och historia i samband med idén om Custommades och readymade?

  12. [ hård ] Bygga på föregående fråga, Goldthorpe (1991) drog ett antal kritiska svar, däribland ett från Nicky Hart (1994) som utmanade Goldthorpes hängivenhet till skräddarsydda data. För att tydliggöra de potentiella begränsningar skräddarsydda uppgifter beskrev Hart rika Worker Project, en stor undersökning för att mäta förhållandet mellan social klass och röstning som genomfördes av Goldthorpe och kollegor i mitten av 1960-talet. Som man kan förvänta sig av en lärd som gynnade utformade data över hittade data, de rika Worker Project insamlade data som skräddarsys för att möta en nyligen föreslagna teori om framtiden för social klass i en tid av ökande levnadsstandarden. Men, Goldthorpe och kollegor på något sätt "glömde" att samla in information om röstningsbeteende kvinnor. Här är hur Nicky Hart (1994) sammanfattningar hela episoden:

    ". . . det [är] svårt att undvika slutsatsen att kvinnor uteslöts eftersom denna "skräddarsydda" dataset begränsades av ett paradigm logik som uteslutits kvinnlig erfarenhet. Driven av en teoretisk vision av klassmedvetandet och åtgärder som manliga bekymmer. . . , Goldthorpe och hans kollegor konstruerat en uppsättning av empiriska bevis som närs och underhålls sina egna teoretiska antaganden istället för att utsätta dem för ett giltigt test av lämplighet. "

    Hart fortsatte:

    "De empiriska resultaten av den rika Worker Project berätta mer om masculinist värdena mitten av århundradet sociologi än de informera de processer skiktning, politik och materiella liv."

    Kan du tänka på andra exempel där samling skräddarsydda uppgifter har de fördomar av datainsamlaren inbyggd i det? Hur jämför detta med algoritm confounding? Vilka konsekvenser kan det få för när forskare ska använda readymades och när de ska använda Custommades?

  13. [ medium ] I det här kapitlet kontrasterade jag uppgifter som samlats in av forskare för forskare med administrativa register som skapats av företag och regeringar. Vissa människor kallar dessa administrativa register "hittade uppgifter", som de kontrasterar med "designade data." Det är sant att administrativa register finns av forskare, men de är också mycket utformade. Till exempel moderna tech företag spenderar enorma mängder tid och resurser för att samla in och kyrkoherden sina data. Således är dessa administrativa register båda hittas och utformade, bara beror på ditt perspektiv (figur 2.10).

    Figur 2.10: Bilden är både en anka och en kanin; vad du ser beror på ditt perspektiv. Statliga och företagsekonomiska poster både hittas och utformade; vad du ser beror på ditt perspektiv. Till exempel är samtalsdataposter som samlats in av en mobiltelefon Företaget hittade uppgifter ur en forskare. Men dessa exakt samma register utformade uppgifter perspektiv någon som arbetar i faktureringsavdelningen av telefonbolaget. Källa: Wikimedia Commons

    Figur 2.10: Bilden är både en anka och en kanin; vad du ser beror på ditt perspektiv. Statliga och företagsekonomiska poster både hittas och utformade; vad du ser beror på ditt perspektiv. Till exempel är samtalsdataposter som samlats in av en mobiltelefon Företaget hittade uppgifter ur en forskare. Men dessa exakt samma register utformade uppgifter perspektiv någon som arbetar i faktureringsavdelningen av telefonbolaget. Källa: Wikimedia Commons

    Ge ett exempel på datakälla där ser det både som finns och utformade är till hjälp när du använder den datakällan för forskning.

  14. [ lätt ] I en tankeväckande essä, Christian Sandvig och Eszter Hargittai (2015) beskriver två typer av digital forskning, där det digitala systemet är "instrument" eller "föremål för studien." Ett exempel på den första typen av studie där Bengtsson och kollegor (2011) använde mobil data telefon för att spåra migration efter jordbävningen i Haiti under 2010. ett exempel på det andra slaget är där Jensen (2007) studerar hur införandet av mobiltelefoner i hela Kerala, Indien påverkat marknadens funktionssätt för fisk. Jag tycker att det bra eftersom det klargör att studier med hjälp av digitala datakällor kan ha helt olika mål, även om de använder samma typ av datakälla. För att ytterligare klargöra denna skillnad, beskriver fyra studier som du har sett: två som använder ett digitalt system som ett instrument och två som använder ett digitalt system som ett studieobjekt. Du kan använda exempel från det här kapitlet om du vill.