aktiviteter

  • svårighetsgrad: lätt lätt , medium medium , hård hård , väldigt hårt väldigt hårt
  • kräver matte ( kräver matte )
  • kräver kodning ( kräver kodning )
  • datainsamling ( datainsamling )
  • mina favoriter ( min favorit )
  1. [ medium , min favorit ] Algoritmisk confounding var ett problem med Google Flu Trends. Läs papper av Lazer et al. (2014) och skriv en kort, tydlig e-post till en ingenjör hos Google som förklarar problemet och ger en uppfattning om hur du fixar det.

  2. [ medium ] Bollen, Mao, and Zeng (2011) hävdar att data från Twitter kan användas för att förutsäga aktiemarknaden. Detta resultat ledde till inrättandet av en hedgefonds Derwent Capital Markets-att investera i aktiemarknaden baserat på data som samlats in från Twitter (Jordan 2010) . Vilka bevis skulle du vilja se innan du lägger dina pengar i den fonden?

  3. [ lätt ] Medan vissa folkhälsoprojektorer anser att e-cigaretter är ett effektivt hjälpmedel för rökstopp, varnar andra om de potentiella riskerna, till exempel de höga nikotinnivåerna. Föreställ dig att en forskare bestämmer sig för att studera den allmänna opinionen mot e-cigaretter genom att samla in e-cigarettrelaterade Twitter-inlägg och genomföra sentimentanalys.

    1. Vilka är de tre möjliga fördomar som du är mest oroad över i denna studie?
    2. Clark et al. (2016) körde just en sådan studie. Först samlade de 850 000 tweets som använde e-cigarettrelaterade sökord från januari 2012 till december 2014. Vid närmare inspektion insåg de att många av dessa tweets var automatiserade (dvs inte producerade av människor) och många av dessa automatiserade tweets var väsentligen reklam. De utvecklade en mänsklig detekteringsalgoritm för att skilja automatiska tweets från organiska tweets. Med hjälp av denna mänskliga detekteringsalgoritmen fann de att 80% av tweets automatiserades. Ändrar detta resultat ditt svar till del (a)?
    3. När de jämförde känslan i organiska och automatiserade tweets fann de att de automatiserade tweetsna var mer positiva än organiska tweets (6,17 mot 5,84). Ändrar detta resultat ditt svar till (b)?
  4. [ lätt ] I november 2009 ändrade Twitter frågan i tweetrutan från "Vad gör du?" Till "Vad händer?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hur tror du att bytet av prompter påverkar vem tweets och / eller vad de tweet?
    2. Namn ett forskningsprojekt för vilket du föredrar prompten "Vad gör du?" Förklara varför.
    3. Nämn ett forskningsprojekt för vilket du föredrar prompten "Vad händer?" Förklara varför.
  5. [ lätt ] "Retweets" används ofta för att mäta inflytande och spridning av inflytande på Twitter. Ursprungligen behövde användarna kopiera och klistra in den tweet som de tyckte om, märka den ursprungliga författaren med sitt handtag och skriv "RT" manuellt före tweeten för att indikera att det var en retweet. Sedan, 2009, Twitter lagt till en "retweet" -knapp. I juni 2016 gjorde Twitter det möjligt för användarna att retweeta egna tweets (https://twitter.com/twitter/status/742749353689780224). Tror du att dessa förändringar bör påverka hur du använder "retweets" i din forskning? Varför eller varför inte?

  6. [ väldigt hårt , datainsamling , kräver kodning , min favorit ] I ett brett diskuterat papper analyserade Michel och kollegor (2011) innehållet i mer än fem miljoner digitaliserade böcker i ett försök att identifiera långsiktiga kulturella trender. De data som de använde har nu släppts som Google NGrams dataset, och så kan vi använda data för att replikera och utöka vissa av deras arbete.

    I ett av de många resultaten i papperet hävdade Michel och kollegor att vi glömmer snabbare och snabbare. För ett visst år, säg 1883, beräknade de den andel av 1 gram som publicerades i varje år mellan 1875 och 1975, som var "1883". De motiverade att denna andel är ett mått på intresset för händelser som hände under det året. I figuren 3a ritade de användningsbanorna i tre år: 1883, 1910 och 1950. Dessa tre år delar ett gemensamt mönster: liten användning före det året, sedan en spik och sedan förfallna. Därefter beräknade Michel och kollegor varje år årets halveringstid för alla år mellan 1875 och 1975. I deras figur 3a (inset) visade de att halveringstiden för varje år minskar, och de hävdade att det innebär att vi glömmer fortiden snabbare och snabbare. De använde version 1 av det engelska språket corpus, men sedan har Google släppt en andra version av corpus. Läs alla delar av frågan innan du börjar kodning.

    Denna aktivitet kommer att ge dig övning av att skriva om återanvändbar kod, tolkning av resultat och dataförlängning (till exempel att arbeta med obekväma filer och hantera saknade data). Denna aktivitet hjälper dig också att komma igång med en rik och intressant dataset.

    1. Få de råa uppgifterna från NGram Viewer-webbplatsen på Google Böcker. I synnerhet bör du använda version 2 av det engelska språket corpus, som släpptes den 1 juli 2012. Okomprimerad, den här filen är 1,4 GB.

    2. Återskapa huvuddelen av figur 3a av Michel et al. (2011) . För att återskapa den här siffran behöver du två filer: den du laddat ner i del (a) och "totalantalet" -filen, som du kan använda för att konvertera de råa räkningarna till proportioner. Observera att den totala räknefilen har en struktur som kan göra det lite svårt att läsa in. Ger version 2 av NGram-data samma resultat som de som presenteras i Michel et al. (2011) , som är baserade på version 1 data?

    3. Kontrollera nu grafen mot grafen som skapats av NGram Viewer.

    4. Återskapa figur 3a (huvudfigur), men ändra \(y\) -axen för att vara räkna omräkningstalet (inte mängden av anmärkningar).

    5. Skillnaden mellan (b) och (d) leder dig till att omvärdera något av resultaten från Michel et al. (2011). Varför eller varför inte?

    6. Nu, med hjälp av andelen nämnanden, replikerar insatsen i figur 3a. Det är, för varje år mellan 1875 och 1975, beräkna halveringstiden för det året. Halveringstiden definieras som antal år som passerar innan andelen mentioner når hälften av toppvärdet. Observera att Michel et al. (2011) gör något mer komplicerat för att uppskatta halveringstiden, se avsnitt III.6 i Supporting Online Information-men de hävdar att båda metoderna ger liknande resultat. Ger version 2 av NGram-data liknande resultat som de som presenteras i Michel et al. (2011) , som är baserade på version 1 data? (Tips: Var inte förvånad om det inte gör det.)

    7. Var det några år som var outliers som år som glömdes särskilt snabbt eller särskilt långsamt? Kortfattat spekulera om möjliga orsaker till det mönstret och förklara hur du identifierade outliersna.

    8. Repetera nu detta resultat för version 2 av NGrams-data på kinesiska, franska, tyska, hebreiska, italienska, ryska och spanska.

    9. Att jämföra över alla språk var det några år som var outliers, till exempel år som glömdes särskilt snabbt eller särskilt långsamt? Kortfattat spekulera om möjliga skäl för det mönstret.

  7. [ väldigt hårt , datainsamling , kräver kodning , min favorit ] Penney (2016) undersökte huruvida den utbredda publiciteten om NSA / PRISM-övervakning (dvs. Snowden-uppenbarelserna) i juni 2013 var förknippad med en skarp och plötslig minskning av trafiken till Wikipedia-artiklar om ämnen som rör upphovsrättsfrågor. Om så är fallet skulle denna förändring av beteendet överensstämma med en chillande effekt som följer av massövervakning. Penney (2016) angrepp kallas ibland en avbruten tidsserie- design, och den är relaterad till de metoder som beskrivs i avsnitt 2.4.3.

    För att välja ämnes nyckelord hänvisade Penney till listan som används av US Department of Homeland Security för spårning och övervakning av sociala medier. DHS-listan kategoriserar vissa söktermer i en rad frågor, dvs "Hälsokonsekvenser", "Infrastruktur Säkerhet" och "Terrorism." För studiegruppen använde Penney de 48 nyckelord som är relaterade till "Terrorism" (se bilaga Tabell 8 ). Han samlade sedan Wikipedia-artikelvisningar månadsvis för motsvarande 48 Wikipedia-artiklar under en 32-månadersperiod, från början av januari 2012 till slutet av augusti 2014. För att stärka hans argument skapade han också flera jämförelsegrupper genom att spåra artikelvyer om andra ämnen.

    Nu ska du replikera och förlänga Penney (2016) . Alla rådata som du behöver för denna aktivitet är tillgänglig från Wikipedia. Eller du kan hämta den från R-paketet wikipediatrend (Meissner and R Core Team 2016) . När du skriver upp dina svar, var god notera vilken datakälla du använde. (Observera att samma aktivitet också visas i kapitel 6.) Den här aktiviteten kommer att ge dig övning i dataskrig och tänk på naturliga experiment i stora datakällor. Det kommer också att få dig igång med en potentiellt intressant datakälla för framtida projekt.

    1. Läs Penney (2016) och replikera hans figur 2 som visar sidvisningarna för "Terrorism" -relaterade sidor före och efter Snowden-uppenbarelserna. Tolka resultaten.
    2. Därefter replikera figur 4A, som jämför studiegruppen ("Terrorism" -relaterade artiklar) med en jämförelsegrupp med hjälp av nyckelord som kategoriseras under "DHS & Other agencies" från DHS-listan (se bilaga Tabell 10 och fotnot 139). Tolka resultaten.
    3. I del b jämförde du studiegruppen med en jämförelsegrupp. Penney jämfördes också med två andra jämförande grupper: "Infrastrukturskydd" -relaterade artiklar (bilaga tabell 11) och populära Wikipedia-sidor (bilaga tabell 12). Kom upp med en alternativ jämförelsegrupp och testa om resultaten från del (b) är känsliga för ditt val av jämförelsegrupp. Vilket val ger mest mening? Varför?
    4. Penney uppgav att nyckelord som rör "Terrorism" användes för att välja Wikipedia-artiklarna, eftersom den amerikanska regeringen citerade terrorism som en viktig motivering för sin onlineövervakningspraxis. Som en kontroll av dessa 48 "Terrorism" -relaterade nyckelord, genomförde Penney (2016) en undersökning om MTurk, och frågade respondenterna att betygsätta varje ht-nyckelord i fråga om Government Trouble, Privacy-Sensitive och Avoidance (bilaga tabellerna 7 och 8 ). Kopiera undersökningen på MTurk och jämför dina resultat.
    5. Baserat på resultaten i del (d) och din läsning av artikeln, håller du med Penneys val av ämnesord i studien? Varför eller varför inte? Om inte, vad föreslår du istället?
  8. [ lätt ] Efrati (2016) rapporterade, baserat på konfidentiell information, att "total delning" på Facebook hade minskat med cirka 5,5% året innan medan "original sändningsdelning" var 21% över året. Den här nedgången var särskilt akut med Facebook-användare under 30 år. Rapporten tillskrivna nedgången till två faktorer. En är tillväxten i antalet "vänner" människor har på Facebook. Den andra är att någon delningsaktivitet har skiftats till meddelanden och till konkurrenter som Snapchat. Rapporten avslöjade också flera taktik Facebook hade försökt att öka delningen, inklusive nyhetsalgoritm tweaks som gör originalposter mer framträdande, liksom periodiska påminnelser om de ursprungliga inläggen med funktionen "On This Day". Vilka konsekvenser, om några, har dessa resultat för forskare som vill använda Facebook som datakälla?

  9. [ medium ] Vad är skillnaden mellan en sociolog och en historiker? Enligt Goldthorpe (1991) är huvudskillnaden kontroll över datainsamling. Historiker är tvungna att använda reliker, medan sociologer kan skräddarsy sin datainsamling till specifika ändamål. Läs Goldthorpe (1991) . Hur är skillnaden mellan sociologi och historia relaterad till tanken på custommades och readymades?

  10. [ hård ] Detta bygger på föregående quesiton. Goldthorpe (1991) gjorde ett antal kritiska svar, bland annat en från Nicky Hart (1994) som utmanade Goldthorpes hängivenhet till skräddarsydda data. För att klargöra de potentiella begränsningarna av skräddarsydda data beskriver Hart det rikliga arbetarprojektet, en stor undersökning för att mäta förhållandet mellan socialklass och röstning som genomfördes av Goldthorpe och kollegor i mitten av 1960-talet. Som man kan förvänta sig av en forskare som gynnade designade uppgifter över funna data, samlade det välbärgade arbetarprojektet data som skräddarsys för att ta itu med en nyligen föreslagen teori om framtiden för social klass i en era med ökande levnadsstandard. Men, Goldthorpe och kollegor "på något sätt" glömde "att samla information om kvinnors röstbeteende. Så här skrev Nicky Hart (1994) hela episoden:

    "... det är svårt att undvika slutsatsen att kvinnor utelämnades eftersom denna" skräddarsydda "dataset begränsades av en paradigmatisk logik som utesluter kvinnlig erfarenhet. Driven av en teoretisk vision om klassmedvetenhet och handling som manliga uppdrag ... konstruerade Goldthorpe och hans kollegor en uppsättning empiriska bevis som matade och uppfostrade sina egna teoretiska antaganden istället för att exponera dem för ett giltigt test av tillräcklighet. "

    Hart fortsatte:

    "De empiriska resultaten från det välbärgade arbetarprojektet berättar mer om de maskulinistiska värdena i sociologin från mitten av århundradet än de informerar stratifierings-, politiska och materiella livsprocesser."

    Kan du tänka på andra exempel där skräddarsydd datainsamling har företeelser för datainsamlaren inbyggd i den? Hur jämför detta med algoritmisk förvirring? Vilka konsekvenser kan detta ha för när forskare ska använda readymades och när de ska använda custommades?

  11. [ medium ] I detta kapitel har jag kontrasterat data samlad av forskare för forskare med administrativa register som skapats av företag och regeringar. Vissa kallar dessa administrativa uppgifter "hittade data", som de står i motsats till "designad data". Det är sant att administrativa register hittas av forskare, men de är också mycket utformade. Till exempel arbetar moderna teknikföretag mycket svårt att samla in och kurera sina data. Således är dessa administrativa poster både funna och utformade, det beror bara på ditt perspektiv (figur 2.12).

    Figur 2.12: Bilden är både en anka och en kanin; vad du ser beror på ditt perspektiv. Stora datakällor är både funna och utformade. igen, vad du ser beror på ditt perspektiv. Till exempel finns samtalsdata som samlats in av ett mobilföretag, data från en forskares perspektiv. Men dessa exakta samma poster är utformade data utifrån en persons synvinkel som arbetar i telefonföretagets faktureringsavdelning. Källa: Popular Science Monthly (1899) / Wikimedia Commons.

    Figur 2.12: Bilden är både en anka och en kanin; vad du ser beror på ditt perspektiv. Stora datakällor är både funna och utformade. igen, vad du ser beror på ditt perspektiv. Till exempel finns samtalsdata som samlats in av ett mobilföretag, data från en forskares perspektiv. Men dessa exakta samma poster är utformade data utifrån en persons synvinkel som arbetar i telefonföretagets faktureringsavdelning. Källa: Popular Science Monthly (1899) / Wikimedia Commons .

    Ge ett exempel på datakälla där du ser det både som hittat och utformat är användbart när du använder den datakällan för forskning.

  12. [ lätt ] I en genomtänkt uppsats delade Christian Sandvig och Eszter Hargittai (2015) digital forskning i två stora kategorier beroende på om det digitala systemet är ett "instrument" eller "studieobjekt". Ett exempel på den första typen där systemet är ett instrument - är Bengtsson och kollegas forskning (2011) om att använda mobiltelefondata för att spåra migrering efter jordbävningen i Haiti 2010. Ett exempel på den andra typen - där systemet är ett studieobjekt - är forskning av Jensen (2007) om hur introduktionen av mobiltelefoner i hela Kerala, Indien påverkat marknadens funktion för fisk. Jag finner denna skillnad till hjälp eftersom den klargör att studier med digitala datakällor kan ha ganska olika mål, även om de använder samma typ av datakälla. För att ytterligare klargöra denna skillnad, beskriv fyra studier som du har sett: två som använder ett digitalt system som ett instrument och två som använder ett digitalt system som ett studieobjekt. Du kan använda exempel från detta kapitel om du vill.