Aktiviteter

  • sværhedsgrad: let let , medium medium , hårdt hårdt , meget hård meget hård
  • kræver matematik ( kræver matematik )
  • kræver kodning ( kræver kodning )
  • dataindsamling ( dataindsamling )
  • Mine favoritter ( min favorit )
  1. [ medium , min favorit ] Algoritmisk confounding var et problem med Google Flu Trends. Læs papiret af Lazer et al. (2014) , og skriv en kort, klar email til en ingeniør hos Google, der forklarer problemet og giver en ide om, hvordan du retter op.

  2. [ medium ] Bollen, Mao, and Zeng (2011) hævder, at data fra Twitter kan bruges til at forudsige aktiemarkedet. Dette resultat førte til oprettelsen af ​​en hedgefond-Derwent Capital Markets-at investere i aktiemarkedet baseret på data indsamlet fra Twitter (Jordan 2010) . Hvilke beviser vil du gerne se, før du lægger dine penge i den pågældende fond?

  3. [ let ] Mens nogle folkesundhedsforesatte anser e-cigaretter som en effektiv hjælp til rygestop, advarer andre om de potentielle risici, som f.eks. De høje niveauer af nikotin. Forestil dig, at en forsker beslutter at studere den offentlige mening over for e-cigaretter ved at indsamle e-cigaretter-relaterede Twitter-indlæg og udføre følelsesanalyse.

    1. Hvad er de tre mulige forstyrrelser, som du er mest bekymret over i dette studie?
    2. Clark et al. (2016) løb bare sådan en undersøgelse. For det første indsamlede de 850.000 tweets, der brugte e-cigaretrelaterede søgeord fra januar 2012 til december 2014. Efter nærmere inspektion indså de, at mange af disse tweets blev automatiseret (dvs. ikke produceret af mennesker), og mange af disse automatiserede tweets var i det væsentlige reklamer. De udviklede en human detektionsalgoritme til at adskille automatiserede tweets fra organiske tweets. Ved hjælp af denne menneskelige detekteringsalgoritme fandt de, at 80% af tweets blev automatiseret. Ændrer dette resultat dit svar på del (a)?
    3. Når de sammenlignede stemningen i organiske og automatiserede tweets, fandt de, at de automatiserede tweets var mere positive end organiske tweets (6,17 versus 5,84). Ændrer dette resultat dit svar til (b)?
  4. [ let ] I november 2009 ændrede Twitter spørgsmålet i tweetboksen fra "Hvad laver du?" Til "Hvad sker der?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hvordan tror du, at ændringen af ​​beskeder vil påvirke hvem tweets og / eller hvad de tweet?
    2. Navngiv et forskningsprojekt, som du foretrækker spørgsmålet "Hvad laver du?" Forklar hvorfor.
    3. Navngiv et forskningsprojekt, som du foretrækker spørgsmålet "Hvad sker der?" Forklar hvorfor.
  5. [ let ] "Retweets" bruges ofte til at måle indflydelse og spredning af indflydelse på Twitter. I første omgang skulle brugerne kopiere og indsætte den tweet, de kunne lide, tag den oprindelige forfatter med sit håndtag og manuelt skrive "RT" før tweetet for at angive, at det var en retweet. Så i 2009 tilføjede Twitter en "retweet" -knap. I juni 2016 gjorde Twitter det muligt for brugerne at retweete deres egne tweets (https://twitter.com/twitter/status/742749353689780224). Tror du, at disse ændringer bør påvirke, hvordan du bruger "retweets" i din forskning? Hvorfor eller hvorfor ikke?

  6. [ meget hård , dataindsamling , kræver kodning , min favorit ] I et bredt diskuteret dokument analyserede Michel og kolleger (2011) indholdet af mere end fem millioner digitaliserede bøger i et forsøg på at identificere langsigtede kulturelle tendenser. De data, de brugte, er nu udgivet som Google NGrams datasæt, og vi kan derfor bruge dataene til at replikere og udvide nogle af deres arbejde.

    I et af de mange resultater i papiret hævdede Michel og kolleger, at vi glemmer hurtigere og hurtigere. I et bestemt år siger "1883", de beregnede den andel af 1 gram, der blev offentliggjort i hvert år mellem 1875 og 1975, som var "1883". De begrundede, at denne andel er et mål for interessen for begivenheder, der skete i det pågældende år. I deres figur 3a plotede de brugen baner i tre år: 1883, 1910 og 1950. Disse tre år deler et fælles mønster: lidt brug før det år, derefter en spike og derefter forfald. For at kvantificere decayraten for hvert år beregnede Michel og kollegaer hvert halvs livstid for hvert år mellem 1875 og 1975. I deres figur 3a (indsats) viste de, at halveringstiden for hver år er faldende, og de hævder, at det betyder, at vi glemmer fortiden hurtigere og hurtigere. De brugte Version 1 af det engelske sprogkorpus, men efterfølgende har Google udgivet en anden version af corpus. Læs venligst alle dele af spørgsmålet, før du begynder kodning.

    Denne aktivitet giver dig mulighed for at øve at skrive genanvendelig kode, tolke resultater og data wrangling (som f.eks. At arbejde med akavede filer og håndtere manglende data). Denne aktivitet vil også hjælpe dig med at komme i gang med et rigt og interessant datasæt.

    1. Få de rå data fra Google Books NGram Viewer-webstedet. I særdeleshed skal du bruge version 2 af det engelske sprogkorpus, som blev udgivet den 1. juli 2012. Ikke-komprimeret, denne fil er 1,4 GB.

    2. Genskab hoveddelen af ​​figur 3a fra Michel et al. (2011) . For at genskabe denne figur skal du bruge to filer: den du downloadede i del (a) og "total count" -filen, som du kan bruge til at konvertere de rå tæller til proportioner. Bemærk, at den samlede tællerfil har en struktur, der kan gøre det lidt svært at læse. Leverer version 2 af NGram-data tilsvarende resultater som dem, der præsenteres i Michel et al. (2011) , der er baseret på version 1 data?

    3. Tjek nu din graf imod den graf, der er oprettet af NGram Viewer.

    4. Genskab figur 3a (hovedfigur), men skift \(y\) -axis for at være den røde omtale tæller (ikke graden af ​​nævninger).

    5. Afviger forskellen mellem (b) og (d) dig til at revurdere nogle af resultaterne fra Michel et al. (2011). Hvorfor eller hvorfor ikke?

    6. Nu, ved hjælp af andelen af ​​nævninger, replikerer indsatsen i figur 3a. Det er for hvert år mellem 1875 og 1975, at beregne halveringstiden for det pågældende år. Halveringstiden er defineret som antallet af år, der passerer før andelen af ​​angivelser når halvdelen af ​​dens højeste værdi. Bemærk at Michel et al. (2011) gør noget mere kompliceret til at estimere halveringstiden - se afsnit III.6 i Supporting Online Information - men de hævder, at begge tilgange giver ensartede resultater. Giver version 2 af NGram-data tilsvarende resultater som dem, der præsenteres i Michel et al. (2011) , der er baseret på version 1 data? (Tip: Bliv ikke overrasket, hvis det ikke gør det.)

    7. Var der nogen år, der var outliers som år, der blev glemt særligt hurtigt eller særligt langsomt? Kortfattet spekulere om mulige årsager til dette mønster og forklare hvordan du identificerede outliers.

    8. Gentag nu dette resultat for version 2 af NGrams-dataene på kinesisk, fransk, tysk, hebraisk, italiensk, russisk og spansk.

    9. Sammenlignet på tværs af alle sprog, var der nogen år, der var outliers, som år, der blev glemt særligt hurtigt eller særligt langsomt? Spekulere kort om mulige årsager til dette mønster.

  7. [ meget hård , dataindsamling , kræver kodning , min favorit ] Penney (2016) undersøgte, om den udbredte publicitet om NSA / PRISM-overvågning (dvs. Snowden-åbenbaringerne) i juni 2013 var forbundet med et skarpt og pludseligt fald i trafikken til Wikipedia-artikler om emner, der fremmer privatlivets bekymringer. Hvis ja, ville denne ændring i adfærd være i overensstemmelse med en chillende effekt som følge af massovervågning. Penney (2016) 's tilgang Penney (2016) kaldes undertiden et afbrudt tidsserie- design, og det er relateret til fremgangsmåderne beskrevet i afsnit 2.4.3.

    For at vælge emneordene henviste Penney til den liste, som US Department of Homeland Security brugte til sporing og overvågning af sociale medier. DHS-listen kategoriserer bestemte søgeord i en række emner, dvs. "Sundhedsbekymring", "Infrastruktur Sikkerhed" og "Terrorisme." Penney brugte 48 søgeord relateret til "Terrorisme" (se bilag tabel 8) til studiegruppen. ). Han samlede derefter Wikipedia artikelsyntællinger månedligt for de tilsvarende 48 Wikipedia artikler over en 32 måneders periode fra begyndelsen af ​​januar 2012 til slutningen af ​​august 2014. For at styrke sit argument skabte han også flere sammenligningsgrupper ved at spore artiklervisninger om andre emner.

    Nu skal du replikere og udvide Penney (2016) . Alle de rå data, du vil bruge til denne aktivitet, er tilgængelig fra Wikipedia. Eller du kan få det fra R-pakken wikipediatrend (Meissner and R Core Team 2016) . Når du skriver dine svar, skal du notere hvilken datakilde du brugte. (Bemærk, at den samme aktivitet også ses i kapitel 6.) Denne aktivitet vil give dig øve i dataløsninger og tænke på naturlige eksperimenter i store datakilder. Det vil også få dig i gang med en potentielt interessant datakilde til fremtidige projekter.

    1. Læs Penney (2016) og kopier hans figur 2, som viser sidevisningerne for "Terrorism" -relaterede sider før og efter Snowden-åbenbaringerne. Fortolk resultaterne.
    2. Derefter replikere figur 4A, som sammenligner studiegruppen ("Terrorisme" -relaterede artikler) med en komparatorgruppe, der anvender nøgleord kategoriseret under "DHS & Other Agencies" fra DHS-listen (se bilag tabel 10 og fodnote 139). Fortolk resultaterne.
    3. I del (b) sammenlignede du studiegruppen med en komparatorgruppe. Penney sammenlignes også med to andre komparatorgrupper: "Infrastruktur Sikkerhed" relaterede artikler (appendiks tabel 11) og populære Wikipedia sider (bilag tabel 12). Kom med en alternativ komparatorgruppe, og test, om resultaterne fra del (b) er følsomme over for dit valg af komparatorgruppe. Hvilket valg giver mest mening? Hvorfor?
    4. Penney udtalte, at nøgleord vedrørende "terrorisme" blev brugt til at vælge Wikipedia-artiklerne, fordi den amerikanske regering henviste til terrorisme som en vigtig begrundelse for dens online overvågningspraksis. Som en kontrol af disse 48 "Terrorism" -relaterede søgeord udførte Penney (2016) også en undersøgelse på MTurk, hvor respondenterne bedt om at vurdere hvert af ht-søgeordene med hensyn til regeringsproblemer, privatlivssensitiv og undgåelse (appendiks tabel 7 og 8 ). Replikér undersøgelsen på MTurk og sammenlign dine resultater.
    5. På baggrund af resultaterne i del (d) og din læsning af artiklen er du enig i Penneys valg af emneord i studiegruppen? Hvorfor eller hvorfor ikke? Hvis ikke, hvad ville du foreslå i stedet?
  8. [ let ] Efrati (2016) rapporterede på baggrund af fortrolige oplysninger, at "total deling" på Facebook var faldet med omkring 5,5% året rundt, mens "original broadcast sharing" var 21% lavere end året. Denne nedgang var særligt akut hos Facebook-brugere under 30 år. Rapporten tillod nedgangen i to faktorer. Den ene er væksten i antallet af "venner" folk har på Facebook. Den anden er, at en del delingsaktivitet er flyttet til messaging og til konkurrenter som Snapchat. Rapporten afslørede også de mange taktikker, Facebook havde forsøgt at øge deling, herunder nyhedsfeed algoritme tweaks, der gør originale indlæg mere fremtrædende, samt periodiske påmindelser af de oprindelige indlæg med funktionen "On This Day". Hvilke konsekvenser, hvis nogen, har disse resultater for forskere, der vil bruge Facebook som datakilde?

  9. [ medium ] Hvad er forskellen mellem en sociolog og en historiker? Ifølge Goldthorpe (1991) er den største forskel kontrol med dataindsamling. Historikere er nødt til at bruge relikvier, mens sociologer kan skræddersy deres dataindsamling til specifikke formål. Læs Goldthorpe (1991) . Hvordan er forskellen mellem sociologi og historie relateret til ideen om custommades og readymades?

  10. [ hårdt ] Dette bygger på den foregående quesiton. Goldthorpe (1991) udstedte en række kritiske svar, herunder en fra Nicky Hart (1994) der udfordrede Goldthorpe's hengivenhed til skræddersyede data. For at præcisere de potentielle begrænsninger af skræddersyede data beskrev Hart det velstående arbejdsprojekt, en stor undersøgelse for at måle forholdet mellem social klasse og afstemning, der blev udført af Goldthorpe og kolleger i midten af ​​1960'erne. Som man kunne forvente af en lærer, der foretrak designede data over fundne data, indsamlede det velstående arbejdsprojekt data, der var skræddersyet til at behandle en nyligt foreslået teori om fremtiden for social klasse i en æra med stigende levestandard. Men Goldthorpe og kolleger på en eller anden måde "glemte" for at indsamle oplysninger om kvinders stemmeopførsel. Her er hvordan Nicky Hart (1994) opsummerede hele episoden:

    "... det er svært at undgå den konklusion, at kvinder blev udeladt, fordi dette" skræddersyede "datasæt var begrænset af en paradigmatisk logik, der udelukket kvindelig erfaring. Drevet af en teoretisk vision om klassebevidsthed og handling som mandlige bekymringer ... udarbejdede Goldthorpe og hans kolleger et sæt empiriske beviser, der fodrede og opfostrede deres egne teoretiske antagelser i stedet for at udsætte dem for en gyldig test af tilstrækkelighed. "

    Hart fortsatte:

    "De empiriske fund af det velstående arbejdsprojekt fortæller os mere om de maskulinistiske værdier i sociologien i midten af ​​århundredet, end de informerer stratificerings-, politik- og materialelivets processer."

    Kan du tænke på andre eksempler, hvor skræddersyet dataindsamling har fordele af dataindsamleren indbygget i den? Hvordan sammenligner dette med algoritmisk confounding? Hvilke konsekvenser kan dette have for, når forskere skal bruge readymades og når de skal bruge custommades?

  11. [ medium ] I dette kapitel har jeg modsat data indsamlet af forskere for forskere med administrative dokumenter oprettet af virksomheder og regeringer. Nogle kalder disse administrative poster "fundet data", som de står i kontrast til "designede data." Det er rigtigt, at administrative poster findes af forskere, men de er også meget designet. For eksempel arbejder moderne tech virksomheder meget svært at indsamle og kurere deres data. Således er disse administrative poster både fundet og designet, det afhænger kun af dit perspektiv (figur 2.12).

    Figur 2.12: Billedet er både en and og en kanin; Det du ser afhænger af dit perspektiv. Store datakilder er både fundet og designet; igen, hvad du ser afhænger af dit perspektiv. F.eks. Findes oplysningsdata, der er indsamlet af et mobiltelefonfirma, data fra et forskers perspektiv. Men disse nøjagtige samme poster er designet data ud fra perspektivet af en person, der arbejder i telefonvirksomhedens faktureringsafdeling. Kilde: Popular Science Monthly (1899) / Wikimedia Commons.

    Figur 2.12: Billedet er både en and og en kanin; Det du ser afhænger af dit perspektiv. Store datakilder er både fundet og designet; igen, hvad du ser afhænger af dit perspektiv. F.eks. Findes oplysningsdata, der er indsamlet af et mobiltelefonfirma, data fra et forskers perspektiv. Men disse nøjagtige samme poster er designet data ud fra perspektivet af en person, der arbejder i telefonvirksomhedens faktureringsafdeling. Kilde: Popular Science Monthly (1899) / Wikimedia Commons .

    Giv et eksempel på datakilde, hvor du ser det både som fundet og designet er nyttigt, når du bruger datakilden til forskning.

  12. [ let ] Christian Sandvig og Eszter Hargittai (2015) deltager i en gennemtænkt essay digital forskning i to brede kategorier afhængigt af om det digitale system er et "instrument" eller "studieobjekt". Et eksempel på den første slags, hvor systemet er et instrument - er Bengtsson's og kollegernes (2011) om at bruge mobiltelefondata til at spore migration efter jordskælvet i Haiti i 2010. Et eksempel på den anden slags - hvor systemet er et studieobjekt - er forskning fra Jensen (2007) om hvordan indførelsen af ​​mobiltelefoner i hele Kerala, Indien har påvirket funktionen af ​​markedet for fisk. Jeg finder denne skelnen nyttig, fordi det præciserer, at undersøgelser, der bruger digitale datakilder, kan have helt forskellige mål, selvom de bruger den samme slags datakilde. For at præcisere denne sondring beskrives fire undersøgelser, som du har set: To, der bruger et digitalt system som et instrument og to, der bruger et digitalt system som studieobjekt. Du kan bruge eksempler fra dette kapitel, hvis du vil.