aktiviteter

  • vanskelighetsgrad: lett lett , medium medium , hardt hard , veldig vanskelig veldig vanskelig
  • krever matte ( krever matte )
  • krever koding ( krever koding )
  • datainnsamling ( datainnsamling )
  • mine favoritter ( favoritten min )
  1. [ medium , favoritten min ] Algoritmisk confounding var et problem med Google Flu Trends. Les avisen av Lazer et al. (2014) , og skriv en kort, klar e-post til en ingeniør hos Google som forklarer problemet og gir en ide om hvordan du fikser det.

  2. [ medium ] Bollen, Mao, and Zeng (2011) hevder at data fra Twitter kan brukes til å forutsi aksjemarkedet. Dette funnet førte til etableringen av et hedgefond - Derwent Capital Markets - å investere i aksjemarkedet basert på data samlet fra Twitter (Jordan 2010) . Hvilke bevis vil du se før du setter pengene dine i det fondet?

  3. [ lett ] Mens noen helsepersonell anser e-sigaretter som et effektivt hjelpemiddel for røykeslutt, advarer andre om de potensielle risikoene, for eksempel de høye nivåene av nikotin. Tenk deg at en forsker bestemmer seg for å studere den offentlige mening mot e-sigaretter ved å samle e-sigarettrelaterte Twitter-innlegg og gjennomføre sentimentanalyse.

    1. Hva er de tre mulige forstyrrelsene som du er mest bekymret for i denne studien?
    2. Clark et al. (2016) kjørte bare en slik studie. Først oppsamlet de 850 000 tweets som brukte e-sigarettrelaterte søkeord fra januar 2012 til desember 2014. Etter nærmere inspeksjon innså de at mange av disse tweetsene ble automatisert (dvs. ikke produsert av mennesker), og mange av disse automatiserte tweets var i det vesentlige reklamer. De utviklet en humandeteksjonsalgoritme for å skille automatiserte tweets fra organiske tweets. Ved hjelp av denne menneskelige detekteringsalgoritmen fant de at 80% av tweets ble automatisert. Gjør dette funnet svaret ditt på del (a)?
    3. Når de sammenlignet stemningen i organiske og automatiserte tweets, fant de at de automatiserte tweets var mer positive enn organiske tweets (6,17 versus 5,84). Endrer dette funnet svaret ditt på (b)?
  4. [ lett ] I november 2009 endret Twitter spørsmålet i tweet-boksen fra "Hva gjør du?" Til "Hva skjer?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hvordan tror du endringen av spørsmål vil påvirke hvem tweets og / eller hva de tweet?
    2. Gi et navn på ett forskningsprosjekt som du foretrekker spørsmålet "Hva gjør du?" Forklar hvorfor.
    3. Gi et navn på ett forskningsprosjekt som du foretrekker spørsmålet "Hva skjer?" Forklar hvorfor.
  5. [ lett ] Retweets brukes ofte til å måle innflytelse og spredning av innflytelse på Twitter. I utgangspunktet måtte brukerne kopiere og lime inn tweetet de likte, merke den opprinnelige forfatteren med håndtaket sitt og manuelt skrive "RT" før tweetet for å indikere at det var en retweet. Så, i 2009 la Twitter til en "retweet" -knapp. I juni 2016 gjorde Twitter det mulig for brukere å retweete sine egne tweets (https://twitter.com/twitter/status/742749353689780224). Tror du at disse endringene bør påvirke hvordan du bruker "retweets" i din forskning? Hvorfor eller hvorfor ikke?

  6. [ veldig vanskelig , datainnsamling , krever koding , favoritten min ] I et bredt diskutert papir analyserte Michel og kollegaer (2011) innholdet i mer enn fem millioner digitaliserte bøker i et forsøk på å identifisere langsiktige kulturutviklinger. Dataene de brukte, er nå utgitt som Google NGrams datasett, og vi kan derfor bruke dataene til å kopiere og utvide noe av deres arbeid.

    I et av de mange resultatene i papiret hevdet Michel og kolleger at vi glemmer raskere og raskere. For et bestemt år, si "1883", beregnet de andelen 1 gram som ble publisert i hvert år mellom 1875 og 1975 som var "1883". De begrunnet at denne andelen er et mål på interessen for hendelser som skjedde i det året. I figur 3a plotte de bruksbanene i tre år: 1883, 1910 og 1950. Disse tre årene deler et felles mønster: lite bruk før det året, deretter en spike og deretter forfall. For å kvantifisere dekningsraten for hvert år, beregnede Michel og kollegaer hvert halve livstid for hvert år mellom 1875 og 1975. I figur 3a (innsettet) viste de at halveringstiden for hver år er avtagende, og de hevdet at dette betyr at vi glemmer fortiden raskere og raskere. De brukte versjon 1 av engelskspråklige corpus, men senere har Google gitt ut en ny versjon av corpus. Vennligst les alle delene av spørsmålet før du begynner kodingen.

    Denne aktiviteten vil gi deg øvelse med å skrive gjenbrukbar kode, tolke resultater og data wrangling (for eksempel å jobbe med vanskelige filer og håndtering av manglende data). Denne aktiviteten vil også hjelpe deg med å komme i gang med et rikt og interessant datasett.

    1. Få de raske dataene fra NGram Viewer-nettstedet til Google Bøker. Spesielt bør du bruke versjon 2 av engelsksprogkorpussen, som ble utgitt 1. juli 2012. Ukomprimert, denne filen er 1,4 GB.

    2. Gjenta hoveddelen av figur 3a av Michel et al. (2011) . For å gjenskape denne figuren, trenger du to filer: den du lastet ned i del (a) og "total teller" -filen, som du kan bruke til å konvertere rå teller til proporsjoner. Legg merke til at totaltallfilen har en struktur som kan gjøre det litt vanskelig å lese inn. Har versjon 2 av NGram-dataene tilsvarende resultater som de som presenteres i Michel et al. (2011) , som er basert på versjon 1 data?

    3. Sjekk nå grafen din mot grafen som ble opprettet av NGram Viewer.

    4. Gjenta figur 3a (hovedfigur), men endre \(y\) -aksene for å være den røde omtale-tellingen (ikke graden av nevner).

    5. Gir forskjellen mellom (b) og (d) deg til å revurdere noen av resultatene fra Michel et al. (2011). Hvorfor eller hvorfor ikke?

    6. Nå, ved å bruke andelen nevner, gjenta innsatsen i figur 3a. Det er for hvert år mellom 1875 og 1975, beregne halveringstiden til det året. Halveringstiden er definert som antall år som går før andelen nevner når halvparten av toppverdien. Merk at Michel et al. (2011) gjør noe mer komplisert for å anslå halveringstiden, se avsnitt III.6 i Supporting Online Information-men de hevder at begge tilnærmingene gir lignende resultater. Versjon 2 av NGram-dataene gir lignende resultater som de som presenteres i Michel et al. (2011) , som er basert på versjon 1 data? (Tips: Ikke bli overrasket om det ikke gjør det.)

    7. Var det noen år som var uregelmessige som år som ble glemt spesielt raskt eller spesielt sakte? Spekulere kort om mulige årsaker til det mønsteret og forklare hvordan du identifiserte avvikene.

    8. Gjenta nå dette resultatet for versjon 2 av NGrams-dataene på kinesisk, fransk, tysk, hebraisk, italiensk, russisk og spansk.

    9. Sammenligning på tvers av alle språk, var det noen år som var uregelmessige, for eksempel år som ble glemt spesielt raskt eller spesielt sakte? Spekulere kort om mulige årsaker til dette mønsteret.

  7. [ veldig vanskelig , datainnsamling , krever koding , favoritten min ] Penney (2016) undersøkte om den utbredte publisiteten om NSA / PRISM-overvåking (dvs. Snowden-åpenbaringen) i juni 2013 var forbundet med en skarp og plutselig nedgang i trafikken til Wikipedia-artikler om emner som øker personvernet. I så fall vil denne endringen i atferd være i samsvar med en chillende effekt som følge av massovervåkning. Tilnærmingen til Penney (2016) kalles noen ganger for en avbrudt tidsserie- design, og den er relatert til tilnærmingene beskrevet i avsnitt 2.4.3.

    For å velge emneordene, refererte Penney til listen som ble brukt av US Department of Homeland Security for sporing og overvåkning av sosiale medier. DHS-listen kategoriserer bestemte søkeord i en rekke problemer, dvs. "Helse Bekymring", "Infrastruktur Sikkerhet" og "Terrorisme." For studiegruppen brukte Penney de 48 søkeordene knyttet til "Terrorisme" (se vedlegg Tabell 8 ). Han samlet deretter Wikipedia-artikelsynkroniseringen månedlig for de tilsvarende 48 Wikipedia-artiklene over en 32-måneders periode fra begynnelsen av januar 2012 til slutten av august 2014. For å styrke hans argument skapte han også flere sammenligningsgrupper ved å spore artikkelvisninger på andre emner.

    Nå skal du kopiere og utvide Penney (2016) . Alle de rå dataene du trenger for denne aktiviteten er tilgjengelig fra Wikipedia. Eller du kan få den fra R-pakken wikipediatrend (Meissner and R Core Team 2016) . Når du skriver opp svarene dine, vær oppmerksom på hvilken datakilde du brukte. (Legg merke til at denne samme aktiviteten også vises i kapittel 6.) Denne aktiviteten vil gi deg øve i datakryp og tenke på naturlige eksperimenter i store datakilder. Det vil også få deg i gang med en potensielt interessant datakilde for fremtidige prosjekter.

    1. Les Penney (2016) og gjenta figur 2 som viser sidevisninger for "Terrorism" -relaterte sider før og etter Snowden-åpenbaringene. Tolk funnene.
    2. Neste, gjenta figur 4A, som sammenligner studiegruppen ("Terrorism" -relaterte artikler) med en komparatorgruppe ved hjelp av søkeord kategorisert under "DHS & Other Agencies" fra DHS-listen (se vedleggstabell 10 og fotnote 139). Tolk funnene.
    3. I del (b) sammenlignet du studiegruppen med en komparatorgruppe. Penney sammenlignet også med to andre komparatorgrupper: "Infrastruktur Security" -relaterte artikler (vedleggstabell 11) og populære Wikipedia-sider (vedlegg Tabell 12). Kom opp med en alternativ komparatorgruppe, og test om resultatene fra del (b) er følsomme for ditt valg av komparatorgruppe. Hvilket valg gir mest mening? Hvorfor?
    4. Penney uttalte at søkeord relatert til "Terrorism" ble brukt til å velge Wikipedia-artiklene fordi den amerikanske regjeringen sitert terrorisme som en nøkkelbegrunnelse for sin nettbaserte overvåkningspraksis. Som en undersøkelse av disse 48 "Terrorism" -relaterte søkeordene, gjennomførte Penney (2016) en undersøkelse på MTurk, og spurte respondentene om å rangere hvert av ht-søkeordene i form av regjeringens problemer, personvernsfølsomme og unngåelse (vedleggstabell 7 og 8 ). Replikk undersøkelsen på MTurk og sammenlign dine resultater.
    5. Basert på resultatene i del (d) og din lesning av artikkelen, er du enig med Penneys valg av emneord i studiegruppen? Hvorfor eller hvorfor ikke? Hvis ikke, hva vil du foreslå i stedet?
  8. [ lett ] Efrati (2016) rapporterte, basert på konfidensiell informasjon, at "total deling" på Facebook hadde gått ned med om lag 5,5% året over, mens "original broadcast sharing" var nede 21% året over. Denne nedgangen var spesielt akutt med Facebook-brukere under 30 år. Rapporten tilskrev nedgangen til to faktorer. En er veksten i antall "venner" folk har på Facebook. Den andre er at noen delingsaktivitet har skiftet til meldinger og til konkurrenter som Snapchat. Rapporten avslørte også flere taktikker Facebook hadde forsøkt å øke delingen, inkludert nyhetsalgoritm tweaks som gjør originale innlegg mer fremtredende, samt periodiske påminnelser av de opprinnelige innleggene med funksjonen "På denne dagen". Hvilke konsekvenser, hvis noen, har disse funnene for forskere som vil bruke Facebook som datakilde?

  9. [ medium ] Hva er forskjellen mellom en sosiolog og en historiker? Ifølge Goldthorpe (1991) er hovedforskjellen kontroll over datainnsamling. Historikere er tvunget til å bruke relikvier, mens sosiologer kan skreddersy datainnsamlingen til spesifikke formål. Les Goldthorpe (1991) . Hvordan er forskjellen mellom sosiologi og historie knyttet til ideen om custommades og readymades?

  10. [ hard ] Dette bygger på forrige quesiton. Goldthorpe (1991) uttok en rekke kritiske svar, blant annet en fra Nicky Hart (1994) som utfordret Goldthorpe's hengivenhet til skreddersydde data. For å klargjøre potensielle begrensninger av skreddersydde data, beskriver Hart det velstående arbeidsprosjektet, en stor undersøkelse for å måle forholdet mellom sosial klasse og avstemning som ble utført av Goldthorpe og kolleger i midten av 1960-tallet. Som man kunne forvente av en lærer som foretrukket utformet data over funnet data, samler velstående arbeidsprosjekt data som var skreddersydd for å ta opp en nylig foreslått teori om fremtiden for sosiale klasser i en tid med økende levestandard. Men, Goldthorpe og kolleger "liksom" glemte "å samle inn opplysninger om kvinners stemmeoppførsel. Slik har Nicky Hart (1994) oppsummert hele episoden:

    "... det er vanskelig å unngå konklusjonen om at kvinner ble utelatt fordi dette" skreddersydd "datasettet var begrenset av en paradigmatisk logikk som utelukket kvinnelig erfaring. Drevet av en teoretisk visjon om klassebevissthet og handling som mannlige bekymringer ... konstruerte Goldthorpe og hans kollegaer et sett med empiriske bevis som matet og nurtured sine egne teoretiske antagelser i stedet for å utsette dem for en gyldig test av tilstrekkelighet. "

    Hart fortsatte:

    "De empiriske funnene fra det velstående arbeidsprosjektet forteller oss mer om de maskulinistiske verdiene i midten av århundre sosiologi enn de informerer prosesser av lagdeling, politikk og materiell liv."

    Kan du tenke på andre eksempler hvor skreddersydd datainnsamling har forstyrrelser av datasamleren bygget inn i den? Hvordan sammenligner dette med algoritmisk confounding? Hvilke implikasjoner kan dette ha for når forskere skal bruke readymades og når de skal bruke custommades?

  11. [ medium ] I dette kapittelet har jeg kontrastert data samlet av forskere for forskere med administrative dokumenter opprettet av bedrifter og regjeringer. Noen kaller disse administrative rekordene "funnet data", som de står i motsetning til "designede data." Det er sant at administrative poster blir funnet av forskere, men de er også svært utformede. For eksempel jobber moderne tech-selskaper veldig hardt for å samle inn og kurere sine data. Dermed er disse administrative dokumentene både funnet og utformet, det avhenger bare av ditt perspektiv (figur 2.12).

    Figur 2.12: Bildet er både en and og en kanin; Det du ser er avhengig av ditt perspektiv. Store datakilder er både funnet og utformet; igjen, det du ser er avhengig av ditt perspektiv. For eksempel blir dataldataene som er samlet inn av et mobiltelefonfirma, funnet data fra en forskers perspektiv. Men disse nøyaktig samme postene er utformet data ut fra det perspektivet til noen som jobber i faktureringsavdelingen til telefonselskapet. Kilde: Popular Science Monthly (1899) / Wikimedia Commons.

    Figur 2.12: Bildet er både en and og en kanin; Det du ser er avhengig av ditt perspektiv. Store datakilder er både funnet og utformet; igjen, det du ser er avhengig av ditt perspektiv. For eksempel blir dataldataene som er samlet inn av et mobiltelefonfirma, funnet data fra en forskers perspektiv. Men disse nøyaktig samme postene er utformet data ut fra det perspektivet til noen som jobber i faktureringsavdelingen til telefonselskapet. Kilde: Popular Science Monthly (1899) / Wikimedia Commons .

    Gi et eksempel på datakilde hvor du ser det både som funnet og utformet, er nyttig når du bruker datakilden til forskning.

  12. [ lett ] I en gjennomtenkt essay delte Christian Sandvig og Eszter Hargittai (2015) digital forskning i to brede kategorier avhengig av om det digitale systemet er et "instrument" eller "studieobjekt." Et eksempel på den første typen der systemet er et instrument - er Bengtsson og kollegaer (2011) undersøkelser om bruk av mobiltelefondata for å spore migrasjon etter jordskjelvet i Haiti i 2010. Et eksempel på den andre typen - hvor systemet er et studieobjekt - er forskning av Jensen (2007) om hvordan innføringen av mobiltelefoner i hele Kerala, India påvirket markedets funksjon for fisk. Jeg finner dette skillet nyttig fordi det forklarer at studier som bruker digitale datakilder, kan ha ganske forskjellige mål, selv om de bruker samme type datakilde. For å ytterligere klargjøre denne forskjellen, beskriv fire studier du har sett: to som bruker et digitalt system som et instrument og to som bruker et digitalt system som studieobjekt. Du kan bruke eksempler fra dette kapittelet hvis du vil.