actividades

  • grao de dificultade: fácil fácil , medio medio , duro duro , moi duro moi duro
  • require matemáticas ( require matemáticas )
  • require codificación ( require codificación )
  • recopilación de datos ( recollida de datos )
  • meus favoritos ( Meu favorito )
  1. [ medio , Meu favorito ] A confusión algorísmica foi un problema coas tendencias de Google Flu. Ler o traballo de Lazer et al. (2014) e escribe un correo electrónico breve e claro para un enxeñeiro en Google explicando o problema e ofrecendo unha idea de como solucionalo.

  2. [ medio ] Bollen, Mao, and Zeng (2011) afirman que os datos de Twitter poden ser usados ​​para predecir o mercado de accións. Este achado levou á creación dun fondo de hedge-Derwent Capital Markets-para investir no mercado de accións baseado nos datos recollidos desde Twitter (Jordan 2010) . Que probas queres ver antes de poñer o teu diñeiro nese fondo?

  3. [ fácil ] Mentres que algúns defensores da saúde pública consideran que os e-cigarros son unha axuda efectiva para deixar de fumar, outros alertan sobre os riscos potenciais, como os altos niveis de nicotina. Imaxina que un investigador decide estudar a opinión pública cara aos cigarros electrónicos recollendo papeis de Twitter relacionados con e-cigarros e realizar análises de sentimentos.

    1. Cales son os tres posibles prexuízos que máis preocupan neste estudo?
    2. Clark et al. (2016) corría tan só un estudo. En primeiro lugar, recolleron 850.000 tweets que utilizaban palabras clave relacionadas con cigarros electrónicos a partir de xaneiro de 2012 ata decembro de 2014. Tras unha inspección máis próxima, entenderon que moitos destes tweets eran automatizados (é dicir, non producidos por humanos) e moitos destes tweets automatizados eran esencialmente comercials. Eles desenvolveron un algoritmo de detección humana para separar os tweets automatizados de tweets orgánicos. Usando este algoritmo de detección humana atoparon que o 80% dos tweets foron automatizados. Este achado modifica a túa resposta a parte (a)?
    3. Cando compararon o sentimento en tweets orgánicos e automatizados, descubriron que os tweets automatizados eran máis positivos que os tweets orgánicos (6,17 versus 5,84). Este cambio cambia a túa resposta a (b)?
  4. [ fácil ] En novembro de 2009, Twitter cambiou a pregunta no cadro de tweet de "What's you doing?" A "What's happening?" (Https://blog.twitter.com/2009/whats-happening).

    1. ¿Como pensas que o cambio de mensaxes afectará quen tite e / ou que tweet?
    2. Nome dun proxecto de investigación para o que prefire a pregunta "¿Que está facendo?". Explique por que.
    3. Nome dun proxecto de investigación para o que prefire a pregunta "¿Que está a suceder?". Explique por que.
  5. [ fácil ] "Retweets" adoitan usarse para medir influencia e propagación de influencia en Twitter. Inicialmente, os usuarios tiveron que copiar e pegar o tweet que lles gustou, etiquetar o autor orixinal co seu identificador e escribir manualmente "RT" antes do tweet para indicar que se trataba dun retweet. Entón, en 2009, Twitter engadiu un botón "retweet". En xuño de 2016, Twitter fixo posible aos usuarios retweet seus propios tweets (https://twitter.com/twitter/status/742749353689780224). Pensas que estas modificacións deberían afectar a forma de utilizar "retweets" na túa busca? Por que e por que non?

  6. [ moi duro , recollida de datos , require codificación , Meu favorito ] Nun artigo ampliamente discutido, Michel e colegas (2011) analizaron o contido de máis de cinco millóns de libros digitalizados co obxectivo de identificar tendencias culturais a longo prazo. Os datos que usaron agora foron lanzados como conxunto de datos de Google NGrams, e así podemos usar os datos para replicar e ampliar algúns dos seus traballos.

    Nun dos moitos resultados do traballo, Michel e os seus compañeiros argumentaron que nos esquecemos máis rápido e rápido. Por un ano particular, digamos "1883", calcularon a proporción de 1 gramos publicados en cada ano entre 1875 e 1975 que foron "1883". Eles razoaron que esta proporción é unha medida do interese nos acontecementos que sucederon nese ano. Na súa figura 3a, trazaron as traxectorias de uso durante tres anos: 1883, 1910 e 1950. Estes tres anos comparten un patrón común: pouca utilidade antes dese ano, a continuación, unha espiga, entón a decadencia. A continuación, para cuantificar a taxa de decadencia de cada ano, Michel e os colegas calcularon a "semivida" de cada ano durante todos os anos entre 1875 e 1975. Na súa figura 3a (inserción), demostraron que a semivida de cada un ano está diminuíndo e argumentaron que isto significa que estamos esquecendo o pasado de xeito máis rápido e rápido. Usaron a versión 1 do corpus da lingua inglesa, pero posteriormente Google lanzou unha segunda versión do corpus. Lea todas as partes da pregunta antes de comezar a codificación.

    Esta actividade pode practicar a escritura de código reutilizable, a interpretación de resultados e o intercambio de datos (como traballar con ficheiros incómodos e manipular os datos que faltan). Esta actividade tamén axudarache a poñerse en marcha cun conxunto de datos rico e interesante.

    1. Obter os datos en bruto do sitio web de Google Books NGram Viewer. En particular, debes usar a versión 2 do corpus da lingua inglesa, que foi lanzada o 1 de xullo de 2012. Non comprimida, este ficheiro é de 1,4 GB.

    2. Recrea a parte principal da figura 3a de Michel et al. (2011) . Para recrear esta figura, necesitarás dous ficheiros: o que descargaches en parte (a) eo ficheiro "contas totais", que podes usar para converter as cantidades en cru en proporcións. Teña en conta que o ficheiro de conteo total ten unha estrutura que pode dificultar a lectura. A versión 2 dos datos de NGram produce resultados similares aos presentados en Michel et al. (2011) , que están baseados nos datos da versión 1?

    3. Agora comprobe o seu gráfico contra o gráfico creado polo NGram Viewer.

    4. Recrea a figura 3a (figura principal), pero cambia o \(y\) esixe o reconto de mencións en bruto (non a taxa de mencións).

    5. A diferenza entre (b) e (d) leva a reavaliar algún dos resultados de Michel et al. (2011). Por que e por que non?

    6. Agora, utilizando a proporción de mencións, replique o elemento inserido da figura 3a. É dicir, para cada ano entre 1875 e 1975, calcule a semivida dese ano. A vida media defínese como o número de anos que pasan antes de que a proporción das mencións alcance a metade do seu valor máximo. Teña en conta que Michel et al. (2011) fai algo máis complicado de estimar a vida media, vexa a sección III.6 da Información de apoio en liña, pero aseguran que ambos enfoques producen resultados similares. A versión 2 dos datos de NGram produce resultados similares aos presentados en Michel et al. (2011) , que están baseados nos datos da versión 1? (Suxestión: non se sorprenda se non o fai).

    7. Houbo uns anos que eran atrasados, como os anos que se esquecían particularmente de xeito rápido ou particularmente lentamente? Especifica brevemente os posibles motivos dese patrón e explique como identificou os valores máis altos.

    8. Agora repita este resultado para a versión 2 dos datos de NGrams en chinés, francés, alemán, hebreo, italiano, ruso e español.

    9. Comparando en todos os idiomas, houbo algúns anos que eran atípicos, como os anos que se esqueceron particularmente de xeito rápido ou particularmente lentamente? Especificar brevemente os posibles motivos dese patrón.

  7. [ moi duro , recollida de datos , require codificación , Meu favorito ] Penney (2016) explorou se a publicidade xeneralizada sobre a vixilancia NSA / PRISM (é dicir, as revelacións de Snowden) en xuño de 2013 asociouse cunha diminución brusca e repentina do tráfico aos artigos de Wikipedia sobre temas que suscitan problemas de privacidade. Se é así, este cambio no comportamento sería consistente cun efecto de refrixeración resultante da vixilancia masiva. O enfoque de Penney (2016) ás veces se denomina deseño de series de tempo interrompido e está relacionado coas aproximacións descritas no apartado 2.4.3.

    Para escoller as palabras clave do tema, Penney referiuse á lista utilizada polo Departamento de Seguridade Interna dos Estados Unidos para rastrexar e controlar as redes sociais. A lista de DHS categoriza certos termos de busca nunha variedade de problemas, é dicir, "Preocupación pola saúde", "Seguridade de infraestrutura" e "Terrorismo". Para o grupo de estudo, Penney usou as 48 palabras clave relacionadas co "Terrorismo" (vexa a táboa 8 do apéndice ). Agregou a vista do artigo de Wikipedia mensualmente para os 48 artigos de Wikipedia correspondentes ao longo dun período de 32 meses, desde principios de xaneiro de 2012 ata finais de agosto de 2014. Para reforzar o seu argumento, tamén creou varios grupos de comparación seguindo vistas do artigo sobre outros temas.

    Agora, vas a reproducir e ampliar Penney (2016) . Todos os datos en bruto que necesitarás para esta actividade están dispoñibles en Wikipedia. Ou pode obtelo do paquete R-wikipediatrend (Meissner and R Core Team 2016) . Cando redacte as respostas, ten en conta a fonte de datos que utilizou. (Teña en conta que esta mesma actividade tamén aparece no capítulo 6.) Esta actividade dálle práctica na discusión de datos e pensando en experimentos naturais en grandes fontes de datos. Tamén o levará a funcionar cunha fonte de datos potencialmente interesante para futuros proxectos.

    1. Ler Penney (2016) e reproducir a súa figura 2 que mostra as vistas de páxina para as páxinas relacionadas con "Terrorismo" antes e despois das revelacións de Snowden. Interpretar as conclusións.
    2. A continuación, repita a figura 4A, que compara o grupo de estudo (artigos relacionados con "Terrorismo") cun grupo de comparación empregando palabras clave clasificadas en "DHS e outras axencias" da lista DHS (ver apéndice táboa 10 e nota 139). Interpretar as conclusións.
    3. En parte (b) comparaches o grupo de estudo cun grupo de comparación. Penney tamén comparou con outros dous grupos de comparación: artigos relacionados coa "seguridade da infraestrutura" (apéndice 11) e as páxinas populares de Wikipedia (anexo 12). Comece cun grupo de comparadores alternativo e comprobe se os resultados da parte (b) son sensibles á súa elección do grupo de comparación. Que opción ten máis sentido? Por que?
    4. Penney afirmou que as palabras clave relacionadas co "Terrorismo" foron usadas para seleccionar os artigos de Wikipedia porque o goberno de EE. UU. Citou o terrorismo como xustificación clave das súas prácticas de vixilancia en liña. Como verificación destas palabras clave relacionadas con 48 "Terrorismo", Penney (2016) tamén realizou unha enquisa sobre MTurk, pedindo aos enquisados ​​que valorasen cada unha das palabras clave en termos de problemas do goberno, privacidade-sensibles e evitación (apéndices, táboa 7 e 8 ). Replicar a enquisa sobre MTurk e comparar os resultados.
    5. Baseándose nos resultados en parte (d) e na súa lectura do artigo, ¿concordas coa elección de Penney de palabras clave do grupo de estudo? Por que e por que non? Se non, que suxeriría no seu lugar?
  8. [ fácil ] Efrati (2016) informou, segundo a información confidencial, que o "reparto total" en Facebook diminuíu ao redor do 5,5% ano tras ano mentres que a "compartición de transmisión orixinal" baixou un 21% ano tras ano. Este descenso foi particularmente grave con usuarios de Facebook menores de 30 anos. O informe atribuíu o descenso a dous factores. Un deles é o crecemento do número de "amigos" que ten a xente en Facebook. O outro é que algunha actividade compartida pasou á mensaxería e aos competidores como Snapchat. O informe tamén revelou as diversas tácticas que Facebook intentou aumentar o reparto, incluíndo axustes de algoritmos de Feed News que fan que as mensaxes orixinais sexan máis destacadas, así como os recordatorios periódicos das publicacións orixinais coa función "On This Day". Que consecuencias, se hai, teñen estes achados para os investigadores que queiran usar Facebook como fonte de datos?

  9. [ medio ] Cal é a diferenza entre un sociólogo e un historiador? Segundo Goldthorpe (1991) , a principal diferenza é o control da recolleita de datos. Os historiadores están obrigados a usar reliquias, mentres que os sociólogos poden adaptar a súa recollida de datos a fins específicos. Ler Goldthorpe (1991) . Como é a diferenza entre socioloxía e historia relacionada coa idea das costas e os readymades?

  10. [ duro ] Isto baséase na pregunta anterior. Goldthorpe (1991) sacou unha serie de respostas críticas, incluíndo unha de Nicky Hart (1994) que desafiaba a devoción de Goldthorpe a facer os datos feitos a medida. Para aclarar as limitacións potenciais de datos a medida, Hart describiu o Proxecto Afluente Traballador, unha gran enquisa para medir a relación entre clase social e votación que foi realizada por Goldthorpe e colegas a mediados da década de 1960. Como se podería esperar dun estudioso que favoreceu os datos deseñados sobre os datos atopados, o Proxecto Afluente Traballador recolleu datos que foron adaptados para abordar unha teoría proposta recentemente sobre o futuro da clase social nunha era de crecente nivel de vida. Pero Goldthorpe e compañeiros dalgún xeito "esqueceu" recoller información sobre o comportamento de voto das mulleres. Vexa como Nicky Hart (1994) resumiu todo o episodio:

    "... é difícil evitar a conclusión de que as mulleres foron omitidas porque este conxunto de datos" feito a medida "estaba confinado por unha lóxica paradigmática que excluía a experiencia feminina. Impulsado por unha visión teórica da conciencia e acción das clases como preocupacións masculinas ..., Goldthorpe e os seus compañeiros construíron un conxunto de probas empíricas que alimentaban e alimentaban as súas propias suposicións teóricas en lugar de expónllas a unha proba de adecuación válida ".

    Hart continuou:

    "As conclusións empíricas do Proxecto Afluente Traballador dinos máis sobre os valores masculinistas da socioloxía do século XX que informan os procesos de estratificación, política e vida material".

    Pódese pensar noutros exemplos en que a recopilación de datos a medida ten os prexuízos do colector de datos incorporado? Como se compara isto coa confusión algorítmica? Que consecuencias podería ter neste momento cando os investigadores deberían usar readymades e cando deberían usar custarmades?

  11. [ medio ] Neste capítulo, contrastado datos recompilados por investigadores para investigadores con rexistros administrativos creados por empresas e gobernos. Algunhas persoas chaman a estes rexistros administrativos "datos atopados", que contrastan con "datos deseñados". É certo que os investigadores atopan rexistros administrativos, pero tamén están moi deseñados. Por exemplo, as empresas de tecnoloxía moderna traballan moi arduamente para recoller e curar os seus datos. Así, estes rexistros administrativos son atopados e deseñados, só depende da súa perspectiva (figura 2.12).

    Figura 2.12: A imaxe é tanto un pato como un coello; o que ves depende da túa perspectiva. Atopáronse e deseñáronse grandes fontes de datos; De novo, o que ves depende da túa perspectiva. Por exemplo, os rexistros de datos de chamadas recollidos por unha empresa de telefonía móbil son datos atopados desde a perspectiva dun investigador. Pero estes exactamente os mesmos rexistros están deseñados datos desde a perspectiva de alguén que traballa no departamento de facturación da compañía telefónica. Fonte: Ciencia Popular Mensual (1899) / Wikimedia Commons.

    Figura 2.12: A imaxe é tanto un pato como un coello; o que ves depende da túa perspectiva. Atopáronse e deseñáronse grandes fontes de datos; De novo, o que ves depende da túa perspectiva. Por exemplo, os rexistros de datos de chamadas recollidos por unha empresa de telefonía móbil son datos atopados desde a perspectiva dun investigador. Pero estes exactamente os mesmos rexistros están deseñados datos desde a perspectiva de alguén que traballa no departamento de facturación da compañía telefónica. Fonte: Ciencia Popular Mensual (1899) / Wikimedia Commons .

    Proporcione un exemplo de fonte de datos onde o ver que tanto o atopado como o deseñado son útiles cando se usa esa fonte de datos para investigación.

  12. [ fácil ] Nunha reflexiva obra, Christian Sandvig e Eszter Hargittai (2015) dividiron a investigación dixital en dúas grandes categorías segundo o sistema dixital sexa un "instrumento" ou "obxecto de estudo". Un exemplo do primeiro tipo, onde o sistema é un instrumento: a investigación realizada por Bengtsson e colegas (2011) sobre o uso de datos do teléfono móbil para rastrexar a migración despois do terremoto en Haití en 2010. Un exemplo do segundo tipo -onde o sistema é obxecto de estudo- é a investigación realizada por Jensen (2007) sobre como a introdución de teléfonos móbiles en Kerala, a India afectou o funcionamento do mercado dos peixes. Considero que esta distinción é útil porque aclara que os estudos que usan fontes de datos dixitais poden ter obxectivos bastante diferentes aínda que estean utilizando o mesmo tipo de fonte de datos. Para aclarar esta distinción, describe catro estudos que viches: dous que usan un sistema dixital como instrumento e dous que utilizan un sistema dixital como obxecto de estudo. Podes usar exemplos deste capítulo se queres.