Ocupaciones

  • grado de dificultad: fácil fácil , medio medio , difícil difícil , muy duro muy duro
  • requiere matemática ( requiere matemática )
  • requiere codificación ( requiere codificación )
  • recopilación de datos ( recopilación de datos )
  • mis favoritos ( mi favorito )
  1. [ medio , mi favorito ] La confusión algorítmica fue un problema con Google Flu Trends. Lea el documento de Lazer et al. (2014) , y escriba un correo electrónico breve y claro a un ingeniero de Google explicando el problema y ofreciendo una idea de cómo solucionarlo.

  2. [ medio ] Bollen, Mao, and Zeng (2011) afirman que los datos de Twitter se pueden utilizar para predecir el mercado de valores. Este hallazgo condujo a la creación de un fondo de cobertura-Derwent Capital Markets-para invertir en el mercado bursátil basado en datos recopilados de Twitter (Jordan 2010) . ¿Qué evidencia le gustaría ver antes de poner su dinero en ese fondo?

  3. [ fácil ] Mientras que algunos defensores de la salud pública consideran que los cigarrillos electrónicos son una ayuda eficaz para dejar de fumar, otros advierten sobre los riesgos potenciales, como los altos niveles de nicotina. Imagínese que un investigador decide estudiar la opinión pública hacia los cigarrillos electrónicos mediante la recopilación de publicaciones en Twitter relacionadas con cigarrillos electrónicos y la realización de análisis de sentimientos.

    1. ¿Cuáles son los tres sesgos posibles que más le preocupan en este estudio?
    2. Clark et al. (2016) ejecutó ese tipo de estudio. Primero, recolectaron 850,000 tweets que utilizaron palabras clave relacionadas con e-cigarette desde enero de 2012 hasta diciembre de 2014. Luego de una inspección más cercana, se dieron cuenta de que muchos de estos tweets eran automáticos (es decir, no producidos por humanos) y muchos de estos tweets automáticos eran esencialmente comerciales. Desarrollaron un algoritmo de detección humana para separar los tweets automáticos de los tweets orgánicos. Al usar este algoritmo de detección humana, descubrieron que el 80% de los tweets se automatizaron. ¿Este hallazgo cambia tu respuesta a la parte (a)?
    3. Cuando compararon el sentimiento en tweets orgánicos y automáticos, descubrieron que los tweets automáticos eran más positivos que los tweets orgánicos (6,17 frente a 5,84). ¿Este hallazgo cambia tu respuesta a (b)?
  4. [ fácil ] En noviembre de 2009, Twitter cambió la pregunta en el cuadro de tweet de "¿Qué estás haciendo?" A "¿Qué está pasando?" (Https://blog.twitter.com/2009/whats-happening).

    1. ¿Cómo crees que el cambio de indicaciones afectará a los tweets y / o a los tweets?
    2. Nombra un proyecto de investigación para el cual prefieras el mensaje "¿Qué estás haciendo?" Explica por qué.
    3. Nombre un proyecto de investigación para el cual prefiere el mensaje "¿Qué está pasando?" Explique por qué.
  5. [ fácil ] "Retweets" se utilizan a menudo para medir la influencia y la difusión de la influencia en Twitter. Inicialmente, los usuarios tenían que copiar y pegar el tweet que les gustaba, etiquetar al autor original con su identificador y escribir "RT" manualmente antes del tweet para indicar que se trataba de un retweet. Luego, en 2009, Twitter agregó un botón de "retweet". En junio de 2016, Twitter hizo posible que los usuarios retuitearan sus propios tweets (https://twitter.com/twitter/status/742749353689780224). ¿Cree que estos cambios deberían afectar la forma en que utiliza los "retweets" en su investigación? ¿Por qué o por qué no?

  6. [ muy duro , recopilación de datos , requiere codificación , mi favorito ] En un artículo ampliamente discutido, Michel y sus colegas (2011) analizaron el contenido de más de cinco millones de libros digitalizados en un intento de identificar las tendencias culturales a largo plazo. Los datos que utilizaron ahora se han publicado como el conjunto de datos de Google NGrams, por lo que podemos usar los datos para replicar y ampliar parte de su trabajo.

    En uno de los muchos resultados del documento, Michel y sus colegas argumentaron que nos olvidamos cada vez más rápido. Para un año en particular, digamos "1883", calcularon la proporción de 1 gramo publicado en cada año entre 1875 y 1975 que fueron "1883". Ellos razonaron que esta proporción es una medida del interés en los eventos que ocurrieron en ese año. En su figura 3a, trazaron las trayectorias de uso durante tres años: 1883, 1910 y 1950. Estos tres años comparten un patrón común: poco uso antes de ese año, luego un pico, luego decaer. Luego, para cuantificar la tasa de descomposición de cada año, Michel y sus colegas calcularon la "vida media" de cada año para todos los años entre 1875 y 1975. En su figura 3a (recuadro), mostraron que la vida media de cada uno el año está disminuyendo, y argumentaron que esto significa que estamos olvidando el pasado cada vez más rápido. Utilizaron la versión 1 del corpus en idioma inglés, pero posteriormente Google lanzó una segunda versión del corpus. Lea todas las partes de la pregunta antes de comenzar la codificación.

    Esta actividad le permitirá practicar la escritura de códigos reutilizables, la interpretación de resultados y la disputa de datos (como trabajar con archivos torpes y manejar datos faltantes). Esta actividad también lo ayudará a comenzar a utilizar un conjunto de datos rico e interesante.

    1. Obtenga los datos brutos del sitio web de Google Book NGram Viewer. En particular, debe usar la versión 2 del corpus en idioma inglés, que se lanzó el 1 de julio de 2012. Sin comprimir, este archivo es de 1,4 GB.

    2. Recrea la parte principal de la figura 3a de Michel et al. (2011) . Para recrear esta figura, necesitará dos archivos: el que descargó en la parte (a) y el archivo de "conteos totales", que puede usar para convertir los recuentos sin procesar en proporciones. Tenga en cuenta que el archivo de cuentas totales tiene una estructura que puede hacer que sea un poco difícil de leer. ¿La versión 2 de los datos de NGram produce resultados similares a los presentados en Michel et al. (2011) , que se basan en datos de la versión 1?

    3. Ahora verifica tu gráfica contra el gráfico creado por NGram Viewer.

    4. Vuelva a crear la figura 3a (figura principal), pero cambie el eje \(y\) para que sea el recuento de mención sin formato (no la tasa de menciones).

    5. ¿La diferencia entre (b) y (d) lo lleva a reevaluar cualquiera de los resultados de Michel et al. (2011). ¿Por qué o por qué no?

    6. Ahora, usando la proporción de menciones, replique el recuadro de la figura 3a. Es decir, para cada año entre 1875 y 1975, calcule la vida media de ese año. La vida media se define como el número de años que pasan antes de que la proporción de menciones alcance la mitad de su valor máximo. Tenga en cuenta que Michel et al. (2011) hacen algo más complicado para estimar la vida media -véase la sección III.6 de la Información en línea de respaldo- pero afirman que ambos enfoques producen resultados similares. ¿La versión 2 de los datos de NGram produce resultados similares a los presentados en Michel et al. (2011) , que se basan en datos de la versión 1? (Sugerencia: no se sorprenda si no lo hace)

    7. ¿Hubo algún año que fuera atípico, como años que se olvidaron de manera particularmente rápida o particularmente lenta? Espere brevemente sobre las posibles razones para ese patrón y explique cómo identificó los valores atípicos.

    8. Ahora, copie este resultado para la versión 2 de los datos de NGrams en chino, francés, alemán, hebreo, italiano, ruso y español.

    9. Comparando a través de todos los idiomas, ¿hubo algún tiempo que fuera atípico, como años que fueron olvidados de manera particularmente rápida o particularmente lenta? Espera brevemente sobre las posibles razones para ese patrón.

  7. [ muy duro , recopilación de datos , requiere codificación , mi favorito ] Penney (2016) exploró si la publicidad generalizada sobre la vigilancia NSA / PRISM (es decir, las revelaciones de Snowden) en junio de 2013 se asoció con una disminución brusca y repentina en el tráfico de artículos de Wikipedia sobre temas que aumentan las preocupaciones de privacidad. Si es así, este cambio en el comportamiento sería consistente con un efecto de enfriamiento resultante de la vigilancia masiva. El enfoque de Penney (2016) veces se denomina diseño de series temporales interrumpidas y está relacionado con los enfoques descritos en la sección 2.4.3.

    Para elegir las palabras clave del tema, Penney se refirió a la lista utilizada por el Departamento de Seguridad Nacional de los EE. UU. Para rastrear y monitorear las redes sociales. La lista del DHS categoriza ciertos términos de búsqueda en una variedad de temas, es decir, "Preocupación de salud", "Seguridad de infraestructura" y "Terrorismo". Para el grupo de estudio, Penney usó las 48 palabras clave relacionadas con "Terrorismo" (consulte el cuadro 8 del apéndice ) Luego agregó los conteos de vista de artículos de Wikipedia mensualmente para los 48 artículos de Wikipedia correspondientes durante un período de 32 meses, desde el comienzo de enero de 2012 hasta finales de agosto de 2014. Para fortalecer su argumento, también creó varios grupos de comparación mediante el seguimiento opiniones de artículos sobre otros temas.

    Ahora, vas a replicar y ampliar Penney (2016) . Todos los datos brutos que necesitará para esta actividad están disponibles en Wikipedia. O puede obtenerlo en el paquete R wikipediatrend (Meissner and R Core Team 2016) . Cuando redacte sus respuestas, tenga en cuenta qué fuente de datos utilizó. (Tenga en cuenta que esta misma actividad también aparece en el capítulo 6). Esta actividad le dará práctica en discusiones de datos y pensando en experimentos naturales en fuentes de big data. También lo pondrá en marcha con una fuente de datos potencialmente interesante para proyectos futuros.

    1. Lea Penney (2016) y replique su figura 2, que muestra las páginas vistas de las páginas relacionadas con "Terrorismo" antes y después de las revelaciones de Snowden. Interpreta los hallazgos.
    2. Luego, replique la figura 4A, que compara el grupo de estudio (artículos relacionados con "Terrorismo") con un grupo de comparación usando palabras clave categorizadas bajo "DHS y otras agencias" de la lista DHS (consulte la tabla 10 y la nota 139 del apéndice). Interpreta los hallazgos.
    3. En la parte (b), comparó el grupo de estudio con un grupo de comparación. Penney también comparó con otros dos grupos de comparación: artículos relacionados con "Seguridad de la infraestructura" (tabla 11 del apéndice) y páginas populares de Wikipedia (tabla 12 del apéndice). Propón un grupo de comparación alternativo y prueba si los hallazgos de la parte (b) son sensibles a tu elección del grupo de comparación. ¿Qué elección tiene más sentido? ¿Por qué?
    4. Penney afirmó que las palabras clave relacionadas con "Terrorismo" se utilizaron para seleccionar los artículos de Wikipedia porque el gobierno de los EE. UU. Citó el terrorismo como una justificación clave para sus prácticas de vigilancia en línea. Como verificación de estas 48 palabras clave relacionadas con el "Terrorismo", Penney (2016) también realizó una encuesta sobre MTurk, solicitando a los encuestados que califiquen cada una de las palabras clave en términos de Problemas de Gobierno, Privacidad y Prevención (apéndice, tablas 7 y 8 ) Replicar la encuesta en MTurk y comparar sus resultados.
    5. Con base en los resultados de la parte (d) y su lectura del artículo, ¿está de acuerdo con la elección de palabras clave temáticas de Penney en el grupo de estudio? ¿Por qué o por qué no? Si no, ¿qué sugieres en su lugar?
  8. [ fácil ] Efrati (2016) informó, en base a información confidencial, que el "intercambio total" en Facebook había disminuido aproximadamente un 5,5% año tras año, mientras que el "intercambio original de transmisión" había disminuido un 21% año tras año. Esta disminución fue particularmente aguda con los usuarios de Facebook menores de 30 años de edad. El informe atribuyó la disminución a dos factores. Uno es el crecimiento en el número de "amigos" que las personas tienen en Facebook. La otra es que cierta actividad de intercambio se ha desplazado a la mensajería y a competidores como Snapchat. El informe también reveló las diversas tácticas que Facebook había intentado impulsar para compartir, incluidos los ajustes del algoritmo News Feed que hacen que las publicaciones originales sean más destacadas, así como recordatorios periódicos de las publicaciones originales con la función "On This Day". ¿Qué implicaciones, en su caso, tienen estos hallazgos para los investigadores que desean utilizar Facebook como fuente de datos?

  9. [ medio ] ¿Cuál es la diferencia entre un sociólogo y un historiador? Según Goldthorpe (1991) , la principal diferencia es el control sobre la recopilación de datos. Los historiadores se ven obligados a usar reliquias, mientras que los sociólogos pueden adaptar su colección de datos para fines específicos. Leer Goldthorpe (1991) . ¿Cómo se relaciona la diferencia entre sociología e historia con la idea de los custommades y readymades?

  10. [ difícil ] Esto se basa en la pregunta anterior. Goldthorpe (1991) obtuvo una serie de respuestas críticas, incluida una de Nicky Hart (1994) que desafió la devoción de Goldthorpe por los datos hechos a medida. Para aclarar las limitaciones potenciales de los datos hechos a medida, Hart describió el Affluent Worker Project, una gran encuesta para medir la relación entre la clase social y el voto que fue llevada a cabo por Goldthorpe y sus colegas a mediados de la década de 1960. Como cabría esperar de un académico que favoreció los datos diseñados sobre los datos encontrados, el Proyecto de Trabajadores Afortunados recopiló datos que se adaptaron para abordar una teoría propuesta recientemente sobre el futuro de la clase social en una era de aumento de los niveles de vida. Pero, Goldthorpe y sus colegas de alguna manera "olvidó" recopilar información sobre el comportamiento electoral de las mujeres. Así es como Nicky Hart (1994) resumió el episodio completo:

    "... es [...] difícil evitar la conclusión de que se omitió a las mujeres porque este conjunto de datos 'hecho a medida' estaba confinado por una lógica paradigmática que excluía la experiencia femenina. Impulsados ​​por una visión teórica de la conciencia y acción de clase como preocupaciones masculinas ..., Goldthorpe y sus colegas construyeron un conjunto de pruebas empíricas que alimentaron y alimentaron sus propios supuestos teóricos en lugar de exponerlos a una prueba válida de idoneidad ".

    Hart continuó:

    "Los hallazgos empíricos del Affluent Worker Project nos dicen más sobre los valores masculinistas de la sociología de mediados de siglo que lo que informan los procesos de estratificación, política y vida material".

    ¿Puedes pensar en otros ejemplos donde la recolección de datos a medida tiene los sesgos del recopilador de datos integrado en ella? ¿Cómo se compara esto con la confusión algorítmica? ¿Qué implicaciones podría tener esto para los investigadores que deberían usar readymades y cuándo deberían usar custommades?

  11. [ medio ] En este capítulo, he contrastado los datos recopilados por investigadores para investigadores con registros administrativos creados por empresas y gobiernos. Algunas personas llaman a estos registros administrativos "datos encontrados", que contrastan con "datos diseñados". Es cierto que los registros administrativos los encuentran los investigadores, pero también están muy bien diseñados. Por ejemplo, las compañías tecnológicas modernas trabajan arduamente para recolectar y curar sus datos. Por lo tanto, estos registros administrativos se encuentran y diseñan, solo depende de su perspectiva (figura 2.12).

    Figura 2.12: La imagen es a la vez un pato y un conejo; lo que ves depende de tu perspectiva. Las grandes fuentes de datos se encuentran y diseñan; nuevamente, lo que ves depende de tu perspectiva. Por ejemplo, los registros de datos de llamadas recopilados por una empresa de telefonía móvil se encuentran datos desde la perspectiva de un investigador. Pero estos mismos registros exactos son datos diseñados desde la perspectiva de alguien que trabaja en el departamento de facturación de la compañía telefónica. Fuente: Popular Science Monthly (1899) / Wikimedia Commons.

    Figura 2.12: La imagen es a la vez un pato y un conejo; lo que ves depende de tu perspectiva. Las grandes fuentes de datos se encuentran y diseñan; nuevamente, lo que ves depende de tu perspectiva. Por ejemplo, los registros de datos de llamadas recopilados por una empresa de telefonía móvil se encuentran datos desde la perspectiva de un investigador. Pero estos mismos registros exactos son datos diseñados desde la perspectiva de alguien que trabaja en el departamento de facturación de la compañía telefónica. Fuente: Popular Science Monthly (1899) / Wikimedia Commons .

    Proporcione un ejemplo de fuente de datos donde verlo como encontrado y diseñado es útil cuando se utiliza esa fuente de datos para la investigación.

  12. [ fácil ] En un ensayo reflexivo, Christian Sandvig y Eszter Hargittai (2015) dividen la investigación digital en dos grandes categorías según si el sistema digital es un "instrumento" u "objeto de estudio". Un ejemplo del primer tipo: donde el sistema es un instrumento-es la investigación de Bengtsson y colegas (2011) sobre el uso de datos de teléfonos móviles para rastrear la migración después del terremoto en Haití en 2010. Un ejemplo del segundo tipo -donde el sistema es un objeto de estudio- es una investigación de Jensen (2007) sobre cómo la introducción de teléfonos móviles en Kerala, India, impactó el funcionamiento del mercado del pescado. Encuentro útil esta distinción porque aclara que los estudios que usan fuentes de datos digitales pueden tener objetivos bastante diferentes, incluso si utilizan el mismo tipo de fuente de datos. Para aclarar aún más esta distinción, describa cuatro estudios que ha visto: dos que usan un sistema digital como instrumento y dos que usan un sistema digital como objeto de estudio. Puede usar ejemplos de este capítulo si lo desea.