[ , ] La confusión algorítmica fue un problema con Google Flu Trends. Lea el documento de Lazer et al. (2014) , y escriba un correo electrónico breve y claro a un ingeniero de Google explicando el problema y ofreciendo una idea de cómo solucionarlo.
[ ] Bollen, Mao, and Zeng (2011) afirman que los datos de Twitter se pueden utilizar para predecir el mercado de valores. Este hallazgo condujo a la creación de un fondo de cobertura-Derwent Capital Markets-para invertir en el mercado bursátil basado en datos recopilados de Twitter (Jordan 2010) . ¿Qué evidencia le gustaría ver antes de poner su dinero en ese fondo?
[ ] Mientras que algunos defensores de la salud pública consideran que los cigarrillos electrónicos son una ayuda eficaz para dejar de fumar, otros advierten sobre los riesgos potenciales, como los altos niveles de nicotina. Imagínese que un investigador decide estudiar la opinión pública hacia los cigarrillos electrónicos mediante la recopilación de publicaciones en Twitter relacionadas con cigarrillos electrónicos y la realización de análisis de sentimientos.
[ ] En noviembre de 2009, Twitter cambió la pregunta en el cuadro de tweet de "¿Qué estás haciendo?" A "¿Qué está pasando?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" se utilizan a menudo para medir la influencia y la difusión de la influencia en Twitter. Inicialmente, los usuarios tenían que copiar y pegar el tweet que les gustaba, etiquetar al autor original con su identificador y escribir "RT" manualmente antes del tweet para indicar que se trataba de un retweet. Luego, en 2009, Twitter agregó un botón de "retweet". En junio de 2016, Twitter hizo posible que los usuarios retuitearan sus propios tweets (https://twitter.com/twitter/status/742749353689780224). ¿Cree que estos cambios deberían afectar la forma en que utiliza los "retweets" en su investigación? ¿Por qué o por qué no?
[ , , , ] En un artículo ampliamente discutido, Michel y sus colegas (2011) analizaron el contenido de más de cinco millones de libros digitalizados en un intento de identificar las tendencias culturales a largo plazo. Los datos que utilizaron ahora se han publicado como el conjunto de datos de Google NGrams, por lo que podemos usar los datos para replicar y ampliar parte de su trabajo.
En uno de los muchos resultados del documento, Michel y sus colegas argumentaron que nos olvidamos cada vez más rápido. Para un año en particular, digamos "1883", calcularon la proporción de 1 gramo publicado en cada año entre 1875 y 1975 que fueron "1883". Ellos razonaron que esta proporción es una medida del interés en los eventos que ocurrieron en ese año. En su figura 3a, trazaron las trayectorias de uso durante tres años: 1883, 1910 y 1950. Estos tres años comparten un patrón común: poco uso antes de ese año, luego un pico, luego decaer. Luego, para cuantificar la tasa de descomposición de cada año, Michel y sus colegas calcularon la "vida media" de cada año para todos los años entre 1875 y 1975. En su figura 3a (recuadro), mostraron que la vida media de cada uno el año está disminuyendo, y argumentaron que esto significa que estamos olvidando el pasado cada vez más rápido. Utilizaron la versión 1 del corpus en idioma inglés, pero posteriormente Google lanzó una segunda versión del corpus. Lea todas las partes de la pregunta antes de comenzar la codificación.
Esta actividad le permitirá practicar la escritura de códigos reutilizables, la interpretación de resultados y la disputa de datos (como trabajar con archivos torpes y manejar datos faltantes). Esta actividad también lo ayudará a comenzar a utilizar un conjunto de datos rico e interesante.
Obtenga los datos brutos del sitio web de Google Book NGram Viewer. En particular, debe usar la versión 2 del corpus en idioma inglés, que se lanzó el 1 de julio de 2012. Sin comprimir, este archivo es de 1,4 GB.
Recrea la parte principal de la figura 3a de Michel et al. (2011) . Para recrear esta figura, necesitará dos archivos: el que descargó en la parte (a) y el archivo de "conteos totales", que puede usar para convertir los recuentos sin procesar en proporciones. Tenga en cuenta que el archivo de cuentas totales tiene una estructura que puede hacer que sea un poco difícil de leer. ¿La versión 2 de los datos de NGram produce resultados similares a los presentados en Michel et al. (2011) , que se basan en datos de la versión 1?
Ahora verifica tu gráfica contra el gráfico creado por NGram Viewer.
Vuelva a crear la figura 3a (figura principal), pero cambie el eje \(y\) para que sea el recuento de mención sin formato (no la tasa de menciones).
¿La diferencia entre (b) y (d) lo lleva a reevaluar cualquiera de los resultados de Michel et al. (2011). ¿Por qué o por qué no?
Ahora, usando la proporción de menciones, replique el recuadro de la figura 3a. Es decir, para cada año entre 1875 y 1975, calcule la vida media de ese año. La vida media se define como el número de años que pasan antes de que la proporción de menciones alcance la mitad de su valor máximo. Tenga en cuenta que Michel et al. (2011) hacen algo más complicado para estimar la vida media -véase la sección III.6 de la Información en línea de respaldo- pero afirman que ambos enfoques producen resultados similares. ¿La versión 2 de los datos de NGram produce resultados similares a los presentados en Michel et al. (2011) , que se basan en datos de la versión 1? (Sugerencia: no se sorprenda si no lo hace)
¿Hubo algún año que fuera atípico, como años que se olvidaron de manera particularmente rápida o particularmente lenta? Espere brevemente sobre las posibles razones para ese patrón y explique cómo identificó los valores atípicos.
Ahora, copie este resultado para la versión 2 de los datos de NGrams en chino, francés, alemán, hebreo, italiano, ruso y español.
Comparando a través de todos los idiomas, ¿hubo algún tiempo que fuera atípico, como años que fueron olvidados de manera particularmente rápida o particularmente lenta? Espera brevemente sobre las posibles razones para ese patrón.
[ , , , ] Penney (2016) exploró si la publicidad generalizada sobre la vigilancia NSA / PRISM (es decir, las revelaciones de Snowden) en junio de 2013 se asoció con una disminución brusca y repentina en el tráfico de artículos de Wikipedia sobre temas que aumentan las preocupaciones de privacidad. Si es así, este cambio en el comportamiento sería consistente con un efecto de enfriamiento resultante de la vigilancia masiva. El enfoque de Penney (2016) veces se denomina diseño de series temporales interrumpidas y está relacionado con los enfoques descritos en la sección 2.4.3.
Para elegir las palabras clave del tema, Penney se refirió a la lista utilizada por el Departamento de Seguridad Nacional de los EE. UU. Para rastrear y monitorear las redes sociales. La lista del DHS categoriza ciertos términos de búsqueda en una variedad de temas, es decir, "Preocupación de salud", "Seguridad de infraestructura" y "Terrorismo". Para el grupo de estudio, Penney usó las 48 palabras clave relacionadas con "Terrorismo" (consulte el cuadro 8 del apéndice ) Luego agregó los conteos de vista de artículos de Wikipedia mensualmente para los 48 artículos de Wikipedia correspondientes durante un período de 32 meses, desde el comienzo de enero de 2012 hasta finales de agosto de 2014. Para fortalecer su argumento, también creó varios grupos de comparación mediante el seguimiento opiniones de artículos sobre otros temas.
Ahora, vas a replicar y ampliar Penney (2016) . Todos los datos brutos que necesitará para esta actividad están disponibles en Wikipedia. O puede obtenerlo en el paquete R wikipediatrend (Meissner and R Core Team 2016) . Cuando redacte sus respuestas, tenga en cuenta qué fuente de datos utilizó. (Tenga en cuenta que esta misma actividad también aparece en el capítulo 6). Esta actividad le dará práctica en discusiones de datos y pensando en experimentos naturales en fuentes de big data. También lo pondrá en marcha con una fuente de datos potencialmente interesante para proyectos futuros.
[ ] Efrati (2016) informó, en base a información confidencial, que el "intercambio total" en Facebook había disminuido aproximadamente un 5,5% año tras año, mientras que el "intercambio original de transmisión" había disminuido un 21% año tras año. Esta disminución fue particularmente aguda con los usuarios de Facebook menores de 30 años de edad. El informe atribuyó la disminución a dos factores. Uno es el crecimiento en el número de "amigos" que las personas tienen en Facebook. La otra es que cierta actividad de intercambio se ha desplazado a la mensajería y a competidores como Snapchat. El informe también reveló las diversas tácticas que Facebook había intentado impulsar para compartir, incluidos los ajustes del algoritmo News Feed que hacen que las publicaciones originales sean más destacadas, así como recordatorios periódicos de las publicaciones originales con la función "On This Day". ¿Qué implicaciones, en su caso, tienen estos hallazgos para los investigadores que desean utilizar Facebook como fuente de datos?
[ ] ¿Cuál es la diferencia entre un sociólogo y un historiador? Según Goldthorpe (1991) , la principal diferencia es el control sobre la recopilación de datos. Los historiadores se ven obligados a usar reliquias, mientras que los sociólogos pueden adaptar su colección de datos para fines específicos. Leer Goldthorpe (1991) . ¿Cómo se relaciona la diferencia entre sociología e historia con la idea de los custommades y readymades?
[ ] Esto se basa en la pregunta anterior. Goldthorpe (1991) obtuvo una serie de respuestas críticas, incluida una de Nicky Hart (1994) que desafió la devoción de Goldthorpe por los datos hechos a medida. Para aclarar las limitaciones potenciales de los datos hechos a medida, Hart describió el Affluent Worker Project, una gran encuesta para medir la relación entre la clase social y el voto que fue llevada a cabo por Goldthorpe y sus colegas a mediados de la década de 1960. Como cabría esperar de un académico que favoreció los datos diseñados sobre los datos encontrados, el Proyecto de Trabajadores Afortunados recopiló datos que se adaptaron para abordar una teoría propuesta recientemente sobre el futuro de la clase social en una era de aumento de los niveles de vida. Pero, Goldthorpe y sus colegas de alguna manera "olvidó" recopilar información sobre el comportamiento electoral de las mujeres. Así es como Nicky Hart (1994) resumió el episodio completo:
"... es [...] difícil evitar la conclusión de que se omitió a las mujeres porque este conjunto de datos 'hecho a medida' estaba confinado por una lógica paradigmática que excluía la experiencia femenina. Impulsados por una visión teórica de la conciencia y acción de clase como preocupaciones masculinas ..., Goldthorpe y sus colegas construyeron un conjunto de pruebas empíricas que alimentaron y alimentaron sus propios supuestos teóricos en lugar de exponerlos a una prueba válida de idoneidad ".
Hart continuó:
"Los hallazgos empíricos del Affluent Worker Project nos dicen más sobre los valores masculinistas de la sociología de mediados de siglo que lo que informan los procesos de estratificación, política y vida material".
¿Puedes pensar en otros ejemplos donde la recolección de datos a medida tiene los sesgos del recopilador de datos integrado en ella? ¿Cómo se compara esto con la confusión algorítmica? ¿Qué implicaciones podría tener esto para los investigadores que deberían usar readymades y cuándo deberían usar custommades?
[ ] En este capítulo, he contrastado los datos recopilados por investigadores para investigadores con registros administrativos creados por empresas y gobiernos. Algunas personas llaman a estos registros administrativos "datos encontrados", que contrastan con "datos diseñados". Es cierto que los registros administrativos los encuentran los investigadores, pero también están muy bien diseñados. Por ejemplo, las compañías tecnológicas modernas trabajan arduamente para recolectar y curar sus datos. Por lo tanto, estos registros administrativos se encuentran y diseñan, solo depende de su perspectiva (figura 2.12).
Proporcione un ejemplo de fuente de datos donde verlo como encontrado y diseñado es útil cuando se utiliza esa fuente de datos para la investigación.
[ ] En un ensayo reflexivo, Christian Sandvig y Eszter Hargittai (2015) dividen la investigación digital en dos grandes categorías según si el sistema digital es un "instrumento" u "objeto de estudio". Un ejemplo del primer tipo: donde el sistema es un instrumento-es la investigación de Bengtsson y colegas (2011) sobre el uso de datos de teléfonos móviles para rastrear la migración después del terremoto en Haití en 2010. Un ejemplo del segundo tipo -donde el sistema es un objeto de estudio- es una investigación de Jensen (2007) sobre cómo la introducción de teléfonos móviles en Kerala, India, impactó el funcionamiento del mercado del pescado. Encuentro útil esta distinción porque aclara que los estudios que usan fuentes de datos digitales pueden tener objetivos bastante diferentes, incluso si utilizan el mismo tipo de fuente de datos. Para aclarar aún más esta distinción, describa cuatro estudios que ha visto: dos que usan un sistema digital como instrumento y dos que usan un sistema digital como objeto de estudio. Puede usar ejemplos de este capítulo si lo desea.