Ocupaciones

Esta traducción fue creado por un ordenador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

Ocupaciones

Llave:

grado de dificultad: fácil , media , difícil , muy duro
requiere matemáticas ( $requiere matemáticas$ )
requiere codificación ( )
recopilación de datos ( )
mis favoritos ( )

[ , ] Confusión algorítmico había un problema con Google Flu Trends. Leer el artículo de Lazer et al. (2014) , y escribir un breve correo electrónico, claro para un ingeniero de Google que explica el problema y ofrecer una idea de cómo solucionar el problema.
[ ] Bollen, Mao, and Zeng (2011) afirma que los datos de Twitter se pueden utilizar para predecir el mercado de valores. Este hallazgo condujo a la creación de un fondo de cobertura-Derwent Capital Markets-invertir en el mercado de valores basados en datos recogidos de Twitter (Jordan 2010) . ¿Qué pruebas le gustaría ver antes de poner su dinero en ese fondo?
[ ] Mientras que algunos defensores de la salud pública provienen de los cigarrillos electrónicos como una ayuda eficaz para dejar de fumar, otros advierten sobre los riesgos potenciales, como los altos niveles de nicotina. Imagine que un investigador decide estudiar la opinión pública hacia los cigarrillos electrónicos mediante la recopilación de mensajes de Twitter relacionados con los cigarrillos electrónicos y la realización de análisis de los sentimientos.
1. ¿Cuáles son los tres posibles sesgos que más le preocupa en este estudio?
2. Clark et al. (2016) corrió sólo un estudio de este tipo. En primer lugar, se recogieron 850.000 tweets que utilizan palabras clave relacionadas con e-cigarrillos desde enero de 2012 hasta diciembre de 2014. Tras una inspección más cercana, se dieron cuenta de que muchos de estos tuits fueron automatizados (es decir, no producido por el ser humano) y muchos de estos tuits automatizados eran esencialmente comerciales. Ellos desarrollaron un algoritmo de detección humana para separar los tweets automáticos de los tweets orgánicos. El uso de este algoritmo de detección humano que encontraron que el 80% de los tweets fueron automatizadas. ¿Cambia este hallazgo su respuesta a la parte (a)?
3. Cuando compararon el sentimiento en los tweets orgánicos y automatizados se encontraron con que los tweets automáticos son más positivas que los tweets orgánicos (6,17 frente a 5,84). ¿Cambia este hallazgo su respuesta a (b)?
[ ] En noviembre de 2009, Twitter ha cambiado la pregunta en el cuadro de tweet de "¿Qué haces?" A "¿Qué está pasando?" (Https://blog.twitter.com/2009/whats-happening).
1. ¿Cómo cree que el cambio de indicaciones afectará que pian y / o lo que pío?
2. Nombre un proyecto de investigación para el que prefiere el símbolo "¿Qué estás haciendo?" Explicar por qué.
3. Nombre un proyecto de investigación para el que prefiere el símbolo "¿Qué está pasando?" Explicar por qué.
[ ] Kwak et al. (2010) analizaron los 41,7 millones de perfiles de usuario, 1,47 millones de relaciones sociales, temas de moda 4262, y 106 millones de tweets entre el 6 junio y el 31 de junio de 2009. Sobre la base de este análisis, concluyeron que Twitter sirve más como un nuevo medio de intercambio de información que una red social.
1. Teniendo en cuenta la constatación del Kwak et al, qué tipo de investigación haría usted con datos de Twitter? ¿Qué tipo de investigación que no harías con los datos de Twitter? ¿Por qué?
2. En 2010, Twitter ha añadido un servicio de a quién seguir haciendo sugerencia adaptados a los usuarios. Tres recomendaciones se muestran a la vez en la página principal. Las recomendaciones son a menudo extraídas de uno de los "amigos-de-amigos", y los contactos mutuos también se muestran en la recomendación. Los usuarios pueden actualizar para ver un nuevo conjunto de recomendaciones o visitar una página con una lista más larga de recomendaciones. ¿Cree que esta nueva característica cambiaría su respuesta al inciso a)? ¿Por qué o por qué no?
3. Su, Sharma, and Goel (2016) evaluaron el efecto de a quién seguir servicio y encontraron que mientras que los usuarios de todo el espectro de popularidad se beneficiaron de las recomendaciones, los usuarios más populares se beneficiaron sustancialmente más que la media. ¿Cambia esto la búsqueda de su respuesta a la parte b)? ¿Por qué o por qué no?
[ ] "Retweets" a menudo se utilizan para medir la influencia y la extensión de la influencia en Twitter. Inicialmente, los usuarios tenían que copiar y pegar el tweet que les gustaba, etiquetar el autor original con su / su mango, y escriba manualmente "RT" antes de que el tweet para indicar que es un retweet. Luego, en 2009 Twitter ha añadido un botón de "Retweet". En junio de 2016, Twitter hizo posible que los usuarios retweet sus tweets propios (https://twitter.com/twitter/status/742749353689780224). ¿Cree que estos cambios deben afectar a cómo se utiliza "retweets" en su investigación? ¿Por qué o por qué no?
[ , , ] Michel et al. (2011) construyeron un corpus que emerge de los esfuerzos de Google para digitalizar libros. El uso de la primera versión del corpus, que fue publicado en 2009 y contenía más de 5 millones de libros digitalizados, los autores analizaron la palabra frecuencia de uso para investigar los cambios lingüísticos y tendencias culturales. Pronto el Google Books Corpus se convirtió en una fuente de datos muy popular para los investigadores, y una versión 2 de la base de datos fue lanzado en 2012.

Sin embargo, Pechenick, Danforth, and Dodds (2015) advirtió que los investigadores necesitan para caracterizar completamente el proceso de toma de muestras del corpus antes de usarla para sacar conclusiones generales. El principal problema es que el corpus es-biblioteca como, que contiene uno de cada libro. Como resultado, un individuo, prolífico autor es capaz de insertar notablemente nuevas frases en el léxico de Google Books. Por otra parte, los textos científicos constituyen una parte cada vez más sustantiva del corpus lo largo de los años 1900. Además, mediante la comparación de dos versiones de los conjuntos de datos de ficción en inglés, Pechenick et al. evidencia encontrada que el filtrado insuficiente se utiliza en la producción de la primera versión. Todos los datos necesarios para la actividad está disponible aquí: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. En Michel et al. Del documento original (2011) , utilizaron la 1ª versión del conjunto de datos Inglés, trazan la frecuencia de uso de los años "1880", "1912" y "1973", y concluyó que "estamos olvidar nuestro pasado más rápido con cada año que pasa "(Fig. 3A, Michel et al.). Replicar la misma parcela por medio de 1) 1 ° versión del corpus, el conjunto de datos Inglés (igual que la Fig. 3A, Michel et al.)
2. Ahora replicar la misma parcela con la 1ª versión, Inglés ficción conjunto de datos.
3. Ahora replicar la misma parcela con la segunda versión del corpus, el conjunto de datos Inglés.
4. Por último, replicar la misma parcela con la segunda versión, Inglés ficción conjunto de datos.
5. Describir las diferencias y similitudes entre estas cuatro parcelas. ¿Está de acuerdo con Michel y col. De la interpretación original de la tendencia observada? (Pista: c) yd) debe ser la misma que la figura 16 en Pechenick et al).
6. Ahora que ha replicado este hallazgo usando diferentes Google Books corpus, elegir otro cambio lingüístico o cultural de los fenómenos presentados en Michel et al. Del documento original. ¿Está de acuerdo con su interpretación a la luz de las limitaciones que se presentan en Pechenick et al.? Para hacer que su argumento más fuerte, trate de reproducir el mismo gráfico utilizando diferentes versiones del conjunto de datos que el anterior.
[ , , , ] Penney (2016) explora si la gran publicidad sobre la NSA vigilancia / PRISM (es decir, las revelaciones de Snowden) en junio de 2013 se asocia con una disminución fuerte y repentino en el tráfico a los artículos de Wikipedia sobre temas que plantean preocupaciones sobre la privacidad. Si es así, este cambio de comportamiento sería consistente con un efecto paralizante resultados de la vigilancia de masas. El enfoque de Penney (2016) a veces se llama un diseño de series de tiempo interrumpido y se relaciona con los enfoques en el capítulo sobre la aproximación de los experimentos de los datos de observación (Sección 2.4.3).

Para elegir las palabras clave del tema, Penney se refirió a la lista utilizada por el Departamento de Seguridad Nacional de Estados Unidos para el seguimiento y monitoreo de los medios sociales. La lista DHS categoriza ciertos términos de búsqueda en una serie de cuestiones, es decir, "problema de salud", "seguridad de la infraestructura", y "terrorismo". Para el grupo de estudio, Penney utilizó las cuarenta y ocho palabras clave relacionadas con "terrorismo" (véase la Tabla 8 Apéndice). A continuación, agrega Wikipedia Ver artículo recuentos sobre una base mensual para los correspondientes cuarenta y ocho artículos de Wikipedia más de un período de treinta de dos meses, desde el inicio de enero de 2012 hasta finales de agosto de 2014. Para reforzar su argumento, también creó la comparación de varios grupos mediante el seguimiento de puntos de vista de artículos sobre otros temas.

Ahora, se va a replicar y ampliar Penney (2016) . Todos los datos en bruto que se necesita para esta actividad está disponible de Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). O se puede obtener de la wikipediatrend paquete de R (Meissner and Team 2016) . Cuando se escribe en marcha sus respuestas, tenga en cuenta qué fuente de datos que utilizó. (Nota: Esta misma actividad también aparece en el capítulo 6)
1. Leer Penney (2016) y reproducir la figura 2, que muestra las páginas vistas por "terrorismo" páginas relacionados con la PI antes y después de la revelación de Snowden. Interpretar los resultados.
2. A continuación, replicar la figura 4A, que compara el grupo de estudio ( "terrorismo" Artículos relacionada con) con un grupo de comparación palabras clave categorizados bajo "DHS y otras agencias" de la lista utilizando el DHS (véase el cuadro 10). Interpretar los resultados.
3. En la parte b) se comparó el grupo de estudio para un grupo de comparación. Penney también en comparación con otros dos grupos de comparación: "Infraestructura de seguridad" artículos relacionados con la PI (Apéndice Tabla 11) y las páginas de Wikipedia populares (Apéndice Tabla 12). Vamos con un grupo de comparación alternativa, y poner a prueba si los resultados de la parte b) es sensible a la elección de grupo de comparación. ¿Qué opción del grupo de comparación tiene más sentido? ¿Por qué?
4. El autor afirmó que las palabras clave relacionadas con el "terrorismo" se utilizaron para seleccionar los artículos de Wikipedia, porque el gobierno de Estados Unidos citó el terrorismo como una justificación clave para sus prácticas de vigilancia en línea. Como comprobación de estas 48 palabras clave relacionados con la PI "terrorismo", Penney (2016) también realizó una encuesta sobre MTurk pidiendo a los encuestados que valoraran cada una de las palabras clave en términos de Trouble Gobierno, sensible privacidad y evitación (Tabla Apéndice 7 y 8). Replicar la encuesta sobre MTurk y comparar sus resultados.
5. Sobre la base de los resultados en la parte d) y su lectura del artículo, ¿está de acuerdo con la elección del autor de las palabras clave del tema en el grupo de estudio? ¿Por qué o por qué no? Si no es así, ¿qué sugiere usted en su lugar?
[ ] Efrati (2016) informes, basados en la información confidencial, que "total compartir" en Facebook había disminuido en un año alrededor de 5,5% respecto al año mientras que "el intercambio de emisión original" se redujo un 21% respecto al año anterior. Esta disminución fue particularmente aguda entre los usuarios de Facebook menores de 30 años de edad. El informe atribuyó el descenso a dos factores. Uno de ellos es el crecimiento en el número de "amigos" que tiene la gente en Facebook. La otra es que alguna actividad de compartir se ha desplazado a la mensajería y para competidores como Snapchat. El informe también revela las varias tácticas Facebook había tratado de impulsar el intercambio, incluyendo ajustes de algoritmo de noticias externas que hacen que los mensajes originales más prominente, así como recordatorios periódicos de los usuarios mensajes originales "En este día" hace varios años. ¿Qué implicaciones, si es necesaria, estos resultados tienen para los investigadores que desean utilizar Facebook como fuente de datos?
[ ] Tumasjan et al. (2010) reportaron que la proporción de los tweets que citan un partido político coincidía con la proporción de votos que recibió del partido en las elecciones parlamentarias de Alemania en 2009 (Figura 2.9). En otras palabras, parecía que se podía usar Twitter para predecir la elección. En el momento de este estudio fue publicado, se consideró muy emocionante, ya que parecía sugerir un uso valioso de una fuente común de datos grandes.

Dadas las malas características de grandes volúmenes de datos, sin embargo, debe ser inmediatamente escéptico de este resultado. Alemanes en Twitter en 2009 fueron un grupo bastante no representativa, y los partidarios de una de las partes podrían tweet acerca de la política con más frecuencia. Por lo tanto, parece sorprendente que todos los posibles sesgos que se puedan imaginar alguna manera anular. De hecho, los resultados en Tumasjan et al. (2010) resultó ser demasiado bueno para ser verdad. En su artículo, Tumasjan et al. (2010) consideraron seis partidos políticos: democristianos (CDU), Christian socialdemócratas (CSU), SPD, los liberales (FDP), La Izquierda (Die Linke), y el Partido Verde (Grüne). Sin embargo, el más mencionado partido político alemán en Twitter en ese momento era el Partido Pirata (Piraten), un partido que lucha contra la regulación gubernamental de la Internet. Cuando el Partido Pirata se incluyó en el análisis, menciones en Twitter convierta en una terrible predictor de resultados de las elecciones (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figura 2.9: Twitter menciona parece predecir los resultados de la elección de Alemania 2009 (Tumasjan et al. 2010) , pero este resultado resulta que depender de algunas decisiones arbitrarias e injustificadas (Jungherr, Jürgens, and Schoen 2012) .

Métodos tales elegantes Posteriormente, otros investigadores de todo el mundo han utilizado como el uso de análisis de los sentimientos de distinguir entre positivo y negativo menciones de los partidos con el fin de mejorar la capacidad de datos de Twitter para predecir una variedad de diferentes tipos de elecciones (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Así es como Huberty (2015) resumió los resultados de estos intentos de predecir las elecciones:

"Todos los métodos de pronóstico conocidos a base de medios de comunicación social han fracasado cuando se somete a las exigencias de la verdadera predicción electoral a futuro. Estos fracasos parecen ser debido a las propiedades fundamentales de los medios de comunicación social, en lugar de a las dificultades metodológicas o algorítmicos. En resumen, las redes sociales no lo hacen, y probablemente nunca, ofrecer una imagen estable, sin prejuicios, representante de los electores; y las muestras de la conveniencia de los medios de comunicación social carecen de datos suficientes para solucionar estos problemas post hoc ".

Lea algunas de las investigaciones que llevan Huberty (2015) a esa conclusión, y escribir una nota de una página a un candidato político que describe si y cómo Twitter se debe utilizar para pronosticar las elecciones.
[ ] ¿Cuál es la diferencia entre un sociólogo e historiador? De acuerdo con Goldthorpe (1991) , la principal diferencia entre un sociólogo e historiador es el control sobre la recolección de datos. Los historiadores se ven obligados a utilizar reliquias mientras que los sociólogos pueden personalizar su recopilación de datos para fines específicos. Leer Goldthorpe (1991) . ¿Cómo es la diferencia entre la sociología y la historia relacionada con la idea de Custommades y Readymades?
[ ] A partir de la pregunta anterior, Goldthorpe (1991) dibujó una serie de respuestas críticas, incluyendo uno de Nicky Hart (1994) que desafió la devoción de Goldthorpe para adaptar los datos hechos. Para aclarar las limitaciones potenciales de los datos a medida, Hart describió el Proyecto de Trabajadores afluente, una gran encuesta para medir la relación entre la clase social y de votación que se llevó a cabo por Goldthorpe y sus colegas a mediados de los años 1960. Como era de esperar de un erudito que estuvo a favor de datos a través de los datos que se encuentran diseñado, el Proyecto de Trabajadores afluente recoge datos que fueron diseñados para tratar una teoría propuesta recientemente por el futuro de la clase social en una época de aumento de los niveles de vida. Pero, Goldthorpe y sus colegas de alguna manera "olvidaron" para recoger información sobre el comportamiento del voto de las mujeres. Así es como Nicky Hart (1994) resume todo el episodio:

". . . que [es] difícil evitar la conclusión de que se omitieron las mujeres debido a este "hecho a medida" conjunto de datos fue confinado por una lógica paradigmática que excluía la experiencia femenina. Impulsado por una visión teórica de la conciencia de clase y la acción como preocupaciones masculinas. . . , Goldthorpe y sus colegas construyeron un conjunto de pruebas empíricas que alimentan y nutren sus propios supuestos teóricos en lugar de exponerlos a una prueba válida de adecuación ".

Hart continuó:

"Los resultados empíricos del Proyecto de Trabajadores afluente nos dicen más sobre los valores machistas de la sociología de mediados de siglo de lo que informan los procesos de estratificación, la política y la vida material."

¿Puede pensar en otros ejemplos en los que la recopilación de datos a medida, tiene los sesgos del colector de datos construido en él? ¿Cómo se compara esto con la confusión algorítmico? ¿Qué implicaciones podría tener esto para cuando los investigadores deben utilizar Readymades y cuándo deben utilizar Custommades?
[ ] En este capítulo, Contrasté datos recogidos por los investigadores para investigadores con los registros administrativos creados por las empresas y los gobiernos. Algunas personas llaman a estos registros administrativos "encontraron datos", que contrastan con los "datos de diseño." Es cierto que los registros administrativos son encontrados por los investigadores, pero también son altamente diseñados. Por ejemplo, las empresas de tecnología modernas gastan enormes cantidades de tiempo y recursos para recoger y conservar sus datos. Por lo tanto, estos registros administrativos y ambos se encuentran diseñados, sólo depende de su perspectiva (Figura 2.10).

Figura 2.10: La imagen es a la vez un pato y un conejo; lo que se ve depende de su perspectiva. Gubernamentales y empresariales registros administrativos y ambos se encuentran diseñados; lo que se ve depende de su perspectiva. Por ejemplo, los registros de datos de llamadas recogidos por una empresa de telefonía celular se encuentran los datos desde la perspectiva de un investigador. Sin embargo, estos mismos registros exactos están diseñados perspectiva de los datos de alguien que trabaja en el departamento de facturación de la compañía telefónica. Fuente: Wikimedia Commons

Proporcionar un ejemplo de fuente de datos, donde viéndolo tanto como se encuentra diseñado y es útil al utilizar esa fuente de datos para la investigación.
[ ] En un ensayo reflexivo, Christian Sandvig y Eszter Hargittai (2015) describen dos tipos de investigación digital, donde el sistema digital es "instrumento" o "objeto de estudio". Un ejemplo del primer tipo de estudio es donde Bengtsson y sus colegas (2011) utilizaron datos de teléfonos móviles para realizar un seguimiento de la migración después del terremoto en Haití en 2010. Un ejemplo del segundo tipo es donde Jensen (2007) estudia cómo la introducción de los teléfonos móviles a través de Kerala, India impactado el funcionamiento del mercado de pescado. Me parece útil, ya que aclara que los estudios que utilizan fuentes de datos digitales pueden tener diferentes objetivos, incluso si están usando el mismo tipo de fuente de datos. Con el fin de aclarar aún más esta distinción, describen cuatro estudios que has visto: dos que utilizan un sistema digital como instrumento y dos que utilizan un sistema digital como un objeto de estudio. Puede usar ejemplos de este capítulo si lo desea.