Llave:
[ , ] Confusión algorítmico había un problema con Google Flu Trends. Leer el artículo de Lazer et al. (2014) , y escribir un breve correo electrónico, claro para un ingeniero de Google que explica el problema y ofrecer una idea de cómo solucionar el problema.
[ ] Bollen, Mao, and Zeng (2011) afirma que los datos de Twitter se pueden utilizar para predecir el mercado de valores. Este hallazgo condujo a la creación de un fondo de cobertura-Derwent Capital Markets-invertir en el mercado de valores basados en datos recogidos de Twitter (Jordan 2010) . ¿Qué pruebas le gustaría ver antes de poner su dinero en ese fondo?
[ ] Mientras que algunos defensores de la salud pública provienen de los cigarrillos electrónicos como una ayuda eficaz para dejar de fumar, otros advierten sobre los riesgos potenciales, como los altos niveles de nicotina. Imagine que un investigador decide estudiar la opinión pública hacia los cigarrillos electrónicos mediante la recopilación de mensajes de Twitter relacionados con los cigarrillos electrónicos y la realización de análisis de los sentimientos.
[ ] En noviembre de 2009, Twitter ha cambiado la pregunta en el cuadro de tweet de "¿Qué haces?" A "¿Qué está pasando?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizaron los 41,7 millones de perfiles de usuario, 1,47 millones de relaciones sociales, temas de moda 4262, y 106 millones de tweets entre el 6 junio y el 31 de junio de 2009. Sobre la base de este análisis, concluyeron que Twitter sirve más como un nuevo medio de intercambio de información que una red social.
[ ] "Retweets" a menudo se utilizan para medir la influencia y la extensión de la influencia en Twitter. Inicialmente, los usuarios tenían que copiar y pegar el tweet que les gustaba, etiquetar el autor original con su / su mango, y escriba manualmente "RT" antes de que el tweet para indicar que es un retweet. Luego, en 2009 Twitter ha añadido un botón de "Retweet". En junio de 2016, Twitter hizo posible que los usuarios retweet sus tweets propios (https://twitter.com/twitter/status/742749353689780224). ¿Cree que estos cambios deben afectar a cómo se utiliza "retweets" en su investigación? ¿Por qué o por qué no?
[ , , ] Michel et al. (2011) construyeron un corpus que emerge de los esfuerzos de Google para digitalizar libros. El uso de la primera versión del corpus, que fue publicado en 2009 y contenía más de 5 millones de libros digitalizados, los autores analizaron la palabra frecuencia de uso para investigar los cambios lingüísticos y tendencias culturales. Pronto el Google Books Corpus se convirtió en una fuente de datos muy popular para los investigadores, y una versión 2 de la base de datos fue lanzado en 2012.
Sin embargo, Pechenick, Danforth, and Dodds (2015) advirtió que los investigadores necesitan para caracterizar completamente el proceso de toma de muestras del corpus antes de usarla para sacar conclusiones generales. El principal problema es que el corpus es-biblioteca como, que contiene uno de cada libro. Como resultado, un individuo, prolífico autor es capaz de insertar notablemente nuevas frases en el léxico de Google Books. Por otra parte, los textos científicos constituyen una parte cada vez más sustantiva del corpus lo largo de los años 1900. Además, mediante la comparación de dos versiones de los conjuntos de datos de ficción en inglés, Pechenick et al. evidencia encontrada que el filtrado insuficiente se utiliza en la producción de la primera versión. Todos los datos necesarios para la actividad está disponible aquí: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) explora si la gran publicidad sobre la NSA vigilancia / PRISM (es decir, las revelaciones de Snowden) en junio de 2013 se asocia con una disminución fuerte y repentino en el tráfico a los artículos de Wikipedia sobre temas que plantean preocupaciones sobre la privacidad. Si es así, este cambio de comportamiento sería consistente con un efecto paralizante resultados de la vigilancia de masas. El enfoque de Penney (2016) a veces se llama un diseño de series de tiempo interrumpido y se relaciona con los enfoques en el capítulo sobre la aproximación de los experimentos de los datos de observación (Sección 2.4.3).
Para elegir las palabras clave del tema, Penney se refirió a la lista utilizada por el Departamento de Seguridad Nacional de Estados Unidos para el seguimiento y monitoreo de los medios sociales. La lista DHS categoriza ciertos términos de búsqueda en una serie de cuestiones, es decir, "problema de salud", "seguridad de la infraestructura", y "terrorismo". Para el grupo de estudio, Penney utilizó las cuarenta y ocho palabras clave relacionadas con "terrorismo" (véase la Tabla 8 Apéndice). A continuación, agrega Wikipedia Ver artículo recuentos sobre una base mensual para los correspondientes cuarenta y ocho artículos de Wikipedia más de un período de treinta de dos meses, desde el inicio de enero de 2012 hasta finales de agosto de 2014. Para reforzar su argumento, también creó la comparación de varios grupos mediante el seguimiento de puntos de vista de artículos sobre otros temas.
Ahora, se va a replicar y ampliar Penney (2016) . Todos los datos en bruto que se necesita para esta actividad está disponible de Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). O se puede obtener de la wikipediatrend paquete de R (Meissner and Team 2016) . Cuando se escribe en marcha sus respuestas, tenga en cuenta qué fuente de datos que utilizó. (Nota: Esta misma actividad también aparece en el capítulo 6)
[ ] Efrati (2016) informes, basados en la información confidencial, que "total compartir" en Facebook había disminuido en un año alrededor de 5,5% respecto al año mientras que "el intercambio de emisión original" se redujo un 21% respecto al año anterior. Esta disminución fue particularmente aguda entre los usuarios de Facebook menores de 30 años de edad. El informe atribuyó el descenso a dos factores. Uno de ellos es el crecimiento en el número de "amigos" que tiene la gente en Facebook. La otra es que alguna actividad de compartir se ha desplazado a la mensajería y para competidores como Snapchat. El informe también revela las varias tácticas Facebook había tratado de impulsar el intercambio, incluyendo ajustes de algoritmo de noticias externas que hacen que los mensajes originales más prominente, así como recordatorios periódicos de los usuarios mensajes originales "En este día" hace varios años. ¿Qué implicaciones, si es necesaria, estos resultados tienen para los investigadores que desean utilizar Facebook como fuente de datos?
[ ] Tumasjan et al. (2010) reportaron que la proporción de los tweets que citan un partido político coincidía con la proporción de votos que recibió del partido en las elecciones parlamentarias de Alemania en 2009 (Figura 2.9). En otras palabras, parecía que se podía usar Twitter para predecir la elección. En el momento de este estudio fue publicado, se consideró muy emocionante, ya que parecía sugerir un uso valioso de una fuente común de datos grandes.
Dadas las malas características de grandes volúmenes de datos, sin embargo, debe ser inmediatamente escéptico de este resultado. Alemanes en Twitter en 2009 fueron un grupo bastante no representativa, y los partidarios de una de las partes podrían tweet acerca de la política con más frecuencia. Por lo tanto, parece sorprendente que todos los posibles sesgos que se puedan imaginar alguna manera anular. De hecho, los resultados en Tumasjan et al. (2010) resultó ser demasiado bueno para ser verdad. En su artículo, Tumasjan et al. (2010) consideraron seis partidos políticos: democristianos (CDU), Christian socialdemócratas (CSU), SPD, los liberales (FDP), La Izquierda (Die Linke), y el Partido Verde (Grüne). Sin embargo, el más mencionado partido político alemán en Twitter en ese momento era el Partido Pirata (Piraten), un partido que lucha contra la regulación gubernamental de la Internet. Cuando el Partido Pirata se incluyó en el análisis, menciones en Twitter convierta en una terrible predictor de resultados de las elecciones (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Métodos tales elegantes Posteriormente, otros investigadores de todo el mundo han utilizado como el uso de análisis de los sentimientos de distinguir entre positivo y negativo menciones de los partidos con el fin de mejorar la capacidad de datos de Twitter para predecir una variedad de diferentes tipos de elecciones (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Así es como Huberty (2015) resumió los resultados de estos intentos de predecir las elecciones:
"Todos los métodos de pronóstico conocidos a base de medios de comunicación social han fracasado cuando se somete a las exigencias de la verdadera predicción electoral a futuro. Estos fracasos parecen ser debido a las propiedades fundamentales de los medios de comunicación social, en lugar de a las dificultades metodológicas o algorítmicos. En resumen, las redes sociales no lo hacen, y probablemente nunca, ofrecer una imagen estable, sin prejuicios, representante de los electores; y las muestras de la conveniencia de los medios de comunicación social carecen de datos suficientes para solucionar estos problemas post hoc ".
Lea algunas de las investigaciones que llevan Huberty (2015) a esa conclusión, y escribir una nota de una página a un candidato político que describe si y cómo Twitter se debe utilizar para pronosticar las elecciones.
[ ] ¿Cuál es la diferencia entre un sociólogo e historiador? De acuerdo con Goldthorpe (1991) , la principal diferencia entre un sociólogo e historiador es el control sobre la recolección de datos. Los historiadores se ven obligados a utilizar reliquias mientras que los sociólogos pueden personalizar su recopilación de datos para fines específicos. Leer Goldthorpe (1991) . ¿Cómo es la diferencia entre la sociología y la historia relacionada con la idea de Custommades y Readymades?
[ ] A partir de la pregunta anterior, Goldthorpe (1991) dibujó una serie de respuestas críticas, incluyendo uno de Nicky Hart (1994) que desafió la devoción de Goldthorpe para adaptar los datos hechos. Para aclarar las limitaciones potenciales de los datos a medida, Hart describió el Proyecto de Trabajadores afluente, una gran encuesta para medir la relación entre la clase social y de votación que se llevó a cabo por Goldthorpe y sus colegas a mediados de los años 1960. Como era de esperar de un erudito que estuvo a favor de datos a través de los datos que se encuentran diseñado, el Proyecto de Trabajadores afluente recoge datos que fueron diseñados para tratar una teoría propuesta recientemente por el futuro de la clase social en una época de aumento de los niveles de vida. Pero, Goldthorpe y sus colegas de alguna manera "olvidaron" para recoger información sobre el comportamiento del voto de las mujeres. Así es como Nicky Hart (1994) resume todo el episodio:
". . . que [es] difícil evitar la conclusión de que se omitieron las mujeres debido a este "hecho a medida" conjunto de datos fue confinado por una lógica paradigmática que excluía la experiencia femenina. Impulsado por una visión teórica de la conciencia de clase y la acción como preocupaciones masculinas. . . , Goldthorpe y sus colegas construyeron un conjunto de pruebas empíricas que alimentan y nutren sus propios supuestos teóricos en lugar de exponerlos a una prueba válida de adecuación ".
Hart continuó:
"Los resultados empíricos del Proyecto de Trabajadores afluente nos dicen más sobre los valores machistas de la sociología de mediados de siglo de lo que informan los procesos de estratificación, la política y la vida material."
¿Puede pensar en otros ejemplos en los que la recopilación de datos a medida, tiene los sesgos del colector de datos construido en él? ¿Cómo se compara esto con la confusión algorítmico? ¿Qué implicaciones podría tener esto para cuando los investigadores deben utilizar Readymades y cuándo deben utilizar Custommades?
[ ] En este capítulo, Contrasté datos recogidos por los investigadores para investigadores con los registros administrativos creados por las empresas y los gobiernos. Algunas personas llaman a estos registros administrativos "encontraron datos", que contrastan con los "datos de diseño." Es cierto que los registros administrativos son encontrados por los investigadores, pero también son altamente diseñados. Por ejemplo, las empresas de tecnología modernas gastan enormes cantidades de tiempo y recursos para recoger y conservar sus datos. Por lo tanto, estos registros administrativos y ambos se encuentran diseñados, sólo depende de su perspectiva (Figura 2.10).
Proporcionar un ejemplo de fuente de datos, donde viéndolo tanto como se encuentra diseñado y es útil al utilizar esa fuente de datos para la investigación.
[ ] En un ensayo reflexivo, Christian Sandvig y Eszter Hargittai (2015) describen dos tipos de investigación digital, donde el sistema digital es "instrumento" o "objeto de estudio". Un ejemplo del primer tipo de estudio es donde Bengtsson y sus colegas (2011) utilizaron datos de teléfonos móviles para realizar un seguimiento de la migración después del terremoto en Haití en 2010. Un ejemplo del segundo tipo es donde Jensen (2007) estudia cómo la introducción de los teléfonos móviles a través de Kerala, India impactado el funcionamiento del mercado de pescado. Me parece útil, ya que aclara que los estudios que utilizan fuentes de datos digitales pueden tener diferentes objetivos, incluso si están usando el mismo tipo de fuente de datos. Con el fin de aclarar aún más esta distinción, describen cuatro estudios que has visto: dos que utilizan un sistema digital como instrumento y dos que utilizan un sistema digital como un objeto de estudio. Puede usar ejemplos de este capítulo si lo desea.