Galaxy Zoo combinó los esfuerzos de muchos voluntarios no expertos para clasificar un millón de galaxias.
Galaxy Zoo surgió de un problema que enfrentó Kevin Schawinski, un estudiante graduado en Astronomía en la Universidad de Oxford en 2007. Simplificando bastante, Schawinski estaba interesado en las galaxias, y las galaxias se pueden clasificar por su morfología, elíptica o espiral. por su color azul o rojo. En ese momento, la sabiduría convencional entre los astrónomos era que las galaxias espirales, como nuestra Vía Láctea, eran de color azul (lo que indica la juventud) y las galaxias elípticas eran rojas (lo que indica la vejez). Schawinski dudaba de esta sabiduría convencional. Sospechaba que si bien este patrón podía ser cierto en general, probablemente había una cantidad considerable de excepciones, y que al estudiar muchas de estas inusuales galaxias -las que no se ajustaban al patrón esperado- él podría aprender algo sobre el proceso a través del cual galaxias formadas.
Por lo tanto, lo que Schawinski necesitaba para revertir la sabiduría convencional era un gran conjunto de galaxias morfológicamente clasificadas; es decir, galaxias que se han clasificado como espirales o elípticas. El problema, sin embargo, era que los métodos algorítmicos existentes para la clasificación aún no eran lo suficientemente buenos como para ser utilizados para la investigación científica; en otras palabras, la clasificación de galaxias era, en ese momento, un problema que era difícil para las computadoras. Por lo tanto, lo que se necesitaba era una gran cantidad de galaxias clasificadas como humanas . Schawinski emprendió este problema de clasificación con el entusiasmo de un estudiante graduado. En una maratoniana sesión de siete días de 12 horas, pudo clasificar 50,000 galaxias. Mientras que 50,000 galaxias pueden parecer mucho, en realidad solo es aproximadamente el 5% de las casi un millón de galaxias que se fotografiaron en el Sloan Digital Sky Survey. Schawinski se dio cuenta de que necesitaba un enfoque más escalable.
Afortunadamente, resulta que la tarea de clasificar las galaxias no requiere una formación avanzada en astronomía; se puede enseñar a alguien que lo haga con bastante rapidez. En otras palabras, a pesar de que la clasificación de las galaxias es una tarea que era difícil para los ordenadores, que fue bastante fácil para los seres humanos. Así, mientras se está sentado en un bar en Oxford, Schawinski y compañero astrónomo Chris Lintott ideó un sitio web donde los voluntarios clasificarían imágenes de galaxias. Unos meses más tarde, Galaxy Zoo nació.
En el sitio web de Galaxy Zoo, los voluntarios se someten a unos minutos de entrenamiento; por ejemplo, aprendiendo la diferencia entre una galaxia espiral y elíptica (figura 5.2). Después de este entrenamiento, cada voluntario tuvo que aprobar un cuestionario relativamente fácil, clasificando correctamente 11 de 15 galaxias con clasificaciones conocidas, y luego comenzaría la clasificación real de galaxias desconocidas a través de una interfaz sencilla basada en la web (figura 5.3). La transición de voluntario a astrónomo se llevaría a cabo en menos de 10 minutos y solo se requiere pasar el obstáculo más bajo, una prueba simple.
Galaxy Zoo atrajo a sus voluntarios iniciales después de que el proyecto apareciera en un artículo periodístico, y en aproximadamente seis meses el proyecto creció hasta involucrar a más de 100.000 científicos ciudadanos, personas que participaron porque disfrutaron de la tarea y querían ayudar a avanzar en la astronomía. En conjunto, estos 100,000 voluntarios contribuyeron con un total de más de 40 millones de clasificaciones, y la mayoría de las clasificaciones provienen de un grupo central de participantes relativamente pequeño (Lintott et al. 2008) .
Los investigadores que tienen experiencia en contratar asistentes de investigación de pregrado pueden ser escépticos de inmediato sobre la calidad de los datos. Si bien este escepticismo es razonable, Galaxy Zoo muestra que cuando las contribuciones voluntarias se limpian, depuran y agregan correctamente, pueden producir resultados de alta calidad (Lintott et al. 2008) . Un truco importante para hacer que la multitud cree datos de calidad profesional es la redundancia , es decir, hacer que muchas personas diferentes realicen la misma tarea. En Galaxy Zoo, había alrededor de 40 clasificaciones por galaxia; los investigadores que utilizan asistentes de investigación de pregrado nunca podrían permitirse este nivel de redundancia y, por lo tanto, deberían preocuparse mucho más por la calidad de cada clasificación individual. Lo que a los voluntarios les faltaba en el entrenamiento, lo compensaron con redundancia.
Incluso con múltiples clasificaciones por galaxia, sin embargo, combinar el conjunto de clasificaciones voluntarias para producir una clasificación de consenso fue complicado. Debido a que surgen desafíos muy similares en la mayoría de los proyectos de computación humana, es útil repasar brevemente los tres pasos que los investigadores del Galaxy Zoo utilizaron para producir sus clasificaciones de consenso. Primero, los investigadores "limpiaron" los datos al eliminar las clasificaciones falsas. Por ejemplo, las personas que clasificaron repetidamente la misma galaxia -algo que sucedería si trataban de manipular los resultados- tenían todas sus clasificaciones descartadas. Esta y otra limpieza similar eliminaron aproximadamente el 4% de todas las clasificaciones.
En segundo lugar, después de la limpieza, los investigadores necesitaron eliminar los sesgos sistemáticos en las clasificaciones. A través de una serie de estudios de detección de sesgo incrustados en el proyecto original, por ejemplo, mostrando a algunos voluntarios la galaxia en monocromo en lugar de color, los investigadores descubrieron varios sesgos sistemáticos, como un sesgo sistemático para clasificar galaxias espirales lejanas como galaxias elípticas (Bamford et al. 2009) . El ajuste para estos sesgos sistemáticos es extremadamente importante porque la redundancia no elimina automáticamente el sesgo sistemático; solo ayuda a eliminar el error aleatorio.
Finalmente, después de la eliminación de errores, los investigadores necesitaron un método para combinar las clasificaciones individuales para producir una clasificación de consenso. La forma más simple de combinar clasificaciones para cada galaxia habría sido elegir la clasificación más común. Sin embargo, este enfoque habría dado a cada voluntario el mismo peso, y los investigadores sospecharon que algunos voluntarios eran mejores en la clasificación que otros. Por lo tanto, los investigadores desarrollaron un procedimiento de ponderación iterativo más complejo que intentó detectar los mejores clasificadores y darles más peso.
Por lo tanto, después de un proceso de limpieza, desinsectación y ponderación en tres pasos, el equipo de investigación de Galaxy Zoo había convertido 40 millones de clasificaciones voluntarias en un conjunto de clasificaciones morfológicas de consenso. Cuando se compararon estas clasificaciones de Galaxy Zoo con tres intentos anteriores de astrónomos profesionales a menor escala, incluida la clasificación de Schawinski que ayudó a inspirar a Galaxy Zoo, hubo un gran acuerdo. Por lo tanto, los voluntarios, en conjunto, pudieron proporcionar clasificaciones de alta calidad y en una escala que los investigadores no pudieron igualar (Lintott et al. 2008) . De hecho, al tener clasificaciones humanas para un número tan grande de galaxias, Schawinski, Lintott y otros pudieron demostrar que solo el 80% de las galaxias siguen el patrón esperado: espirales azules y elípticas rojas, y se han escrito numerosos artículos sobre este descubrimiento (Fortson et al. 2011) .
Teniendo en cuenta estos antecedentes, ahora puede ver cómo Galaxy Zoo sigue la receta de combinación de aplicación dividida, la misma receta que se utiliza para la mayoría de los proyectos de computación humana. Primero, un gran problema se divide en pedazos. En este caso, el problema de clasificar un millón de galaxias se dividió en un millón de problemas de clasificación de una galaxia. A continuación, se aplica una operación a cada fragmento de forma independiente. En este caso, los voluntarios clasificaron cada galaxia como espiral o elíptica. Finalmente, los resultados se combinan para producir un resultado de consenso. En este caso, el paso combinado incluyó la limpieza, la desvinculación y la ponderación para producir una clasificación de consenso para cada galaxia. Aunque la mayoría de los proyectos usan esta receta general, cada paso debe personalizarse para el problema específico que se está tratando. Por ejemplo, en el proyecto de computación humana que se describe a continuación, se seguirá la misma receta, pero los pasos de aplicar y combinar serán bastante diferentes.
Para el equipo de Galaxy Zoo, este primer proyecto fue solo el comienzo. Rápidamente se dieron cuenta de que, aunque podían clasificar cerca de un millón de galaxias, esta escala no es suficiente para trabajar con estudios del cielo digital más nuevos, que pueden producir imágenes de aproximadamente 10 mil millones de galaxias (Kuminski et al. 2014) . Para manejar un aumento de 1 millón a 10 mil millones, un factor de 10,000, Galaxy Zoo necesitaría reclutar aproximadamente 10,000 veces más participantes. Aunque la cantidad de voluntarios en Internet es grande, no es infinita. Por lo tanto, los investigadores se dieron cuenta de que si iban a manejar cantidades cada vez mayores de datos, se necesitaba un enfoque nuevo, incluso más escalable.
Por lo tanto, Manda Banerji, que trabaja con Schawinski, Lintott y otros miembros del equipo Galaxy Zoo (2010) comenzó a enseñar computadores para clasificar las galaxias. Más específicamente, utilizando las clasificaciones humanas creadas por Galaxy Zoo, Banerji construyó un modelo de aprendizaje automático que podía predecir la clasificación humana de una galaxia según las características de la imagen. Si este modelo pudiera reproducir las clasificaciones humanas con alta precisión, podría ser utilizado por los investigadores de Galaxy Zoo para clasificar un número esencialmente infinito de galaxias.
El núcleo del enfoque de Banerji y sus colegas es en realidad bastante similar a las técnicas comúnmente utilizadas en la investigación social, aunque esa similitud podría no ser clara a primera vista. Primero, Banerji y sus colegas convirtieron cada imagen en un conjunto de características numéricas que resumían sus propiedades. Por ejemplo, para las imágenes de galaxias, podría haber tres características: la cantidad de azul en la imagen, la variación en el brillo de los píxeles y la proporción de píxeles no blancos. La selección de las funciones correctas es una parte importante del problema, y generalmente requiere experiencia en el área temática. Este primer paso, comúnmente llamado ingeniería de características , da como resultado una matriz de datos con una fila por imagen y luego tres columnas que describen esa imagen. Dada la matriz de datos y el resultado deseado (por ejemplo, si la imagen fue clasificada por un humano como una galaxia elíptica), el investigador crea un modelo estadístico o de aprendizaje automático (por ejemplo, regresión logística) que predice la clasificación humana en función de las características de la imagen. Finalmente, el investigador usa los parámetros en este modelo estadístico para producir clasificaciones estimadas de galaxias nuevas (figura 5.4). En el aprendizaje automático, este enfoque, que utiliza ejemplos etiquetados para crear un modelo que luego puede etiquetar datos nuevos, se denomina aprendizaje supervisado .
Las características en el modelo de aprendizaje automático de Banerji y sus colegas eran más complejas que las de mi ejemplo de juguete; por ejemplo, utilizó características como "relación axial ajustada de Vaucouleurs" y su modelo no era regresión logística, era una red neuronal artificial. Usando sus características, su modelo y las clasificaciones consensuadas de Galaxy Zoo, pudo crear pesos en cada característica y luego usar estos pesos para hacer predicciones sobre la clasificación de las galaxias. Por ejemplo, su análisis encontró que las imágenes con baja relación axial "de Vaucouleurs fit" tenían más probabilidades de ser galaxias espirales. Dados estos pesos, ella fue capaz de predecir la clasificación humana de una galaxia con una precisión razonable.
El trabajo de Banerji y sus colegas convirtieron Galaxy Zoo en lo que yo llamaría un sistema de computación humano asistido por computadora . La mejor manera de pensar acerca de estos sistemas híbridos es que, en lugar de que los humanos resuelvan un problema, los humanos han creado un conjunto de datos que se puede usar para entrenar a una computadora para resolver el problema. A veces, entrenar una computadora para resolver el problema puede requerir muchos ejemplos, y la única forma de producir una cantidad suficiente de ejemplos es una colaboración masiva. La ventaja de este enfoque asistido por computadora es que le permite manejar cantidades esencialmente infinitas de datos utilizando solo una cantidad finita de esfuerzo humano. Por ejemplo, un investigador con un millón de galaxias humanas clasificadas puede construir un modelo predictivo que luego puede usarse para clasificar un billón o incluso un trillón de galaxias. Si hay un enorme número de galaxias, entonces este tipo de híbrido humano-computadora es realmente la única solución posible. Sin embargo, esta escalabilidad infinita no es gratuita. Construir un modelo de aprendizaje automático que pueda reproducir correctamente las clasificaciones humanas es en sí mismo un problema difícil, pero afortunadamente ya hay libros excelentes dedicados a este tema (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo es una buena ilustración de la cantidad de proyectos de computación humana que evolucionan. Primero, un investigador intenta el proyecto solo o con un pequeño equipo de asistentes de investigación (por ejemplo, el esfuerzo inicial de clasificación de Schawinski). Si este enfoque no se escala bien, el investigador puede pasar a un proyecto de computación humana con muchos participantes. Pero, para un cierto volumen de datos, el esfuerzo humano puro no será suficiente. En ese punto, los investigadores necesitan construir un sistema de computación humano asistido por computadora en el que las clasificaciones humanas se utilicen para entrenar un modelo de aprendizaje automático que luego se pueda aplicar a cantidades de datos prácticamente ilimitadas.