MÉTRICAS DE INVARIANZA TRANSFORMACIONAL PARA REDES NEURONALES CONVOLUCIONALES

Facundo Quiroga; Laura Cristina Lanzarini

Autores

Facundo Quiroga Instituto de Investigación en Informática (III-LIDI). Facultad de Informática, UNLP.
Laura Cristina Lanzarini Instituto de Investigación en Informática (III-LIDI). Facultad de Informática, UNLP.

Palavras-chave:

Redes Neuronales, Invarianza, Equivarianza, Métrica

Resumo

Las Redes Neuronales son los modelos de aprendizaje automático con mejor desempeño en la actualidad en una gran variedad de problemas. En particular, las Redes Convolucionales, es decir, Redes Neuronales que utilizan capas convolucionales, son el estado del arte en la mayoría de los problemas de visión por computadora.

Muchos de los problemas para los cuales las Redes Convolucionales son el estado del arte requieren que los modelos se comporten de cierta manera ante transformaciones de su entrada. Existen dos propiedades fundamentales que capturan dicho requerimiento; la invarianza y la equivarianza. La invarianza nos dice que la salida del modelo no es afectado por las transformaciones. La equivarianza permite que la salida sea afectada, pero de una manera controlada y útil.

Si bien los modelos tradicionales de Redes Convolucionales son equivariantes a la traslación por diseño, no son ni invariantes a dicha transformación ni equivariantes a otras en los escenarios usuales de entrenamiento y uso. Existen dos opciones principales para otorgar invarianza o equivarianza a un modelo de red neuronal. La tradicional ha sido modificar el modelo para dotarlo de esas propiedades. La otra opción es entrenarlo con aumentación de datos utilizando como transformaciones el mismo conjunto al que se desea la equivarianza.

No obstante, no está claro cómo los modelos adquieren estas propiedades, tanto al usar aumentación de datos como al modificar el modelo. Tampoco está claro como las modificaciones de modelos afectan la eficiencia y el poder de representación de los mismos. Más aún, en los modelos tradicionales tampoco es conocido cómo se adquieren dichas propiedades con aumentación de datos, así como cuál es la mejor estrategia para aumentar los datos con este fin.

Esta línea de investigación busca contribuir al entendimiento y mejora de la equivarianza de los modelos de redes neuronales, en particular aplicados a la clasificación de formas de mano para la lengua de seña y otros tipos de gestos mediante modelos de redes convolucionales.

Realizamos las siguientes contribuciones:

* Un análisis de estrategias para lograr equivarianza a las rotaciones en redes neuronales:

* Un conjunto de métricas para analizar empíricamente la equivarianza de las redes neuronales, así como de cualquier otro modelo basado en representaciones latentes.

* Análisis del cambio en la estructura de la equivarianza de distintos modelos ante cambios de los hiperparámetros, transformaciones y conjuntos de datos.

Finalmente, creamos la libería de Métricas transformacionales, de código abierto, para computar métricas transformacionales como las definidas para modelos de redes neuronales, utilizando el framework PyTorch y Numpy (https://github.com/facundoq/transformational_measures).

Creemos que es posible aprender más acerca de las Redes Neuronales y Convolucionales estudiando sus equivarianzas, y así mejorar los modelos existentes para hacer posible nuevas aplicaciones.