Zorro: una familia param´étrica flexible y diferenciable de funciones de activaci´on que extiende ReLU y GELU
Palabras clave:
funciones de activación, redes convolucionales, redes transformer, desvanecimiento del gradiente, explosión del gradienteResumen
Incluso en arquitecturas recientes de redes neuronales como Transformers y Extended LSTM (xLSTM), así como en arquitecturas tradicionales como las redes neuronales convolucionales (CNN), las funciones de activación son componentes esenciales. Permiten un entrenamiento más efectivo y la captura de patrones no lineales. En los últimos 30 años se han propuesto más de 400 funciones, con parámetros fijos o entrenables, aunque solo unas pocas se utilizan de forma generalizada. ReLU es una de las más empleadas, y variantes como GELU y Swish aparecen cada vez con mayor frecuencia. Sin embargo, ReLU presenta puntos no diferenciables y problemas de gradientes explosivos; a su vez, al probar distintos parámetros en variantes de GELU y Swish se obtienen resultados dispares, lo que exige más parámetros para adaptarse a conjuntos de datos y arquitecturas. Este artículo introduce un nuevo conjunto de funciones de activación denominado Zorro, una familia flexible y continuamente diferenciable compuesta por cinco funciones principales que fusionan ReLU y la sigmoide. Las funciones Zorro son suaves y adaptables, actúan como compuertas de información y se alinean con ReLU en el intervalo [0,1], ofreciendo una alternativa a ReLU que no requiere normalización y evita la muerte neuronal y las explosiones de gradiente. Zorro también aproxima funciones como Swish, GELU y DGELU, al tiempo que proporciona parámetros para ajustarse a diferentes datasets y arquitecturas. Evaluamos su desempeño en arquitecturas totalmente conectadas, convolucionales y de tipo transformer para demostrar su efectividad.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 Matías Roodschild, Jorge Gotay-Sardiñas, Victor A. Jimenez, Adrián Will

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.











