Zorro: una familia param´étrica flexible y diferenciable de funciones de activaci´on que extiende ReLU y GELU

Autores/as

Palabras clave:

funciones de activación, redes convolucionales, redes transformer, desvanecimiento del gradiente, explosión del gradiente

Resumen

Incluso en arquitecturas recientes de redes neuronales como Transformers y Extended LSTM (xLSTM), así como en arquitecturas tradicionales como las redes neuronales convolucionales (CNN), las funciones de activación son componentes esenciales. Permiten un entrenamiento más efectivo y la captura de patrones no lineales. En los últimos 30 años se han propuesto más de 400 funciones, con parámetros fijos o entrenables, aunque solo unas pocas se utilizan de forma generalizada. ReLU es una de las más empleadas, y variantes como GELU y Swish aparecen cada vez con mayor frecuencia. Sin embargo, ReLU presenta puntos no diferenciables y problemas de gradientes explosivos; a su vez, al probar distintos parámetros en variantes de GELU y Swish se obtienen resultados dispares, lo que exige más parámetros para adaptarse a conjuntos de datos y arquitecturas. Este artículo introduce un nuevo conjunto de funciones de activación denominado Zorro, una familia flexible y continuamente diferenciable compuesta por cinco funciones principales que fusionan ReLU y la sigmoide. Las funciones Zorro son suaves y adaptables, actúan como compuertas de información y se alinean con ReLU en el intervalo [0,1], ofreciendo una alternativa a ReLU que no requiere normalización y evita la muerte neuronal y las explosiones de gradiente. Zorro también aproxima funciones como Swish, GELU y DGELU, al tiempo que proporciona parámetros para ajustarse a diferentes datasets y arquitecturas. Evaluamos su desempeño en arquitecturas totalmente conectadas, convolucionales y de tipo transformer para demostrar su efectividad.

Descargas

Publicado

2025-10-15

Número

Sección

ASAID - Simposio Argentino de Inteligencia Artificial y Ciencias de Datos

Cómo citar

Roodschild, M., Gotay-Sardiñas, J., Jimenez, V. A., & Will, A. (2025). Zorro: una familia param´étrica flexible y diferenciable de funciones de activaci´on que extiende ReLU y GELU. JAIIO, Jornadas Argentinas De Informática, 11(1), 340-365. https://revistas.unlp.edu.ar/JAIIO/article/view/19830