Ajuste de modelos de difusi´on para la generaci´on de audio

Santiago Fiorino; Pablo Riera

Ajuste de modelos de difusi´on para la generaci´on de audio

Autores/as

Santiago Fiorino Universidad de Buenos Aires, Argentina
Pablo Riera Universidad de Buenos Aires, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina

Palabras clave:

música, síntesis, difusión, transformers

Resumen

La música ha evolucionado junto con la tecnología, desde instrumentos primitivos hasta modernas herramientas de síntesis digital. Actualmente, la inteligencia artificial desempeña un rol importante en la generación musical, empleando transformers y técnicas de difusión para crear canciones completas a partir de indicaciones en lenguaje natural. Sin embargo, los modelos privados, como los de Udio y Suno AI, aunque prometedores, limitan la investigación por su naturaleza cerrada. En 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión y código abierto, democratizando el campo. Pese a su calidad en efectos de sonido, SAO enfrenta limitaciones en generación musical debido a datos de entrenamiento escasos y con licencias abiertas. Nuestra investigación mejora las capacidades musicales de SAO mediante reentrenamiento con un conjunto de datos especializado. Se creó un pipeline que sintetiza audio a partir de archivos MIDI, enriquece metadatos con APIs (Spotify, LastFM) y genera indicaciones en lenguaje natural usando LLMs, obteniendo un conjunto de datos de 9 horas (538 minutos) compuesto por 1023 audios. Este conjunto incluye subconjuntos monofónico, polifónico y audios instrumentales de YouTube en partes iguales, con variedad de géneros, tempos, y tonalidades para diversificar la sonoridad. El modelo reentrenado (“Instrumental Finetune”) supera al SAO original, logrando mejoras en calidad de sonido, precisión instrumental y adherencia a géneros y tempos, alcanzando un 95,3% de precisión frente al 77,6% original. Aunque los desafíos en tonalidad persisten, métricas como KL-Passt y CLAP Score muestran que nuestro modelo iguala o supera el rendimiento de SAO y MusicGen, manteniendo generalización y optimización específica del dominio. Ejemplos auditivos que ilustran estas mejoras y confirman la ausencia de memorización están disponibles en el Project Web.

Descargas

Los datos de descarga aún no están disponibles.

Descargas

Publicado

2025-10-15

Número

Vol. 11 Núm. 1 (2025): ASAID – Simposio Argentino de Inteligencia Artificial y Ciencia de Datos

Sección

ASAID - Simposio Argentino de Inteligencia Artificial y Ciencias de Datos

Licencia

Derechos de autor 2025 Santiago Fiorino, Pablo Riera

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.

Cómo citar

Fiorino, S., & Riera, P. (2025). Ajuste de modelos de difusi´on para la generaci´on de audio. JAIIO, Jornadas Argentinas De Informática, 11(1), 304-310. https://revistas.unlp.edu.ar/JAIIO/article/view/19827