Una imagen generada por IA de notas musicales explotando desde un monitor de computadora.
Agrandar / Una imagen generada por IA de notas musicales explotando desde un monitor de computadora.

Ars Technica

El jueves, dos aficionados a la tecnología lanzaron Riffus, un modelo de IA que genera música a partir de indicaciones de texto al crear una representación visual del sonido y convertirlo en audio para su reproducción. Utiliza una versión mejorada del modelo de síntesis de imágenes Stable Diffusion 1.5 y aplica la difusión latente visual al procesamiento de sonido de formas novedosas.

Desarrollado como un proyecto de pasatiempo por Seth Forsgren y Hayk Martiros, Rifffusion funciona generando sonogramas que almacenan audio en una imagen bidimensional. En un sonograma, el eje x representa el tiempo (el orden en que se reproducen las frecuencias, de izquierda a derecha) y el eje y representa la frecuencia de los tonos. Mientras tanto, el color de cada píxel de la imagen representa la amplitud del sonido en ese momento en particular.

Debido a que un sonograma es un tipo de imagen, Stable Diffusion puede procesarlo. Forsgren y Martiros entrenaron un modelo de difusión estable personalizado con sonogramas de muestra vinculados a descripciones de los sonidos o géneros musicales que representaban. Sabiendo esto, Riffus puede generar nueva música sobre la marcha basándose en indicaciones de texto que describen el tipo de música o sonido que desea escuchar, como «jazz», «rock» o incluso escribiendo en un teclado.

Después de generar la imagen del sonograma, Riffus usa Torchaudio para convertir el sonograma en sonido y reproducirlo como audio.

Un sonograma representa el tiempo, la frecuencia y la amplitud en una imagen bidimensional.
Agrandar / Un sonograma representa el tiempo, la frecuencia y la amplitud en una imagen bidimensional.

«Este es el modelo de difusión estable v1.5 sin modificaciones, simplemente ajustado a imágenes de espectrogramas emparejados con texto», escriben los desarrolladores de Riffus en su página de explicación. “Puede crear infinitas variaciones de un mensaje variando la semilla. Todas las mismas interfaces de usuario web y técnicas como img2img, pintura interna, indicaciones negativas e interpolación funcionan de manera inmediata”.

Los visitantes del sitio web de Riffus pueden experimentar con el modelo de IA gracias a una aplicación web interactiva que genera sonogramas interpolados (unidos a la perfección para una reproducción ininterrumpida) en tiempo real, mientras que el espectrograma se visualiza continuamente en el lado izquierdo de la página.

Una captura de pantalla del sitio web de Riffus donde puede escribir indicaciones y escuchar los sonogramas resultantes.
Agrandar / Una captura de pantalla del sitio web de Riffus donde puede escribir indicaciones y escuchar los sonogramas resultantes.

También puede fusionar estilos. Por ejemplo, escribir «Smooth Tropical Dance Jazz» agrega elementos de diferentes géneros para obtener un resultado novedoso, fomentando la experimentación al mezclar estilos.

Por supuesto, Riffus no es el primer generador de música impulsado por IA. A principios de este año, Harmonai lanzó Dance Diffusion, un modelo de música generativa impulsado por IA. La máquina de discos OpenAI anunciada en 2020 también genera nueva música con una red neuronal. Y sitios como Soundraw crean música sin parar sobre la marcha.

En comparación con estos esfuerzos musicales de IA más modificados, Riffus se siente más como el proyecto de pasatiempo que es. La música que produce va desde lo interesante hasta lo incomprensible, pero sigue siendo una aplicación notable de la tecnología de difusión latente que manipula el audio en un espacio visual.

El punto de control y el código del modelo Riffus están disponibles en GitHub.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí