Una forma de onda colorida que en realidad no tiene nada que ver con Koe: Recast.
Agrandar / Una forma de onda colorida se arremolina dramáticamente a través del espacio latente en busca de kawaii.

Gracias a una demostración web de una nueva herramienta de inteligencia artificial llamada Koe Recast, puede convertir hasta 20 segundos de su voz en una variedad de estilos, incluido un personaje de anime, un narrador masculino profundo, un susurro ASMR y más. Es una vista previa perspicaz de un posible producto comercial que actualmente se encuentra en pruebas alfa privadas.

Koe Recast surgió recientemente de un desarrollador con sede en Texas llamado Asara cerca, que está trabajando de forma independiente en el desarrollo de una aplicación de escritorio con el objetivo de permitir que las personas cambien su voz en tiempo real a través de otras aplicaciones como Zoom y Discord. «Mi objetivo es ayudar a las personas a expresarse de maneras que las hagan más felices», dijo Near en una breve entrevista con Ars.

Varias demostraciones en el sitio web de Koe presentan clips alterados de Mark Zuckerberg hablando sobre la realidad aumentada con una voz femenina, una voz profunda de narrador masculino y una voz de anime aguda, todo impulsado por Recast.

Este tipo de tecnología realista de transformación del habla impulsada por IA no es nueva. Google hizo olas con una tecnología similar en 2018, y las falsificaciones profundas de audio de celebridades han causado controversia durante varios años. Pero ver esta capacidad en una startup independiente financiada por una persona: «Hasta ahora, he financiado este proyecto completamente yo mismo», dijo Near, muestra cuán lejos ha llegado la tecnología de síntesis vocal de IA, y quizás insinúe cuán cerca podría llegar la transformación de la voz. a una aceptación generalizada a través de una versión de código abierto o de bajo costo.

Cuando se le preguntó qué tipo específico de IA impulsa la transformación de voz de Recast bajo el capó, Near ocultó detalles, pero generalizó sobre cómo funciona: «Podemos sumergirnos en el espacio de incrustación que hemos creado y apreciar las propiedades del cambio de voces. Por lo tanto, nuestro objetivo es modificar las partes de audio que coincidan con el estilo personal o el timbre de un hablante, al mismo tiempo que conservamos las partes de audio que coincidan con el contenido hablado, como la prosodia y las palabras de cualquier otro estilo, incluido su género percibido, edad, afiliación étnica, etc. «

Recast admite 10 voces diferentes y hay más en camino. «Todavía está abierto si ofreceremos voces existentes de celebridades u otras personas conocidas», dice Near.

Sin embargo, ofrecer voces de celebridades (o voces que se hagan pasar por personas vivas que no son celebridades) puede plantear problemas éticos y legales. Cuando se le preguntó sobre el posible abuso de Recast, Near respondió: «Al igual que con cualquier tecnología, es posible que haya ventajas y desventajas, pero creo que la gran mayoría de la humanidad está formada por personas maravillosas y se beneficiará enormemente de ella. Near también señaló que Recast tiene una política de Términos de servicio que prohíbe los usos ilegales y de odio.

En cuanto a un cronograma de lanzamiento, Near está buscando opciones comerciales, pero no descarta un lanzamiento de código abierto que podría tener impactos similares a Stable Diffusion al poner audios falsos realistas en manos de muchas personas sin limitaciones estrictas. «Estamos analizando algunas estrategias de monetización», dijo Near. «Si los modelos de ganancias que imagino no funcionan, la fuente abierta de esta tecnología podría ser una opción en el futuro».

A medida que la tecnología de aprendizaje profundo continúa reemplazando el concepto (o algunos dirían «ilusión») de los medios como registros sólidos y precisos de la realidad del siglo XX, visualizamos un futuro cercano en el que las representaciones digitales de la voz de una persona viva Personas, al igual que imágenes y videos, otra cosa que no puede tomar al pie de la letra sin confiar mucho en la fuente. Aún así, la tecnología podría empoderar a muchas personas que de otro modo enfrentarían discriminación cuando hacen negocios o simplemente se divierten en línea.



DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí