Una rana dardo venenosa renderizada como modelo 3D por Magic3D.
Agrandar / Una rana dardo venenosa renderizada como modelo 3D por Magic3D.

NVIDIA

El viernes, los investigadores de Nvidia anunciaron Magic3D, un modelo de IA que puede generar modelos 3D a partir de descripciones de texto. Después de ingresar un mensaje como «Una rana dardo venenosa azul está sentada en un nenúfar», Magic3D genera un modelo de malla 3D con textura coloreada en aproximadamente 40 minutos. Con modificaciones, el modelo resultante se puede usar en videojuegos o escenas de arte CGI.

En su artículo científico, Nvidia formula Magic3D en respuesta a DreamFusion, un modelo de texto a 3D que los investigadores de Google anunciaron en septiembre. Similar a cómo DreamFusion usa un modelo de texto a imagen para generar una imagen 2D, que luego se optimiza en datos volumétricos NeRF (Neural Radiance Field), Magic3D usa un proceso de dos pasos que produce un modelo aproximado que se divide en la resolución fue generada, utilizada y optimizada a una resolución más alta. Según los autores del artículo, el método Magic3D resultante puede generar objetos 3D dos veces más rápido que DreamFusion.

Magic3D también puede realizar la edición de mallas 3D basada en el símbolo del sistema. Dado un modelo 3D de baja resolución y un aviso básico, es posible cambiar el texto para cambiar el modelo resultante. Además, los autores de Magic3D demuestran la retención del mismo motivo a lo largo de generaciones (un concepto que a menudo se denomina coherencia) y la aplicación del estilo de una imagen 2D (por ejemplo, una pintura cubista) a un modelo 3D.

Nvidia no ha lanzado ningún código Magic3D junto con su trabajo científico.

La capacidad de generar 3D a partir de texto se siente como una progresión natural en los modelos de difusión actuales, que utilizan redes neuronales para sintetizar contenido novedoso después de un entrenamiento intensivo con un conjunto de datos. Solo en 2022, hemos visto el surgimiento de poderosos modelos de texto a imagen como DALL-E y Stable Diffusion, así como generadores rudimentarios de texto a video de Google y Meta. Google también presentó el modelo DreamFusion text-to-3D mencionado anteriormente hace dos meses, y desde entonces la gente ha adaptado técnicas similares para trabajar con un modelo de código abierto basado en difusión estable.

En cuanto a Magic3D, los investigadores que lo respaldan esperan que permita a cualquier persona crear modelos 3D sin capacitación especial. Una vez refinada, la tecnología resultante podría acelerar el desarrollo de videojuegos (y VR), y tal vez eventualmente encontrar aplicaciones en efectos especiales de cine y televisión. Hacia el final de su artículo, escriben: «Esperamos que con Magic3D podamos democratizar la síntesis 3D y abrir la creatividad de todos en la creación de contenido 3D».

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí