Para apoyar el periodismo de MIT Technology Review, considere suscribirse.

Los modelos de difusión se entrenan en imágenes que se han deformado por completo con píxeles aleatorios. Aprenderá a transformar estas imágenes de vuelta a su forma original. No hay imágenes existentes en DALL-E 2. Entonces, el modelo de difusión toma los píxeles aleatorios y, bajo la guía de CLIP, los transforma en una imagen completamente nueva, creada desde cero, que coincide con el mensaje de texto.

El modelo de difusión permite que DALL-E 2 produzca imágenes de mayor resolución más rápido que DALL-E. «Esto lo hace mucho más práctico y agradable de usar», dice Aditya Ramesh de OpenAI.

En la demostración, Ramesh y sus colegas me mostraron imágenes de un erizo usando una calculadora, un corgi y un panda jugando al ajedrez y un gato disfrazado de Napoleón sosteniendo un trozo de queso. Noto el extraño elenco de temas. «Es fácil pasar todo un día de trabajo elaborando anuncios», dice.

otter ibis
«Una nutria marina al estilo de la joven de la perla de Johannes Vermeer» / «Un ibis salvaje pintado al estilo de John Audubon»

DALL-E 2 sigue resbalando. Por ejemplo, puede tener problemas con un mensaje que le pide que combine dos o más objetos con dos o más atributos, como B. «Un dado rojo encima de un dado azul». OpenAI cree que esto se debe a que CLIP no siempre asocia correctamente los atributos con los objetos.

Además de generar indicaciones de texto, DALL-E 2 también puede crear variaciones de imágenes existentes. Ramesh incluye una foto que tomó del arte callejero afuera de su casa. La IA comienza inmediatamente a generar versiones alternativas de la escena con diferentes obras de arte en la pared. Cada una de estas nuevas imágenes se puede utilizar para iniciar su propia secuencia de variaciones. «Este circuito de retroalimentación podría ser realmente útil para los diseñadores», dice Ramesh.

Una de las primeras usuarias, una artista llamada Holly Herndon, dice que usa DALL-E 2 para crear composiciones del tamaño de una pared. «Puedo coser grandes obras de arte pieza por pieza, como un tapiz de retazos o un viaje narrativo», dice. «Se siente como trabajar en un nuevo medio».

Atención usuarios

DALL-E 2 se parece mucho más a un producto pulido que la versión anterior. Ese no era el objetivo, dice Ramesh. Sin embargo, OpenAI planea lanzar DALL-E 2 al público después de un lanzamiento inicial a un pequeño grupo de usuarios confiables, similar a lo que sucedió con GPT-3. (Puede registrarse para acceder aquí).

GPT-3 puede producir texto tóxico. Sin embargo, OpenAI dice que usó los comentarios de los usuarios de GPT-3 para entrenar una versión más segura llamada InstructGPT. La compañía espera seguir un camino similar con DALL-E 2, que también estará determinado por los comentarios de los usuarios. OpenAI alienta a los usuarios primerizos a descifrar la IA engañándolos para que generen imágenes ofensivas o dañinas. A medida que se resuelvan estos problemas, OpenAI comenzará a hacer que DALL-E 2 esté disponible para un grupo más grande de personas.

OpenAI también publica una política de usuario para DALL-E, que prohíbe pedirle a la IA que cree imágenes ofensivas, sin violencia ni pornografía, y sin imágenes políticas. Para evitar falsificaciones profundas, los usuarios no pueden pedirle a DALL-E que cree imágenes de personas reales.

soup shibu
«Un plato de sopa que parece un monstruo tejido con lana» / «Un perro Shibu-Inu con boina y cuello alto negro»

Además de la política de usuarios, OpenAI ha eliminado ciertos tipos de imágenes de los datos de entrenamiento de DALL-E 2, incluidas aquellas que muestran violencia gráfica. OpenAI también dice que pagará a moderadores humanos para que revisen cada imagen generada en su plataforma.

«Nuestro objetivo principal aquí es obtener muchos comentarios sobre el sistema antes de que comencemos a compartirlo más ampliamente», dice Prafulla Dhariwal de OpenAI. «Espero que eventualmente esté disponible para que los desarrolladores creen aplicaciones».

Inteligencia creativa

Las IA con múltiples talentos que pueden ver el mundo y trabajar con conceptos en múltiples modalidades, como el lenguaje y la visión, son un paso hacia una inteligencia más general. DALL-E 2 es uno de los mejores ejemplos hasta ahora.

Pero aunque Etzioni está impresionado con las imágenes que produce DALL-E 2, desconfía de lo que esto significa para la progresión general de la IA. «Ese tipo de mejora no nos acerca más a AGI», dice. “Ya sabemos que la IA es notablemente capaz de resolver tareas difíciles mediante el aprendizaje profundo. Pero siguen siendo las personas las que formulan estas tareas y dan órdenes de marcha al aprendizaje profundo”.

Para Mark Riedl, investigador de IA en Georgia Tech en Atlanta, la creatividad es una buena manera de medir la inteligencia. A diferencia de la prueba de Turing, que requiere que una máquina engañe a un humano a través de una conversación, la prueba Lovelace 2.0 de Riedl evalúa la inteligencia de una máquina por qué tan bien responde a las solicitudes para crear algo, como «Una imagen de un pingüino en un traje espacial en Marte». ”

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

diecisiete − 16 =