El gran avance detrás de los nuevos modelos radica en la forma en que se generan las imágenes. La primera versión de DALL-E usó una extensión de la tecnología detrás del modelo de lenguaje GPT-3 de OpenAI y generó imágenes al predecir el siguiente píxel en una imagen como si fueran palabras en una oración. Eso funcionó, pero no bien. «No fue una experiencia mágica», dice Altman. «Es increíble que haya funcionado».

En cambio, DALL-E 2 utiliza el llamado modelo de difusión. Los modelos de difusión son redes neuronales entrenadas para limpiar imágenes eliminando el ruido pixelado agregado por el proceso de entrenamiento. El proceso implica tomar fotografías y cambiar algunos píxeles en ellas en varios pasos hasta que las imágenes originales se borran y solo quedan píxeles aleatorios. «Si haces eso mil veces, en algún momento la imagen parecerá que has arrancado el cable de la antena de tu televisor: es solo nieve», dice Björn Ommer, quien trabaja en IA generativa en la Universidad de Munich y ayudó a configurarlo. El modelo Diffusion ahora impulsa Stable Diffusion.

Luego, la red neuronal se entrena para revertir este proceso y predecir cómo se vería la versión menos pixelada de una imagen determinada. El resultado es que si le das a un modelo de difusión un revoltijo de píxeles, intentará producir algo más limpio. Vuelva a conectar la imagen limpia y el modelo producirá algo aún más limpio. Haga esto con la suficiente frecuencia y el modelo puede llevarlo de nieve de TV a una imagen de alta definición.

Los generadores de arte de IA nunca funcionan exactamente como usted quiere que lo hagan. A menudo producen resultados espantosos que, en el mejor de los casos, pueden parecerse a obras de arte distorsionadas. En mi experiencia, la única forma de hacer que el trabajo se vea realmente bien es agregar un descriptor al final con un estilo estéticamente agradable.

~Eric Carter

El truco con los modelos de texto a imagen es que este proceso está guiado por el modelo de lenguaje, que intenta hacer coincidir un mensaje con las imágenes que produce el modelo de difusión. Esto impulsa el modelo de difusión hacia imágenes que el modelo de lenguaje considera una buena combinación.

Sin embargo, los modelos no extraen los vínculos entre el texto y la imagen de la nada. La mayoría de los modelos de texto a imagen actuales están entrenados en un gran conjunto de datos llamado LAION, que contiene miles de millones de combinaciones de texto e imagen de toda la web. Eso significa que las imágenes que obtienes de una maqueta de texto a imagen son una destilación del mundo tal como se presenta en línea, distorsionado por los prejuicios (y la pornografía).

Una última cosa: hay una pequeña pero crucial diferencia entre los dos modelos más populares, DALL-E 2 y Stable Diffusion. El modelo de difusión DALL-E 2 funciona con imágenes de tamaño completo. Stable Diffusion, por otro lado, utiliza una técnica llamada Latent Diffusion inventada por Ommer y sus colegas. Funciona con versiones comprimidas de imágenes codificadas dentro de la red neuronal en un llamado espacio latente, donde solo quedan las características esenciales de una imagen.

Esto significa que Stable Diffusion requiere menos potencia de procesamiento para funcionar. A diferencia de DALL-E 2, que se ejecuta en los potentes servidores de OpenAI, Stable Diffusion se puede ejecutar en (buenas) PC. Gran parte de la explosión de la creatividad y el rápido desarrollo de nuevas aplicaciones se debe al hecho de que Stable Diffusion es de código abierto (los programadores pueden modificarlo, desarrollarlo y ganar dinero con él) y lo suficientemente liviano como para que la gente lo ejecute en casa.

Redefinir la creatividad

Para algunos, estos modelos son un paso hacia la inteligencia artificial general, o AGI, una palabra de moda exagerada que se refiere a una futura IA que tiene capacidades universales o incluso similares a las humanas. OpenAI ha declarado explícitamente su objetivo de lograr AGI. Debido a esto, a Altman no le importa que DALL-E 2 ahora compita con varias herramientas similares, algunas de las cuales son gratuitas. «Estamos aquí para hacer AGI, no generadores de imágenes», dice. “Encajará en una hoja de ruta de productos más amplia. Es un pequeño elemento de lo que hará un AGI”.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí