
ARTDEPARTMENT

OpenAI acaba de anunciar la integración de la funcionalidad de coexistentes de imágenes directamente en ChatGPT a partir de hoy: los usuarios que recurran al maniquí multimodal GPT-4o podrán originar imágenes internamente del mismo, en oportunidad de (como venía ocurriendo hasta ahora) utilizar ChatGPT como solo intermediario del maniquí especializado DALL-E 3.
El cambio está arreglado para todos los usuarios de ChatGPT (en los planes Plus, Pro, Team y sin cargo), así como en la plataforma de vídeo Sora, y próximamente vía API para desarrolladores.
Enérgico inicialmente en mayo de 2024, GPT-4o es un maniquí "omnimodal" —capaz de procesar y originar texto, imágenes, audio y vídeo— entrenado para entender e interrelacionar múltiples formatos de información... sin retención, su capacidad para originar imágenes no se encontraba habilitada para el notorio genérico.
Anteriormente, ChatGPT utilizaba DALL·E 3 como padre de imágenes, un maniquí de difusión que reconstruía imágenes eliminando ruido desde los píxeles. GPT-4o rompe con esta técnica y adopta un enfoque autorregresivo, generando imágenes de forma secuencial (de izquierda a derecha y de hacia lo alto a debajo), lo cual permite una longevo coherencia y precisión, especialmente al integrar texto o múltiples objetos en una imagen.

Entonces... ¿DALL·E ha muerto? - Aunque GPT-4o reemplaza ahora a DALL·E como padre de imágenes predeterminado en ChatGPT, los usuarios nostálgicos aún podrán seguir accediendo a DALL·E 3 a través de un GPT personalizado.

OpenAI


Una de las mejoras más aclamadas es la capacidad del maniquí para grabar texto fácil y correctamente posicionado internamente de imágenes. Esto permite crear carteles, menús, infografías o invitaciones con calidad profesional. Funciona a la perfección en ejemplos como el superior, y muestra hasta qué punto la crecimiento de los modelos pone opción a sus grandes problemas: primero eran manos poco humanas que más o menos se han ido arreglando, pero los textos deformes e ininteligibles seguían presentes en muchas imágenes generadas por IA. No en las de GPT-4o.

OpenAI
Como parte nativa de ChatGPT, GPT-4o puede originar imágenes basadas en el historial de conversación, ajustar detalles bajo pedido y abastecer coherencia visual en múltiples iteraciones. Por ejemplo, un personaje de videojuego puede conservar su estilo visual a lo liberal de diferentes versiones.

OpenAI
Mientras que otros modelos se limitan a representar con precisión entre 5 y 8 objetos, GPT-4o puede manejar entre 10 y 20 fundamentos distintos con atributos complejos (colores, formas, posiciones), gracias a una mejoría significativa en el "binding" o asociación de características.

OpenAI

OpenAI
El maniquí puede originar imágenes en una gran variedad de estilos: desde bocetos a mano hasta fotografías hiperrealistas. Incluso es capaz de variar imágenes subidas por el sucesor para adaptarlas a un nuevo estilo o contexto.
La nueva funcionalidad de GPT-4o no se limita al arte por arte. Su efectivo poder radica en sus aplicaciones prácticas:
Adicionalmente, es posible personalizar las imágenes indicando proporciones, esquemas de color (incluso con códigos hexadecimales), fondos transparentes y mucho más.

Correlación 'prompt' / imagen resultante // OpenAI
A pesar de sus avances, el sistema no es valentísimo. Algunas de las limitaciones observadas por ahora incluyen:
OpenAI afirma estar trabajando activamente para aventajar estos problemas en futuras actualizaciones.
GPT-4o incorpora varias medidas de seguridad para predisponer el uso indebido de la coexistentes de imágenes:
OpenAI ha optado por una política más permisiva en cuanto a la representación de figuras públicas adultas, siempre que no se viole ninguna política de contenido. Los personajes públicos que lo deseen pueden solicitar que no se genere su imagen, lo que abre un espacio para usos positivos como la educación, la sátira o contenido histórico.
Imagen | Montaje por Marcos Merino a partir de imágenes de OpenAI mediante IA
En Genbeta | Esta IA de Google genera imágenes sin que tengamos que definirlas en texto: Whisk ya está arreglado en más de 100 países
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!