ARTDEPARTMENT

Solicitar una consulta

ChatGPT por fin tiene un un generador de imágenes propio y gratis. Resuelve de forma increíble uno de los grandes problemas de la IA

Publicado el 
marzo 26, 2025

OpenAI acaba de anunciar la integración de la funcionalidad de coexistentes de imágenes directamente en ChatGPT a partir de hoy: los usuarios que recurran al maniquí multimodal GPT-4o podrán originar imágenes internamente del mismo, en oportunidad de (como venía ocurriendo hasta ahora) utilizar ChatGPT como solo intermediario del maniquí especializado DALL-E 3.

El cambio está arreglado para todos los usuarios de ChatGPT (en los planes Plus, Pro, Team y sin cargo), así como en la plataforma de vídeo Sora, y próximamente vía API para desarrolladores.

¿Qué es GPT-4o y qué lo hace diferente?

Enérgico inicialmente en mayo de 2024, GPT-4o es un maniquí "omnimodal" —capaz de procesar y originar texto, imágenes, audio y vídeo— entrenado para entender e interrelacionar múltiples formatos de información... sin retención, su capacidad para originar imágenes no se encontraba habilitada para el notorio genérico.

¿Qué ha cambiado al dejar a espaldas DALL·E 3?

Anteriormente, ChatGPT utilizaba DALL·E 3 como padre de imágenes, un maniquí de difusión que reconstruía imágenes eliminando ruido desde los píxeles. GPT-4o rompe con esta técnica y adopta un enfoque autorregresivo, generando imágenes de forma secuencial (de izquierda a derecha y de hacia lo alto a debajo), lo cual permite una longevo coherencia y precisión, especialmente al integrar texto o múltiples objetos en una imagen.

Sora nos acerca más a la 'IA general'... pero no por generar vídeos, sino por simular mundos

Entonces... ¿DALL·E ha muerto? - Aunque GPT-4o reemplaza ahora a DALL·E como padre de imágenes predeterminado en ChatGPT, los usuarios nostálgicos aún podrán seguir accediendo a DALL·E 3 a través de un GPT personalizado.

Capacidades secreto de la coexistentes de imágenes con GPT-4o

Renderizado preciso de texto (adiós a uno de los grandes problemas de la IA generativa de imágenes)

Screenshot 2025 03 26 At 01 42 14 Introducing 4o Image Generation Openai
Screenshot 2025 03 26 At 01 42 14 Introducing 4o Image Generation Openai

OpenAI

Dyda 4a
Dyda 4a

Una de las mejoras más aclamadas es la capacidad del maniquí para grabar texto fácil y correctamente posicionado internamente de imágenes. Esto permite crear carteles, menús, infografías o invitaciones con calidad profesional. Funciona a la perfección en ejemplos como el superior, y muestra hasta qué punto la crecimiento de los modelos pone opción a sus grandes problemas: primero eran manos poco humanas que más o menos se han ido arreglando, pero los textos deformes e ininteligibles seguían presentes en muchas imágenes generadas por IA. No en las de GPT-4o.

Comprensión contextual y refinamiento conversacional

Screenshot 2025 03 26 At 01 41 58 Introducing 4o Image Generation Openai
Screenshot 2025 03 26 At 01 41 58 Introducing 4o Image Generation Openai

OpenAI

Como parte nativa de ChatGPT, GPT-4o puede originar imágenes basadas en el historial de conversación, ajustar detalles bajo pedido y abastecer coherencia visual en múltiples iteraciones. Por ejemplo, un personaje de videojuego puede conservar su estilo visual a lo liberal de diferentes versiones.

Maduro capacidad de manejo de objetos

Screenshot 2025 03 26 At 01 42 39 Introducing 4o Image Generation Openai
Screenshot 2025 03 26 At 01 42 39 Introducing 4o Image Generation Openai

OpenAI

Mientras que otros modelos se limitan a representar con precisión entre 5 y 8 objetos, GPT-4o puede manejar entre 10 y 20 fundamentos distintos con atributos complejos (colores, formas, posiciones), gracias a una mejoría significativa en el "binding" o asociación de características.

Acomodo de estilo y realismo fotográfico

Screenshot 2025 03 26 At 01 42 27 Introducing 4o Image Generation Openai
Screenshot 2025 03 26 At 01 42 27 Introducing 4o Image Generation Openai

OpenAI

Ajabri Marx
Ajabri Marx

OpenAI

El maniquí puede originar imágenes en una gran variedad de estilos: desde bocetos a mano hasta fotografías hiperrealistas. Incluso es capaz de variar imágenes subidas por el sucesor para adaptarlas a un nuevo estilo o contexto.

Aplicaciones prácticas

La nueva funcionalidad de GPT-4o no se limita al arte por arte. Su efectivo poder radica en sus aplicaciones prácticas:

  • Diseño descriptivo y branding: creación de logotipos, banners y anuncios personalizados.
  • Educación: diagramas científicos, ilustraciones históricas y material didáctico visual.
  • Avance de videojuegos: iteración visual coherente de personajes y escenarios.
  • Marketing digital: contenido para redes sociales, presentaciones y promociones.

Adicionalmente, es posible personalizar las imágenes indicando proporciones, esquemas de color (incluso con códigos hexadecimales), fondos transparentes y mucho más.

Imagen GPT4o
Imagen GPT4o

Correlación 'prompt' / imagen resultante // OpenAI

Limitaciones actuales

A pesar de sus avances, el sistema no es valentísimo. Algunas de las limitaciones observadas por ahora incluyen:

  • Recortaduras no deseados en imágenes verticales largas (como pósteres).
  • Problemas con caracteres no latinos.
  • Texto muy pequeño que puede volverse ilegible.
  • Dificultad para editar partes específicas sin afectar otras.

OpenAI afirma estar trabajando activamente para aventajar estos problemas en futuras actualizaciones.

Medidas de seguridad y ética

GPT-4o incorpora varias medidas de seguridad para predisponer el uso indebido de la coexistentes de imágenes:

  • Metadatos C2PA: todas las imágenes generadas incluyen etiquetas que certifican su origen en IA.
  • Moderación de contenido: obstrucción forzoso de solicitudes que impliquen violencia, pornografía, deepfakes, o contenido nocivo.

OpenAI ha optado por una política más permisiva en cuanto a la representación de figuras públicas adultas, siempre que no se viole ninguna política de contenido. Los personajes públicos que lo deseen pueden solicitar que no se genere su imagen, lo que abre un espacio para usos positivos como la educación, la sátira o contenido histórico.

Imagen | Montaje por Marcos Merino a partir de imágenes de OpenAI mediante IA

En Genbeta | Esta IA de Google genera imágenes sin que tengamos que definirlas en texto: Whisk ya está arreglado en más de 100 países 

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram