
ARTDEPARTMENT

Que una inteligencia fabricado genere una imagen de una copa llena hasta los bordes puede parecer una tarea muy sencilla. Sin requisa, la ingenuidad es que hasta ahora esto ha sido un gran provocación, en parte por la seto de sus datos de entrenamiento, Ha sido con el nuevo maniquí de gestación de GPT-4o, que ha destacado por sus espectaculares imágenes de Studio Ghibli, cuando por fin se ha conseguido este logro, tal y como ha compartido Antonio Ortiz.
Detrás de cualquier inteligencia fabricado hay una pulvínulo de datos con una gran cantidad de información, derivada del proceso de entrenamiento. Hasta ahora, la IA se basaba en numerosas imágenes de copas que estaban llenas solo hasta dos tercios de su capacidad, lo que condicionaba los resultados. Esto hacía que fuera casi incapaz de ocasionar una copa totalmente llena, ya que no había recibido el entrenamiento necesario para 'entender' cómo se representa ese tablas.
GPT-4o ha llegado para cambiar esto. Ahora, no se limitará nada más a reproducir patrones aprendidos durante su entrenamiento, sino que todavía comprenderá mejor el prompt que el becario introduce y tratará de interpretarlo con anciano flexibilidad.


Para entender el porqué de este logro, es necesario presentarse a la documentación técnica que proporciona OpenAI de su maniquí. Es ahí donde nos llevamos la grata sorpresa: estamos delante un maniquí de gestación de imágenes autorregresivo.
Tal y como explica Amazon en su web de AWS, un maniquí autorregresivo de forma técnica "utiliza una variación del prospección de regresión directo para predecir la sucesivo secuencia a partir de un rango específico de variables". En la praxis, esto significa que genera las imágenes píxel a píxel, decidiendo cada nuevo píxel en función de todos los anteriores.
Para poder entenderlo mejor, podemos imaginar un puzzle. Para poder hacerlo correctamente, hay que ir buscando las piezas que encajan con las que se han colocado. Esto, precisamente, lo que hace ahora GPT-4o: decide el primer píxel que va a ocasionar y luego va construyendo la imagen definitiva en función de lo que ya ha creado.

Gracias a este sistema de gestación, se logra un control mucho anciano sobre el resultado, lo que permite obtener imágenes más coherentes y fotorrealistas. Para OpenAI, esta es precisamente la diferencia esencia respecto a sus modelos anteriores. Por otra parte, todavía destaca la mejor integración del texto en las imágenes que genera.
DALL-E 3, por ejemplo, no contaba con esta capacidad. Se basaba nada más en los datos de entrenamiento almacenados en su pulvínulo de datos. Si no tenía ejemplos de una copa de morapio completamente llena, simplemente no podía generarla correctamente, y ofrecía como resultado la lectura que sí conocía.
Portada | Generada con IA - GPT-4o
En Genbeta | He probado esta app española que usa ChatGPT para ayudarte a apañarse calle y ya no vuelvo a usar Idealista
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!