
ARTDEPARTMENT

OpenAI ha presentado su nueva comunidad de modelos de estilo: GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano. Aunque se anuncian como una desarrollo significativa respecto a sus predecesores con una ventana de contexto de hasta un millón de tokens y centrada especialmente en programación, lo cierto es que no han conseguido exceder a la competencia directa, especialmente a Gemini 2.5 Pro de Google, que continúa liderando los principales benchmarks.
Este dispersión supone un punto de inflexión para OpenAI. Tal y como señala el investigador en IA Pierre Bongrand, es la primera vez que la compañía pica un maniquí tras Google y se queda muy por detrás en rendimiento. Adicionalmente, este dispersión viene acompañado de cierta inestabilidad en la organización de producto, con la retirada inminente de GPT-4.5, maniquí que se había presentado con gran esperanza y que desaparecerá de ChatGPT el 30 de abril.
Los benchmarks publicados tras el anuncio han dejado clara la superioridad de Gemini 2.5 Pro. En particular, en el test GPQa, diseñado para evaluar el razonamiento en tareas de nivel posgrado, Gemini se posiciona a la vanguardia, muy por delante de GPT-4-1, y que ha quedado evidenciado en la gráfica publicada por Bongrand en sus redes sociales.
Lo más preocupante para OpenAI es que, pese a tener precios similares por millón de tokens, el rendimiento de GPT-4.1 está muy por debajo. Esto ha generado desencanto, ya que se rompe una "tradición" que tenía OpenAI de sobresalir sobre los modelos que se habían arrojado anteriormente.
OpenAI igualmente ha arrojado versiones más ligeras: GPT-4.1 Mini, que apunta a ser una alternativa económica internamente del ecosistema. Su rendimiento no dista demasiado del maniquí principal, pero su competencia directa es Gemini 2.0 Flash, donde nuevamente Google se impone en términos de relación calidad-precio.
Si hablamos en términos de precios entre estos dos modelos económicos, igualmente encontramos claras diferencias, donde Gemini destaca por ser mucho más financiero, mientras que su rival en GPT es más caro y con un imprudente mejor rendimiento:
Si nos vamos a la web de Docsbot.ai, se puede hacer una comparativa exhaustiva de los modelos en diferentes test donde se evidencia que OpenAI todavía tiene conveniente remotamente a Gemini 2.5 Pro.
|
bENCHMARK |
GEMINI 2.5 PRO |
GPT-4.1 |
GEMINI 2.5 FLASH |
GPT-4.1 MINI |
|---|---|---|---|---|
|
MMLU |
- |
90,2% |
- |
87,5% |
|
Mundial mmlu |
89,8% |
87,3% |
83,4% |
78,5%. |
|
GPQa |
84% |
66,3% |
60,1% |
65% |
|
AIME2024 |
92% |
48,1% |
49,6% |
|
|
IFEVAL |
- |
87,4% |
- |
84,1% |
|
Humanity's last examen |
18,8% |
- |
- |
- |
|
swe-bench |
63,8% |
54,6% |
- |
23,6% |
|
mmmu |
81,7% |
74,8% |
71,7% |
72,7% |
|
mathvista |
- |
72,2% |
- |
73,1% |
En este mismo sitio web, igualmente se detalla que el precio de entrada de tókens de Gemini 2.0 Flash es de 0,10 dólares, mientras que GPT-4.1 Mini tiene un precio cuatro veces superior. Lo mismo ocurre en el precio de salida, con 0,4 dólares por millón de tókens en Gemini y 1,60$ por millón de tókens en GPT-4.1 Mini.
Esta nueva batalla en el circunscripción de la IA confirma que la competencia está más activa que nunca. OpenAI ha mejorado respecto a sí misma, con GPT-4.1 como uno de sus modelos más potentes hasta la data. Sin confiscación, cuando se compara con otros actores del mercado, emergen serias inconsistencias tanto en eficiencia económica como en rendimiento técnico.
Lo que antiguamente era habitual —que OpenAI encabezara los rankings con cada nuevo maniquí— ya no parece resguardado. A ello se suma la retirada discreta de GPT-4.5, que desaparece sin activo dejado una huella destacable.

Mientras tanto, modelos como Claude 3.5 y 3.7 continúan mejorando su rendimiento, incluso rozando el nivel humanoen ciertas tareas, lo que igualmente pone presión sobre OpenAI.
Todo indica que OpenAI no atraviesa su mejor momento en cuanto a lanzamientos de modelos. Pese a seguir innovando, ya no lidera los rankings como antiguamente, ni consigue diferenciarse claramente en precio o calidad. La retirada de GPT-4.5 y los resultados de GPT-4.1 abren una nueva etapa en la que la competencia —liderada por Google y Anthropic— parece estar marcando el paso.
Imágenes | Solen Feyissa
En Genbeta | Este profesor da un punto extra a los alumnos que usen ChatGPT en las prácticas. Si no puedes con el enemigo, únete a él
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!