primera vez que lanza un modelo y no consigue brillar en rendimiento

Publicado el

abril 15, 2025

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6131

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6131

OpenAI ha presentado su nueva comunidad de modelos de estilo: GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano. Aunque se anuncian como una desarrollo significativa respecto a sus predecesores con una ventana de contexto de hasta un millón de tokens y centrada especialmente en programación, lo cierto es que no han conseguido exceder a la competencia directa, especialmente a Gemini 2.5 Pro de Google, que continúa liderando los principales benchmarks.

Este dispersión supone un punto de inflexión para OpenAI. Tal y como señala el investigador en IA Pierre Bongrand, es la primera vez que la compañía pica un maniquí tras Google y se queda muy por detrás en rendimiento. Adicionalmente, este dispersión viene acompañado de cierta inestabilidad en la organización de producto, con la retirada inminente de GPT-4.5, maniquí que se había presentado con gran esperanza y que desaparecerá de ChatGPT el 30 de abril.

Gemini 2.5 Pro sigue liderando los ránkings

Los benchmarks publicados tras el anuncio han dejado clara la superioridad de Gemini 2.5 Pro. En particular, en el test GPQa, diseñado para evaluar el razonamiento en tareas de nivel posgrado, Gemini se posiciona a la vanguardia, muy por delante de GPT-4-1, y que ha quedado evidenciado en la gráfica publicada por Bongrand en sus redes sociales.

Pulsa en la imagen para ceder a la publicación.

Lo más preocupante para OpenAI es que, pese a tener precios similares por millón de tokens, el rendimiento de GPT-4.1 está muy por debajo. Esto ha generado desencanto, ya que se rompe una "tradición" que tenía OpenAI de sobresalir sobre los modelos que se habían arrojado anteriormente.

OpenAI igualmente ha arrojado versiones más ligeras: GPT-4.1 Mini, que apunta a ser una alternativa económica internamente del ecosistema. Su rendimiento no dista demasiado del maniquí principal, pero su competencia directa es Gemini 2.0 Flash, donde nuevamente Google se impone en términos de relación calidad-precio.

Pulsa en la imagen para ceder a la publicación en Reddit.

Si hablamos en términos de precios entre estos dos modelos económicos, igualmente encontramos claras diferencias, donde Gemini destaca por ser mucho más financiero, mientras que su rival en GPT es más caro y con un imprudente mejor rendimiento:

Gemini 2.0 Flash tiene un coste por millón de tokens inferior a 0,20 dólares.
GPT-4.1 Mini, por su parte, ronda los 0,70 dólares por millón de tokens.

Enfrentamos a las IA en los benchmarks

Si nos vamos a la web de Docsbot.ai, se puede hacer una comparativa exhaustiva de los modelos en diferentes test donde se evidencia que OpenAI todavía tiene conveniente remotamente a Gemini 2.5 Pro.

bENCHMARK	GEMINI 2.5 PRO	GPT-4.1	GEMINI 2.5 FLASH	GPT-4.1 MINI
MMLU	-	90,2%	-	87,5%
Mundial mmlu	89,8%	87,3%	83,4%	78,5%.
GPQa	84%	66,3%	60,1%	65%
AIME2024	92%	48,1%		49,6%
IFEVAL	-	87,4%	-	84,1%
Humanity's last examen	18,8%	-	-	-
swe-bench	63,8%	54,6%	-	23,6%
mmmu	81,7%	74,8%	71,7%	72,7%
mathvista	-	72,2%	-	73,1%

En este mismo sitio web, igualmente se detalla que el precio de entrada de tókens de Gemini 2.0 Flash es de 0,10 dólares, mientras que GPT-4.1 Mini tiene un precio cuatro veces superior. Lo mismo ocurre en el precio de salida, con 0,4 dólares por millón de tókens en Gemini y 1,60$ por millón de tókens en GPT-4.1 Mini.

Una refriega de modelos cada vez más ajustada

Esta nueva batalla en el circunscripción de la IA confirma que la competencia está más activa que nunca. OpenAI ha mejorado respecto a sí misma, con GPT-4.1 como uno de sus modelos más potentes hasta la data. Sin confiscación, cuando se compara con otros actores del mercado, emergen serias inconsistencias tanto en eficiencia económica como en rendimiento técnico.

Lo que antiguamente era habitual —que OpenAI encabezara los rankings con cada nuevo maniquí— ya no parece resguardado. A ello se suma la retirada discreta de GPT-4.5, que desaparece sin activo dejado una huella destacable.

He probado Firebase Studio de Google: en un minuto he creado mi propia app con IA. Y lo he hecho gratis y en mi navegador

Mientras tanto, modelos como Claude 3.5 y 3.7 continúan mejorando su rendimiento, incluso rozando el nivel humanoen ciertas tareas, lo que igualmente pone presión sobre OpenAI.

Todo indica que OpenAI no atraviesa su mejor momento en cuanto a lanzamientos de modelos. Pese a seguir innovando, ya no lidera los rankings como antiguamente, ni consigue diferenciarse claramente en precio o calidad. La retirada de GPT-4.5 y los resultados de GPT-4.1 abren una nueva etapa en la que la competencia —liderada por Google y Anthropic— parece estar marcando el paso.

Imágenes | Solen Feyissa

En Genbeta | Este profesor da un punto extra a los alumnos que usen ChatGPT en las prácticas. Si no puedes con el enemigo, únete a él

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

primera vez que lanza un modelo y no consigue brillar en rendimiento

Gemini 2.5 Pro sigue liderando los ránkings

Enfrentamos a las IA en los benchmarks

Una refriega de modelos cada vez más ajustada

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

primera vez que lanza un modelo y no consigue brillar en rendimiento

Gemini 2.5 Pro sigue liderando los ránkings

Enfrentamos a las IA en los benchmarks

Una refriega de modelos cada vez más ajustada

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes