
ARTDEPARTMENT

Las nuevas capacidades multimodales de o3 y o4-mini son impresionantes, como demuestra la tacto del primero para geolocalizar una foto que le indiquemos. Para OpenAI no parece ser suficiente, pues un par de meses a posteriori de su extensión han audaz o3-pro, a la aplazamiento de una nueva reproducción razonadora.
Si o3 se basó en integrar más herramientas en la prisión de pensamiento de su función razonadora, con o3-pro potencian esa dirección, destacando en pruebas con examinadores humanos. En ellas, un 64,9% prefirieron o3-pro frente a o3 en prospección estudiado, un 66,7% en escritura personal, un 62,7% en programación y un 64,3% en prospección de datos.
Hay que recapacitar que todas estas cifras son compartidas por OpenAI, por lo que habrá que esperar a prospección externos, pero de momento, siempre guardan relación con la ingenuidad una vez el maniquí está audaz (no así en o3 y en Sora cuando fueron mostrados por primera vez, pues prometieron cifras más altas y vídeos de más calidad que los que luego lograron en el maniquí comercial). Para mejorar los resultados de o3, OpenAI ha recurrido a una etapa extra de entrenamiento por refuerzo

Porcentajes de conquista de o3 pro sobre el o3 normalizado
En el sentido de lo que hablábamos, o3 Pro ha llegado prometiendo saltos importantes respecto a o3. Desde OpenAI citan un mejoría de tres puntos porcentuales en la prueba de matemáticas AIME 2024 y de preguntas científicas GPQA Diamond, con una delantera del 9% en Codeforces, una prueba de programación.
Su resultado rotundo en esta prueba es de 2748 puntos de ELO, y ahora sí, supera los 2727 puntos que OpenAI prometió para o3 en diciembre, meses ayer de su extensión. Finalmente, o3 se quedó en 2517 puntos, poco que decepcionó en el extensión. Con estos resultados, o3 pro ocuparía la posición 159 de la prueba hecha por programadores humanos, mientras que el resultado de o3 caería hasta el pusto 400.
Para lograrlo, eso sí, han tenido que apelar a un maniquí más pesado y moroso que o1-pro, por lo que OpenAI lo recomienda solo cuando coste fiabilidad sobre velocidad y merece la pena esperar algunos minutos.

Así, a error de que desarrolladores expertos lo prueben, o3 pro se sitúa como un gigante de la programación, como igualmente han demostrado ser las últimas versiones de Gemini 2.5 Pro o de Claude 4. El problema es que, a diferencia de lo que ocurre en los lanzamientos de Google o Anthropic, OpenAI no ofrece una tabla de benchmarks donde se compare con la competencia.
Siquiera ellas dan cifras directamente comparables a las que hoy ha ofrecido la compañía de Sam Altman, que para la prueba de matemáticas ha ofrecido números de la prueba AIME 2024, mientras que Claude y Anthropic ya usan la interpretación de 2025. En este sentido, siquiera OpenAI ha hecho públicas cifras de pruebas realizadas por terceros como las de LMArena (que por Meta sabemos que pueden tener romance pequeña).

Resultados en pruebas de matemáticas, ciencias y programación.
En cuanto a su disponibilidad, no hay sorpresas. o3 Pro llegará desde hoy a los usuarios que paguen los 200 euros que cuesta la suscripción Pro de ChatGPT, así como a la API de desarrolladores. Los usuarios de empresas y educación lo recibirán interiormente de una semana.
En cuanto a coste poco muy interesante es que OpenAI ha rebajado un 80% el precio de o3 respecto a lo que costaba hasta ahora, y ahora es un 20% más saldo que GPT-4o. o3 pro, por su parte, es un 87% más saldo que o1 pro, el maniquí al que llega a suceder en tareas avanzadas. Es impresionante el ritmo al que se están abaratando las inteligencias artificiales más avanzadas. Los precios de Google, eso sí, siguen siendo imbatibles.
Imagen | Marcos Merino con IA
Más información | OpenAI
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!