
ARTDEPARTMENT

OpenAI ha escaso un nuevo hito en su apetencia por obtener desarrollar la 'IA Caudillo'. Y es que, un hecho que ya se cataloga como histórico, un maniquí de idioma y razonamiento de la compañía (empírico y aún sin nombre oficial) ha rematado hacerse con una medalla de oro en la Olimpíada Internacional de Matemáticas (IMO, por sus siglas en inglés) de 2025, realizada en Sunshine Coast, Australia.
La IMO es considerada la competición matemática más prestigiosa del mundo, reservada a los mejores estudiantes de secundaria: cada año, países de todo el mundo envían equipos con un mayor de seis jóvenes prodigios para resolver problemas de matemáticas avanzadas —álgebra, geometría, teoría de números y combinatoria— que exigen no solo astucia técnica sino igualmente un nivel destacable de creatividad.
El maniquí de OpenAI resolvió cinco de los seis problemas del examen oficial, obteniendo 35 de los 42 puntos posibles, una puntuación suficiente para alcanzar la codiciada medalla de oro. De hecho, sólo el 10% de los 630 participantes humanos logró tal distinción.
La IA, encima, fue evaluada bajo las mismas condiciones que los participantes humanos: dos sesiones de 4,5 horas, sin ataque a Internet ni a herramientas externas, y redactando las soluciones en idioma natural. Las soluciones del maniquí (que están disponibles en GitHub) han sido evaluadas de forma anónima por exmedallistas de la IMO.
En palabras de Sebastien Bubeck, investigador de OpenAI,
"Solo para que quede claro: una máquina de predicción de palabras —porque eso es lo que es— acaba de producir demostraciones creativas genuinas para problemas matemáticos difíciles y novedosos, a un nivel sólo escaso por un puñado de prodigios humanos".

Lo más sorprendente no es solo el resultado, sino cómo se obtuvo. A diferencia de modelos anteriores como AlphaGeometry de DeepMind —diseñado específicamente para resolver problemas de geometría—, el maniquí de OpenAI es un sistema de idioma de propósito universal... que en ningún momento había recibido un entrenamiento específico para la IMO.
Según Alexander Wei, líder del plan, su rendimiento se alcanzó mediante nuevas técnicas en enseñanza por refuerzo y escalamiento del enumeración en tiempo de prueba, sin pobreza de ajustes especializados.
"Este maniquí piensa durante horas. No lo hace rápido, pero lo hace proporcionadamente", explicó Noam Brown, otro miembro del equipo. La esencia parece estar en la combinación de razonamiento prolongado, estructura método y capacidad de síntesis novelística.
Todo esto contrasta con otros modelos de idioma, incluyendo el propio GPT-4 y competidores como Gemini 2.5 Pro, DeepSeek-R1 o Grok-4, que fueron incapaces de alcanzar siquiera la puntuación mínima para obtener una medalla de bronce en pruebas similares, según datos de la plataforma MathArena.
El CEO de OpenAI, Sam Altman, no ha dudado en encasillar esto como "un indicador significativo de cuánto ha reformista la IA en la última lapso". Y es que, para OpenAI, esta correr representa no solo un paso en el dominio matemático, sino un avance crucial con destino a la inteligencia universal químico (AGI).
Por eso, la compañía dejó claro que esta traducción del maniquí no será liberada al notorio en el corto plazo, aunque sí confirmó la próxima venida de GPT-5, que no incluirá esta capacidad descubierta aún. La compañía subraya que se comercio de un prueba de investigación y que pasarán meses ayer de considerar una traducción comercial del maniquí con estas habilidades.
Aun así, afirman que el resultado fue tan sorprendente que incluso adentro de OpenAI no se esperaba obtener un rendimiento de este calibre tan pronto.

Circulan incluso rumores de que DeepMind igualmente habría rematado una medalla de oro este año, pero sin anuncio oficial hasta el momento. En cualquier caso, sí sabemos que en 2024, sus sistemas AlphaProof y AlphaGeometry alcanzaron medalla de plata resolviendo cuatro de seis problemas.
A diferencia de OpenAI, DeepMind ha seguido una ruta más especializada, combinando IA con algoritmos clásicos de búsqueda para tocar los desafíos matemáticos. Sin retención, el generalista Gemini 2.5 Pro obtuvo tan pronto como 13 puntos en las mismas pruebas, y entre sus respuestas se multiplicaron los errores lógicos y los argumentos incompletos.
Incluso críticos conocidos del optimismo en IA, como el irrefutable Gary Marcus, calificaron de "genuinamente impresionante" el logro del maniquí de OpenAI. Sin retención, igualmente lanzó algunas preguntas esencia: ¿cuál fue el costo computacional por problema? ¿Cómo de reproducible es esta correr? Y, quizás lo más importante, ¿para qué sirve esto, más allá de una demostración espectacular? Aun así, reconoció que "no podemos ignorar esto".
Imagen | Marcos Merino
En Genbeta | GPT-5: qué es, cómo funcionará y toda la información que sabemos
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!