
ARTDEPARTMENT

Si poco ha quedado claro con la irrupción de o3-mini es que la IA avanza a un ritmo imparable. Cada mes (o cada par de semanas), los modelos mejoran gracias a una combinación de fuerza bruta computacional y de innovaciones algorítmicas.
Y es que, recientemente, tras una semana en la que DeepSeek estuvo en boca de todos gracias a su inesperada eficiencia, OpenAI dio un sonoro trauma sobre la mesa con su maniquí o3-mini: no sólo ha superado al hasta ahora impresionante maniquí de IA 'made in China', sino que lo ha hecho con un rendimiento superior y un costo tres veces último.
Los datos son contundentes: o3-mini se destaca en diversas pruebas de narración. En el test ARC-AGI-1, esencia para determinar la capacidad de razonamiento de estos modelos, ha demostrado un seguridad magnífico entre precisión, costo y eficiencia computacional.
Otros test además muestran que el nuevo maniquí de OpenAI es más inteligente, rápido y financiero. Sorprendentemente, algunos, como Livebench, muestran que el recién llegado es capaz incluso de pasar a modelos de la serie o1, que son considerablemente más costosos.


Eso sí, DeepSeek sigue ganando a o3-mini en un aspecto en el que OpenAI no parece interesado en competir: es una IA 'open source' que puedes instalar en tu propio PC si así lo deseas

El dominio de o3-mini no solo se debe a la potencia bruta, sino además a su capacidad para "pensar ayer de objetar". OpenAI introdujo con o1 el concepto de 'esclavitud de pensamiento', permitiendo que la IA rumiara ayer de dar una respuesta.
Modelos como o3-mini y DeepSeek R1 han perfeccionado esta técnica, logrando que la inteligencia industrial hable consigo misma y evalúe distintas soluciones ayer de animarse.
Esto ha sido especialmente benefactor en tareas de razonamiento deductivo y matemático, donde se observan mejoras significativas. Adicionalmente, hace no mucho, se criticaba a los modelos generativos como ChatGPT por su bajo rendimiento en matemáticas: hoy en día, gracias precisamente a estos avances, esa afirmación ha quedado obsoleta.
Un aspecto extraordinario de la desarrollo de estos modelos es que el mejor en los test no siempre es el predilecto del sabido. Un caso paradigmático es el de Claude 3.5 Sonnet, que ha vacada popularidad no tanto por sus datos de rendimiento como por su "personalidad".
Este engendro demuestra que, encima de la precisión y eficiencia, los usuarios valoran la experiencia conversacional y la forma en que un maniquí se comunica.
Imagen | Marcos Merino Bonilla
En Genbeta | Sam Altman cree que OpenAI se equivocó con la visión con el código libre: DeepSeek lo ha cambiado todo
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!