
ARTDEPARTMENT

La inteligencia industrial está experimentando un avance sin precedentes en capacidades y razonamiento, pero asimismo nos enfrentamos a un aberración estrambótico: mientras algunos modelos mejoran su precisión, otros parecen estar incrementando sus tasas de quimera.
Los datos recientes revelan una tendencia que contradice la novelística dominante en el sector. Y es que si proporcionadamente los últimos modelos de razonamiento de OpenAI (o3 y o4-mini) nos han deleitado con funciones avanzadas sorprendentes, su tasa de quimera es preocupante, aunque esto no parece estar extendiéndose en el resto de modelos de otras compañías.
Cuando hablamos de "alucinaciones" en IA nos referimos a esas respuestas inventadas que los sistemas generan con total convicción pero que carecen de fundamento verdadero. Un problema que, según algunas conversaciones en torno al rendimiento de los modelos de IA, parecía estar empeorando con cada nueva gestación de modelos más avanzados.

Imagen: Vectara
Sin retención, los datos del benchmark de Vectara (Hallucination Leaderboard) muestran una efectividad diferente. Según esta clasificación actualizada a finales de abril de 2025, las tasas de quimera de los principales modelos de lengua no solo no están aumentando de forma generalizada, sino que algunos de los sistemas más recientes presentan los índices más bajos.
El esquema revela que modelos como Google Gemini-2.0-Flash-001 (0,7%), Google Gemini-2.0-Pro-Exp (0,8%) y Vectara Mockingbird-2-Echo (0,9%) lideran la clasificación con tasas inferiores al 1%, muy por debajo de la media.
En este panorama generalmente positivo destaca una importante excepción: OpenAI. Mientras sus competidores parecen estar mejorando en precisión, los nuevos modelos de la compañía muestran un comportamiento no deseado en términos de quimera.

El maniquí o3-mini-high de OpenAI registra una tasa de quimera del 0,8%, lo que parece prometedor. Sin retención, esta signo contrasta fuertemente con los problemas reconocidos por la propia compañía en sus modelos de razonamiento más avanzados, como o3 y o4-mini.
Según Ethan Mollick, profesor en Wharton y perito en IA, el maniquí o3 presenta una tasa de quimera del 6,8%, una signo intranquilizante cuando se compara con sus competidores directos. Esta situación es particularmente preocupante porque ocurre precisamente en los modelos que OpenAI está promoviendo como su tecnología más vanguardia para resolución de problemas complejos.
La situación plantea una paradoja interesante: los modelos con mayores capacidades de razonamiento de OpenAI, aquellos diseñados para realizar tareas más complejas y ejecutar con longevo autonomía, son asimismo los que presentan mayores problemas de fiabilidad en sus respuestas.
De igual guisa, Mollick asimismo menciona al galardonado DeepSeek R1, con una tasa de quimera del 14,3% según el benchmark, una signo congruo más seria. Mientras tanto, compañías como Google parecen acontecer contrario un mejor nivelación entre potencia y precisión. Sus modelos Gemini más recientes no solo ofrecen capacidades avanzadas sino que mantienen tasas de quimera notablemente bajas.

Los datos sugieren que el enfoque de OpenAI, que prioriza capacidades de razonamiento cada vez más sofisticadas, podría estar sacrificando la fiabilidad básica de sus sistemas. De igual forma, ninguna compañía quiere que sus modelos no sean fiables, por lo que al menos tranquiliza que OpenAI sea consciente de que sus propios modelos tienen una longevo tasa de quimera, ya que eso les ayudará a corregir antaño los problemas que esto ocasione.
Esta claro que nos encontramos en un momento básico para la crecimiento de la IA generativa. La carrera por ganar una inteligencia industrial universal (AGI) está produciendo sistemas cada vez más potentes, pero el serio desafío será conseguir que esta potencia esté respaldada por una fiabilidad equivalente.
Imagen de portada | Levart_Photographer
En Genbeta | Un atlas detalla la investigación sobre cómo empresas de IA del mundo usan profesionales en África. Lo hacen a escondidas y pagando mal
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!