Pensábamos que las nuevas IA alucinaban más que nunca. En realidad, el problema lo tiene OpenAI

Publicado el

mayo 8, 2025

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6170

La inteligencia industrial está experimentando un avance sin precedentes en capacidades y razonamiento, pero asimismo nos enfrentamos a un aberración estrambótico: mientras algunos modelos mejoran su precisión, otros parecen estar incrementando sus tasas de quimera.

Los datos recientes revelan una tendencia que contradice la novelística dominante en el sector. Y es que si proporcionadamente los últimos modelos de razonamiento de OpenAI (o3 y o4-mini) nos han deleitado con funciones avanzadas sorprendentes, su tasa de quimera es preocupante, aunque esto no parece estar extendiéndose en el resto de modelos de otras compañías.

Hay modelos con tasas de quimera muy bajas, pero ni o3 ni o4-mini están entre ellos

Cuando hablamos de "alucinaciones" en IA nos referimos a esas respuestas inventadas que los sistemas generan con total convicción pero que carecen de fundamento verdadero. Un problema que, según algunas conversaciones en torno al rendimiento de los modelos de IA, parecía estar empeorando con cada nueva gestación de modelos más avanzados.

Imagen: Vectara

Sin retención, los datos del benchmark de Vectara (Hallucination Leaderboard) muestran una efectividad diferente. Según esta clasificación actualizada a finales de abril de 2025, las tasas de quimera de los principales modelos de lengua no solo no están aumentando de forma generalizada, sino que algunos de los sistemas más recientes presentan los índices más bajos.

El esquema revela que modelos como Google Gemini-2.0-Flash-001 (0,7%), Google Gemini-2.0-Pro-Exp (0,8%) y Vectara Mockingbird-2-Echo (0,9%) lideran la clasificación con tasas inferiores al 1%, muy por debajo de la media.

En este panorama generalmente positivo destaca una importante excepción: OpenAI. Mientras sus competidores parecen estar mejorando en precisión, los nuevos modelos de la compañía muestran un comportamiento no deseado en términos de quimera.

Zuckerberg reconoce que Facebook ya no sirve para conectar amigos y familia. Y afirma que será la IA quien se haga 'amiga' nuestra

El maniquí o3-mini-high de OpenAI registra una tasa de quimera del 0,8%, lo que parece prometedor. Sin retención, esta signo contrasta fuertemente con los problemas reconocidos por la propia compañía en sus modelos de razonamiento más avanzados, como o3 y o4-mini.

Según Ethan Mollick, profesor en Wharton y perito en IA, el maniquí o3 presenta una tasa de quimera del 6,8%, una signo intranquilizante cuando se compara con sus competidores directos. Esta situación es particularmente preocupante porque ocurre precisamente en los modelos que OpenAI está promoviendo como su tecnología más vanguardia para resolución de problemas complejos.

Más inteligentes pero menos fiables

La situación plantea una paradoja interesante: los modelos con mayores capacidades de razonamiento de OpenAI, aquellos diseñados para realizar tareas más complejas y ejecutar con longevo autonomía, son asimismo los que presentan mayores problemas de fiabilidad en sus respuestas.

De igual guisa, Mollick asimismo menciona al galardonado DeepSeek R1, con una tasa de quimera del 14,3% según el benchmark, una signo congruo más seria. Mientras tanto, compañías como Google parecen acontecer contrario un mejor nivelación entre potencia y precisión. Sus modelos Gemini más recientes no solo ofrecen capacidades avanzadas sino que mantienen tasas de quimera notablemente bajas.

He puesto a la IA a ver todo lo que hago en mi navegador y sorprende tanto como asusta: así transforma Copilot mi forma de navegar

El complicado camino cerca de la AGI

Los datos sugieren que el enfoque de OpenAI, que prioriza capacidades de razonamiento cada vez más sofisticadas, podría estar sacrificando la fiabilidad básica de sus sistemas. De igual forma, ninguna compañía quiere que sus modelos no sean fiables, por lo que al menos tranquiliza que OpenAI sea consciente de que sus propios modelos tienen una longevo tasa de quimera, ya que eso les ayudará a corregir antaño los problemas que esto ocasione.

Esta claro que nos encontramos en un momento básico para la crecimiento de la IA generativa. La carrera por ganar una inteligencia industrial universal (AGI) está produciendo sistemas cada vez más potentes, pero el serio desafío será conseguir que esta potencia esté respaldada por una fiabilidad equivalente.

Imagen de portada | Levart_Photographer

En Genbeta | Un atlas detalla la investigación sobre cómo empresas de IA del mundo usan profesionales en África. Lo hacen a escondidas y pagando mal

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Pensábamos que las nuevas IA alucinaban más que nunca. En realidad, el problema lo tiene OpenAI

Hay modelos con tasas de quimera muy bajas, pero ni o3 ni o4-mini están entre ellos

Más inteligentes pero menos fiables

El complicado camino cerca de la AGI

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

Pensábamos que las nuevas IA alucinaban más que nunca. En realidad, el problema lo tiene OpenAI

Hay modelos con tasas de quimera muy bajas, pero ni o3 ni o4-mini están entre ellos

Más inteligentes pero menos fiables

El complicado camino cerca de la AGI

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes