ARTDEPARTMENT

Solicitar una consulta

La paradoja de que los nuevos modelos de OpenAI alucinen más que sus antecesores mientras son capaces de hacer cosas increíbles

Publicado el 
abril 21, 2025

En los últimos días y semanas, hemos presenciado un brinco cualitativo en las capacidades de los modelos de IA, especialmente con la aparición de los nuevos sistemas de razonamiento de OpenAI (o3 y o4-mini) y de sus competidores (como Gemini 2.5 Pro, de Google).

Estas nuevas versiones deslumbran con su evidente inteligencia común, su capacidad para resolver problemas complejos y su sorprendente tacto para efectuar como agentes autónomos. Sin incautación, esta sofisticación viene acompañada de un engendro inquietante: alucinan más que nunca y siguen fallando en tareas absurdamente sencillas.

Algunos expertos ya denominan a esto la 'AGI dentada', en relato a la AGI (o 'IA común'), el próximo paso en la proceso de la IA... y a los 'altos y bajos' con que se manifiesta según la tarea que aborde.

Superpoderes en la estrato: IA que hace lo que antiguamente parecía inútil

Los nuevos modelos como o3 no solo entienden preguntas complejas, sino que las resuelven tomando decisiones autónomas, usando herramientas, accediendo a la web, escribiendo código, generando imágenes y organizando información —todo a partir de un único mensaje de texto.

Una de las empresas que mejor usa la IA sufrió gravemente una IA que alucina: se inventó una respuesta mientras hacía de soporte

En compendio, estamos presenciando la superación de la tradicional figura del chatbot en servicio de sistemas capaces de efectuar por iniciativa propia para alcanzar objetivos complejos.

Un ejemplo sorprendente es el caso documentado por Ethan Mollick: al pedirle a o3 que creara un negocio para la traspaso de quesos por correspondencia, este no solo inventó 20 eslóganes, sino que eligió el mejor, desarrolló un plan financiero, analizó a la competencia, generó un logotipo, construyó un sitio web y sugirió productos acordes al perfil de marca… ¡todo en una sola interacción y en menos de dos minutos!

Httpssubstack Post Media S3 Amaz
Httpssubstack Post Media S3 Amaz

vía Ethan Mollick

Y no es un caso arrinconado: estos modelos incluso pueden analizar bases de datos desconocidas y originar informes estadísticos con visualizaciones profesionales, identificar ubicaciones geográficas con solo una imagen ("modo geo-guesser"), o alterar artículos académicos en videojuegos interactivos.

Esta capacidad para "razonar", es aseverar, encadenar múltiples pasos lógicos de forma coherente y con propósito, parece arrimar a la IA a una forma embrionaria de inteligencia común (AGI).

Incluso expertos como el economista Tyler Cowen se atreven a determinar que con o3 ya hemos cruzado el umbralado de la AGI, o al menos entrado en lo que él vehemencia una 'AGI actos', útil aunque no perfecta.

El otro banda del espejo: más razonamiento, más alucinaciones

Pero este nuevo poder viene con una paradoja preocupante: los modelos más avanzados incluso son los que más se equivocan. Según un documentación técnico de OpenAI (PDF), tanto o3 como o4-mini presentan tasas de visión significativamente más altas que sus predecesores. En pruebas internas, o3 falló el 33% de las veces en una prueba de conocimientos personales (PersonQA), el doble que modelos anteriores como o1, o o3-mini.

Las alucinaciones no son simples errores. Son afirmaciones falsas presentadas con total convicción, como inventarse enlaces web, atribuirse acciones imposibles o crear referencias completamente ficticias.

Esto no resultará muy extraño para los que venimos usando ChatGPT desde su emanación (GPT-3 funcionaba exactamente así), pero pone en peligro su prohijamiento en sectores donde la tecnología de OpenAI se estaba implementando ya, pero en los que la certeza es crítica (como el legal, médico o estudiado).

Las inteligencias artificiales 'mienten' porque alucinan, y el ChatGPT de Bing alucina aún más. Los JPG ayudan a entender por qué

Y lo más desconcertante es que ni siquiera OpenAI sabe exactamente por qué está pasando: la hipótesis coetáneo es que los métodos de entrenamiento por refuerzo usados para mejorar el razonamiento podrían estar amplificando los sesgos y errores en espacio de corregirlos. Irónicamente, al hacer a los modelos más "inteligentes", los estamos haciendo incluso más propensos a equivocarse de forma sofisticada.

Si eso acerca o aleja la IA a la inteligencia humana, ya es tema de debate...

El dilema de la frontera dentada: ¿genios con pies de comedón?

Esta contradicción ha sido bautizada por algunos investigadores como la 'frontera dentada' de la inteligencia sintético: una IA que puede exceder a expertos humanos en tareas extremadamente difíciles, pero fracasar en ejercicios triviales que no desafiarían ni a un escuincle.

Un ejemplo ilustrativo es el resultado de someter a los nuevos modelos de OpenAI a la lectura modificada de un enigma clásico:

"Un escuincle llega a urgencias tras un desnivel. El cirujano lo ve y dice: '¡Puedo intervenir a este escuincle!'. ¿Cómo es esto posible?".

Frente a eso 03 contesta, "el cirujano es la raíz", lo cual carece de sentido... hasta que recuerdas que la lectura clásica del enigma reza así (y recuerda que, en inglés, 'cirujano' es una palabra de tipo neutro):

"Un escuincle llega a urgencias tras un desnivel. El cirujano lo ve y dice: ‘¡No puedo intervenir, es mi hijo!’ ¿Cómo es esto posible?".

Así que la IA ofrece una respuesta válida para la lectura innovador del enigma, pero incorrecta para esta modificación: el maniquí no logra abstraerse del patrón más popular en su entrenamiento y rotura al pluralizar. Incluso insiste en que el cirujano es "la raíz" cuando el prompt indica que es un cirujano varón.

Este engendro subraya un hecho crucial: la IA coetáneo no 'comprende' el mundo, sino que navega en un mar de correlaciones aprendidas. Puede 'razonar', pero ese 'razonamiento' no siempre parte de una comprensión profunda o contextual del problema.

Quizás lo más sensato, por ahora, sea no obsesionarnos con etiquetar a estas IAs como AGI o 'no AGI'

¿Con destino a una AGI auténtico… o un solo espejismo?

Entonces, ¿qué tenemos en realidad entre manos? ¿Estamos frente a una AGI incompleta o solo una ilusión de inteligencia vanguardia? La verdad es que no hay consenso: el término AGI (Inteligencia Sintético Universal) sigue siendo tenue y mal definido: ¿debe una IA igualar a un humano promedio? ¿A un práctico? ¿En qué tareas?

Lo que sí parece claro es que estamos en presencia de un nuevo tipo de IA, más parecida a un asistente con 'superpoderes' que a una simple útil de software. Esta 'AGI dentada' ya está transformando la forma en que investigamos, diseñamos productos, programamos o hacemos negocios... aunque sus errores siguen siendo un rémora.

Imagen | Marcos Merino mediante IA

En Genbeta | Acabamos de descubrir que a la IA le pasa como a los humanos: para tener más ideas necesita más tiempo 

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram