
ARTDEPARTMENT

El debate sobre las "alucinaciones" de la inteligencia químico, esas respuestas seguras, pero completamente falsas que generan los modelos de habla, ha estado sobre la mesa desde el auge de ChatGPT. Mientras algunos consultores y autoproclamados gurús prometían soluciones mágicas para eliminarlas, los expertos más cautos advertían de su naturaleza inherente.
Ahora, OpenAI, en un adiestramiento de transparencia, ha zanjado el debate con un nuevo paper que confirma lo que muchos sospechaban: las alucinaciones son, por ahora, un mal necesario.
Como un tipo test. Para entenderlo, OpenAI propone una conexión muy clara: un examen con múltiples opciones. Si un estudiante no sabe la respuesta, dejarla en planta le garantiza que ni le sume ni le reste puntuación (porque se puede suspender fácilmente arriesgándose al azar). Pero en el caso de la inteligencia químico siempre se arriesga con la respuesta que da porque no puede aseverar 'no lo sé' como si ocurre con un estudiante.

Si tienes cuatro opciones por delante, hay un 25% de posibilidades de dar con y a este pequeño resquicio es al que se aferra la inteligencia químico de ChatGPT para ofrecer una respuesta. Y la desliz es de los sistemas de evaluación de las inteligencias artificiales. Estos valoran siempre que la IA dé una respuesta, aunque textualmente se las acabe inventando.
Un maniquí que dice "no sé" es penalizado, mientras que uno que "adivina" y acierta por casualidad es recompensado. A gran escalera, esto crea modelos que priorizan dar una respuesta, cualquiera, antaño que permitir su propia incertidumbre.
La propia OpenAI explica con un ejemplo lo que ocurre. Apunta a que si suponemos que a un maniquí le pedimos que adivine la aniversario de cumpleaños de una persona, tiene una posibilidad entre 365 de tener razón. Proponer 'no lo sé' le garantiza cero puntos.
Qué dice el habituado. Leon Palafox, profesor en la Universidad Panamericana Ciudad de México, apunta en X a lo ulterior:
Según un nuevo paper de OpenAI las alucinaciones son inevitables en los LLMs. No existe una forma teórica de eliminarlas — a menos que aceptemos que el maniquí diga “no sé”. Y aun así, en escenarios abiertos seguirán apareciendo. Así que acuérdate de esto la próxima vez que un consejero te diga que puede “eliminar” las alucinaciones. A lo mucho se pueden administrar. Pero erradicarlas por completo… eso no es cómo funciona esta tecnología.
Los datos. A través de una ilustradora tabla en su paper, OpenAI ha querido comparar las tasas de error de sus principales modelos de IA. Y aunque el maniquí antiguo (04-mini) tiene una tasa de tino tenuemente superior, su tasa de errores es abrumadoramente más ingreso, de un 75%. Todo ello porque casi nunca se abstiene de contestar o aseverar 'no lo sé'.
El nuevo maniquí, aunque acierta un poco menos, es mucho más fiable porque "sabe" cuándo no sabe la respuesta y su tasa de alucinaciones se desploma al 26%. El problema es que las tablas de clasificación y los benchmarks que dominan la industria siguen premiando la primera organización, la del "adivinador afortunado".
El origen del problema. Para poder entender el porqué hay que conocer cómo funciona una IA: con la predicción de la ulterior palabra. Los grandes modelos siguen un proceso de entrenamiento muy importante donde se analizan grandes cantidades de textos. Esto hace por ejemplo, que sea muy raro que una IA comenta faltas ortográficas correcto a que sigue reglas consistentes. Y en todo momento la IA está prediciendo la ulterior palabra a la hora de ocasionar un gran texto.
"A diferencia de los problemas tradicionales de educación forzoso, no hay etiquetas “efectivo/aparente” adjuntas a cada exposición. El maniquí sólo ve ejemplos positivos de habla fluido y debe aproximarse a la distribución común.", explica OpenAI.
Sin requisa, los datos fácticos, como la aniversario de partida de una persona o el título de su proposición doctoral, son arbitrarios. No siguen un patrón predecible. Cuando un maniquí no tiene un nota concreto, en empleo de detenerse, su entrenamiento lo empuja a "rellenar el hueco" con la secuencia de palabras que le parece más plausible estadísticamente. El resultado es una respuesta que suena convincente, pero que es falsa.
Dirigir, no eliminar. La conclusión de OpenAI es clara y resuena con la advertencia de Palafox: debemos ser escépticos delante cualquiera que prometa "eliminar" las alucinaciones. La decisión no pasa por crear modelos más y más grandes con la esperanza de que la precisión llegue al 100% (poco inalcanzable, pues hay preguntas inherentemente incontestables), sino por cambiar el ejemplo.
La secreto está en premiar la "humildad" de la IA. Es necesario rediseñar las métricas de evaluación para que penalicen duramente los errores confiados y den valía a las abstenciones. Como afirma OpenAI, "un maniquí pequeño puede conocer mejor sus límites". De esta modo, la decisión pasaría básicamente por el hecho de que la IA reconozca que no conoce poco antaño de ocasionar poco inventado 'por cumplir'.
Mitos derribados. El artículo de OpenAI hace hincapié en la necesidad de desmontar algunas ideas preconcebidas sobre este problema. Algunos de estos mitos sobre las alucinaciones son los siguientes:
Los gurús siguen 'solucionando'. Pese a que la propia OpenAI, una de las mayores empresas en este campo, reconoce que las alucinaciones son reales y que a día de hoy no se pueden controlar las redes sociales se llenan de 'expertos' defendiendo lo contrario.
Paradójicamente, el mismo día que OpenAI publicada este paper, un usuario compartía un prompt creado para que ChatGPT no pueda alucinar nunca más. Y como este hay una gran cantidad de personas que se creen auténticos expertos en IA y que tienen más conocimientos que los propios ingenieros de modelos como GPT. Pero delante este caso hay que desconfiar de todos los prompts 'milagrosos' que se pueden ver en redes sociales.
En Genbeta | He probado Comet y siento que estoy delante el navegador del futuro. A Chrome se le ha puesto cara de Internet Explorer
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!