
ARTDEPARTMENT

Los investigadores de la empresa de inteligencia fabricado o IA Anthropic, creadores de Claude, afirman acontecer rematado un avance muy importante en la comprensión de cómo funcionan exactamente los grandes modelos de lengua (LLM por sus siglas en inglés). Concretamente, dicen poder comprender ahora mejor sus cajas negras.
Uno de los problemas de las herramientas de IA que usamos, basada en grandes modelos lingüísticos (LLM), es que los modelos son cajas negras. Podemos conocer qué instrucciones les damos y qué resultados producen, pero cómo llegan exactamente a una respuesta concreta es un intriga, incluso para investigadores y desarrolladores de las diferentes soluciones de inteligencia fabricado que usamos a menudo.

Por ejemplo, en el caso de Google, su CEO Sundar Pichai, ya explicó en el pasado que en el "sector llamamos una "caja negra" cuando poco no se entiende completamente”. Es sostener, que ni sus creadores pueden sostener muy adecuadamente por qué una IA hizo poco, por qué hubo un error en el proceso hasta conservarse al resultado. Con el problema de las cajas negras resulta difícil predecir las probabilidades de que un maniquí vaya a arrojar información errónea.
Como publicaba a finales de 2023 Scientific American, las cajas negras de IA se refieren al funcionamiento interno de sistemas de inteligencia fabricado que son invisibles para el heredero: una IA "puede proporcionar información y obtener resultados, pero "no puede examinar el código del sistema o la razonamiento que produjo el resultado".
Ahora Anthropic dice tener maduro claridad en este asunto. La firma ha realizado una investigación que ofrece una vía para resolver algunos de estos problemas y, para ello, los científicos crearon una aparejo para descifrar cómo "piensan" los LLM. Esta investigación sirve para comprender sus herramientas y igualmente cualquier otra IA.
'Sgroogled.com': cuando MICROSOFT lanzaba anuncios ANTI-GOOGLE
Básicamente, lo que los investigadores de Anthropic han creado para la comprensión de la IA se parece a los escáneres fMRI que los neurocientíficos utilizan para escanear el cerebro de los sujetos humanos de investigación y descubrir qué regiones cerebrales parecen desempeñar el papel más importante en diferentes aspectos de la cognición.
Tras inventar esta aparejo similar a la IRMf, Anthropic la aplicó al maniquí Claude 3.5 Haiku de Anthropic. De este modo, pudieron resolver varias cuestiones esencia sobre el funcionamiento de Claude y, de acuerdo con la información compartida, creen que puede servir para la mayoría de los LLM.

Los investigadores de Anthropic y otros centros estudian los grandes modelos lingüísticos como si fueran fenómenos naturales y no programas informáticos creados por el hombre. Esto se debe a que los modelos se entrenan, no se programan, tal y como explican desde el Instituto Tecnológico de Massachusetts o MIT.
Entre otros asuntos, afirman desde la empresa que se plantearon cuestiones para luego resolverlas y comprender mejor a su IA, Quisieron conocer, por ejemplo, que si Claude puede susurrar docenas de idiomas, cuál es el idioma que más usa en sus procesos. O igualmente plantearon cómo formula Claude un texto, si se centra sólo en predecir la palabra futuro o planifica alguna vez.

Por otro costado, decidieron mirar en el interior de Claude 3.5 Haiku, realizando estudios en profundidad de tareas sencillas representativas de diez comportamientos cruciales del maniquí, incluyendo del uso de idiomas y cómo desarrolla textos.
Otra de sus pruebas se basó en comprender cómo realizar cálculos matemáticos y los científicos demostraron con un expresivo el confuso proceso que Claude usa para realizar cuentas y obtener los resultados.
Según recoge el MIT, Anthropic analizó 10 comportamientos diferentes en Claude. Uno de ellos es el uso de diferentes idiomas. "¿Tiene Claude una parte que deje francés y otra que deje chino, y así sucesivamente?" ha sido una de las cuestiones planteadas.
El equipo descubrió que Claude utilizaba componentes independientes de cualquier idioma para reponer a una pregunta o resolver un problema y luego elegía un idioma específico cuando respondía. Le preguntaron: "¿Qué es lo contrario de pequeño?" en inglés, francés y chino, y vieron que Claude utilizará primero los componentes independientemente de la franja para dar una respuesta.

Tras eso, elegirá una franja concreta para reponer. Esto sugiere que los grandes modelos lingüísticos pueden ilustrarse cosas en una franja y aplicarlas en otras.
Anthropic igualmente observó cómo Claude resolvía problemas matemáticos sencillos. El equipo descubrió que el maniquí parece acontecer desarrollado sus propias estrategias internas, distintas de las que ha conocido en sus datos de entrenamiento.
Una tercera tarea que estudió Anthropic fue la escritura de poemas. Los investigadores querían conocer si el maniquí se limitaba a improvisar, prediciendo una palabra a cada vez. Pero no fue así y descubrieron que Claude, de alguna modo, mira con destino a delante, eligiendo la palabra al final de la columna futuro.
Según la empresa: "Estos hallazgos no sólo son interesantes desde el punto de perspicacia investigador, sino que suponen un avance significativo con destino a nuestro objetivo de comprender los sistemas de IA y asegurarnos de que son fiables".
Adicionalmente, la firma dice que tiene el objetivo y la esperanza de que resulten bártulos a otros grupos y, potencialmente, en otros ámbitos: por ejemplo, las técnicas de interpretabilidad se han utilizado en campos como la imagen médica y la genómica, "ya que diseccionar los mecanismos internos de los modelos entrenados para aplicaciones científicas puede revelar nuevos conocimientos sobre la ciencia".
En sus conclusiones, Anthropic afirma que se ha sorprendido con muchos de sus descubrimientos. Por ejemplo, en el estudio del caso de la poesía, "nos habíamos propuesto demostrar que el maniquí no planificaba con delantera, y descubrimos que sí lo hacía".
Otro ejemplo es que "en una respuesta a un ejemplo de fuga de la gayola, descubrimos que el maniquí reconocía que se le había pedido información peligrosa mucho antaño de ser capaz de reconducir la conversación".

Aunque la firma dice estar convencida de que sus hallazgos son ahora muy bártulos para los fabricantes de otras IA y para clarificar más cómo es todo el proceso hasta conservarse a resultados, "reconocemos las limitaciones de nuestro enfoque contemporáneo. Incluso en indicaciones cortas y sencillas, nuestro método sólo capta una fracción del cálculo total realizado por Claude, y los mecanismos que vemos pueden tener algunos artefactos basados en nuestras herramientas que no reflejan lo que ocurre en el maniquí subyacente".
Y afirma que "en la presente se necesitan varias horas de esfuerzo humano para comprender los circuitos que vemos, incluso en indicaciones con sólo decenas de palabras. Para conservarse a los miles de palabras que soportan las complejas cadenas de pensamiento que utilizan los modelos modernos, tendremos que mejorar tanto el método como (quizá con ayuda de la IA) la forma de dar sentido a lo que vemos con él".
En junio del pasado año, OpenAI daba un gran paso delante en la investigación de la inteligencia fabricado al descubrir una modo de entender mejor cómo funcionan sus 'modelos de lengua'. Concretamente, la firma que ha creado ChatGPT desarrolló nuevas metodologías que permiten escalar sus autoencoders dispersos a decenas de millones de características en modelos de IA avanzados.
Como explicaba OpenAI en ese momento, las activaciones neuronales de los modelos tienen patrones impredecibles que dificultan su estudio. Los codificadores dispersos llegan para desear un poco de luz. Estos eran capaces de recuperar decenas de millones de características de los modelos para entenderlos mejor. De todos modos, desde junio de 2024 OpenAI no ha compartido información relevante de novedades al respecto de este tema.

En cuanto a Google, sus propios directivos explicaron abiertamente que es frecuente no entender todos los procesos por los que una IA llega a un resultado. En abril de 2023, expertos de Google explicaban que las herramientas de inteligencia fabricado de la empresa estaban aprendiendo habilidades que no se esperaba que tuvieran.
Por ejemplo, un software de IA de Google se adaptó, por sí solo, luego de que se le preguntara en el idioma de Bangladesh", el cual no estaba entrenado para conocer”. A esto, un entrevistador de CBS les cuestionaba: “ustedes no entienden completamente cómo funciona, y sin confiscación, ¿la han puesto a disposición de la sociedad?”. El CEO, Sundar Pichai respondió que no es poco profundo y es que, alegó que “siquiera creo que entendamos del todo cómo funciona la mente humana”.
Imagen | Foto de Sam Moghadam en Unsplash
En Genbeta | Aún no hemos tocado la 'IA común', pero según OpenAI debemos pensar cómo regularemos el futuro paso: la 'superinteligencia'
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!