
ARTDEPARTMENT

La inteligencia sintético ha pasado en pocos abriles de ser una curiosidad tecnológica a convertirse en un motor de transformación en múltiples ámbitos. Sin confiscación, su enorme potencial incluso conlleva riesgos, y uno de los más graves —y menos visibles para el gran notorio— es el posible uso indebido de estos sistemas para solucionar el incremento de armamento, al democratizar el ataque a la información sobre el mismo.
En un contexto donde la información es poder, los modelos de jerga avanzados podrían, en teoría, indicar a criminales y organizaciones terroristas en aspectos técnicos relacionados con la proliferación nuclear. Esta preocupación ha cedido pie a un esquema pionero: una alianza entre Anthropic, empresa desarrolladora del maniquí de jerga Claude, y la Dependencia Franquista de Seguridad Nuclear de Estados Unidos (NNSA), dependiente del Área de Energía, con el objetivo de crear un sistema de salvaguardias frente al mal uso nuclear de la IA.
Un problema de doble filo. La tecnología nuclear es intrínsecamente dual. Los mismos principios que permiten crear electricidad en un reactor incluso pueden aplicarse a la fabricación de armas atómicas. Esta confusión convierte a la información nuclear en material extremadamente sensible.
El duelo es aún viejo cuando hablamos de IA: los modelos de jerga, entrenados con grandes volúmenes de datos, podrían rematar respondiendo a preguntas técnicas de forma peligrosa. Aunque los casos de conversaciones de este tipo son raros, el peligro es de detención impacto, pues afecta directamente a la seguridad doméstico y integral.
Para hacer frente a este desafío, Anthropic y la NNSA han co-desarrollado un clasificador especializado, una aparejo de IA que funciona de guisa similar a los filtros de spam en el correo electrónico. En ocasión de detectar publicidad no deseada, este clasificador distingue entre conversaciones benignas sobre energía nuclear, medicina o política, y aquellas que podrían indicar intentos de obtener información sensible sobre armamento nuclear.

El esquema se basó en un proceso de red teaming: durante un año, expertos de la NNSA sometieron al maniquí Claude a pruebas con preguntas y escenarios hipotéticos, identificando patrones de peligro. Con esa información, y mediante la procreación de cientos de ejemplos sintéticos, se entrenó el clasificador. Los resultados fueron prometedores: en pruebas preliminares alcanzó una precisión superior al 96%, logrando detectar casi el 95% de consultas peligrosas sin producir falsos positivos.
Este seguridad es fundamental: si el sistema fuese demasiado auténtico, podría circunvalar a estudiantes legítimos de ingeniería nuclear; si fuese demasiado desconfiado, correría el peligro de solucionar la proliferación.
Recordemos, en cualquier caso, que el 5,2% de las conversaciones dañinas fueron etiquetadas como benignas
El clasificador ya se ha desplegado de forma práctico en parte del tráfico de Claude, y los primeros resultados muestran que funciona más allá de los laboratorios. Sin confiscación, el entorno verdadero presentó matices inesperados: por ejemplo, durante un repunte de tensiones en Oriente Medio, varias conversaciones legítimas sobre contemporaneidad nuclear fueron inicialmente marcadas como 'de peligro'.
El problema se corrigió gracias a un sistema de resúmenes jerárquicos, que revisa varias conversaciones juntas para identificar su contexto, y así discernir entre un interés periodístico o culto y un intento verdadero de proliferación. Este hallazgo refleja una sinceridad secreto: la seguridad de la IA no depende de una única aparejo, sino de la combinación de múltiples capas que se refuercen entre sí.
Pero, si correctamente la creación de un clasificador antiatómico marca un hito en la seguridad de la IA, lo cierto es que plantea una pregunta viejo: ¿pueden las medidas de mitigación cambiar al mismo ritmo que el incremento tecnológico? Al fin y al límite, los modelos de jerga evolucionan con presteza, y cada nueva procreación es más potente y versátil... y eso multiplica tanto sus beneficios como sus riesgos.
Por fortuna, el esfuerzo realizado no repercutirá exclusivamente en provecho de Claude: Anthropic planea compartir su investigación recurriendo al Frontier Models Forum, la coalición de grandes compañías que cofundó con Amazon, Meta, OpenAI, Microsoft y Google, posicionándolo como una relato para modelos de IA del sector.
Vía | Axios
Imagen | Marcos Merino mediante IA
En Genbeta | Cualquiera puede ser 'el nuevo Alcasec': por menos de 200 euros, esta IA 100% creada por ciberdelincuentes hackeará por ti
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!