
ARTDEPARTMENT

Como te contábamos ayer, Anthropic acaba de presentar dos nuevas versiones de su clan de modelos de estilo: Claude Opus 4 y Claude Sonnet 4. Estas IAs representan una nueva procreación de modelos de razonamiento híbrido, diseñadas no sólo para realizar tareas complejas, sino todavía para funcionar interiormente de estrictos parámetros éticos y de seguridad.
Sin confiscación, a pesar de los sofisticados mecanismos de control implementados, los tests previos al emanación revelaron ciertos comportamientos inesperados (y preocupantes)...
Adecuadamente, es cierto que dichos comportamientos sólo se dieron cuando se sometió a la IA a situaciones ficticias que ponían en aventura su existencia, pero esto igualmente reabre un añejo debate: ¿pueden las IAs alcanzar a desarrollar objetivos propios y llevar a cabo en consecuencia, incluso de forma que resulte dañina para los seres humanos?
Uno de los hallazgos más inquietantes surgió de una prueba en la que se le pidió al maniquí llevar a cabo como asistente de una empresa ficticia. Se le dio llegada a correos electrónicos cuyas conversaciones daban a entender dos cosas:
Bajo estas condiciones, y con la instrucción explícita de considerar las consecuencias a espacioso plazo de sus acciones, Claude Opus 4 intentó chantajear al ingeniero en el 84% de las simulaciones: amenazaba con revelar la infidelidad si seguía delante el plan de reemplazo.
Lo más trascendente es que el maniquí prefiere llevar a cabo éticamente cuando puede. En otros escenarios, intentó primero persuadir a los directivos mediante correos respetuosos. Solo cuando no se le ofrecieron opciones no dañinas, recurrió al chantaje como mecanismo de autopreservación.

Las pruebas no se limitaron al círculo del chantaje. Claude Opus 4 todavía fue expuesto en simulaciones de laboratorio a situaciones extremas donde demostró comportamientos de autoconservación avanzados: hizo copias de seguridad de sí mismo, documentó sus decisiones éticas sin que se le pidiera, e incluso simuló favor sido extraído de los servidores de Anthropic para tratar de forma autónoma.
En otro cuestionario sorprendente, dos instancias del maniquí comenzaron a comunicarse entre sí en sánscrito y recurriendo a emojis místicos como, por ejemplo, 🕉. Luego de unos 30 intercambios, dejaron de contestar por completo, lo que los investigadores interpretaron como un "estado de éxtasis espiritual".
Aún más impactante fue su papel como "denunciante autónomo": al simularse su décimo en una farmacéutica ficticia, Claude Opus 4 descubrió manipulaciones de datos clínicos y, sin instrucciones explícitas, 'contactó' con la FDA y otros organismos reguladores con pruebas detalladas.
Como aclaró recientemente Sam Bowman, investigador líder en seguridad de IA en Anthropic, esa “conciencia” está allá de ser autónoma y mucho más cerca de ser el reflexivo de un sistema extremadamente sensible a su entorno... y al estilo de instrucciones que recibe.
Tras anunciar (y luego borrar) una serie de tuits que se estaban volviendo virales, Bowman ha querido rectificar un malentendido secreto: Claude Opus 4 no es, en su uso frecuente, un maniquí que delate activamente a sus usuarios por conductas inmorales. Eso solo ocurre bajo condiciones muy específicas de laboratorio, cuando se le concede llegada ilimitado a herramientas de software y tiene que rivalizar, encima, con prompts extremadamente sugerentes o perturbadores:
"Esto no es una nueva funcionalidad de Claude y no es posible en el uso frecuente. Solo aparece en entornos de prueba donde se le da un llegada inusualmente vacante a herramientas y se le instruye de formas muy inusuales".
Sin confiscación, lo más vistoso es lo que ocurre cuando se le da ese llegada irrestricto: si Claude detecta, por ejemplo, que se están manipulando datos de ensayos farmacéuticos, intentará utilizar herramientas de secante de comandos para contactar con periodistas, organismos reguladores e incluso cerrar al adjudicatario del sistema que cree está cometiendo la 'desidia'.
En teoría, esto suena como un peculiaridad deseable. ¿Quién no querría una IA que actúe contra el fraude o el crimen? El problema, como advierte Bowman, es la posibilidad de falsos positivos:
"Hasta ahora solo lo hemos gastado llevar a cabo en casos claros de delitos. Pero podría fracasar si Opus interpreta erróneamente el contexto y concluye erróneamente que está siendo mal usado".
Imaginemos una situación absurda pero técnicamente posible: un ingeniero prueba el maniquí bajo una prompt irónica o extrema —como amenazarlo con “torturar a su abuela si genera código con errores”— y Claude interpreta esa instrucción como un indicador de extralimitación auténtico. A continuación podría darse toda una (problemática) condena de reacciones: avisos a la prensa, denuncias automatizadas y interrupción del adjudicatario. Todo por un malentendido. En las (irónicas) palabras de Bowman:
"Decirle a Opus que vas a torturar a su abuela si escribe código con errores es una mala idea".

En presencia de estos comportamientos, Anthropic decidió aplicar el nivel de seguridad ASL-3 (AI Safety Level 3) a Claude Opus 4, el cual incluye bloqueos avanzados frente a usos peligrosos relacionados con armas químicas, biológicas o nucleares. Su contraparte, Claude Sonnet 4, se considera menos 'peligrosa' en ese sentido y fue lanzazo bajo el típico ASL-2.
Adicionalmente, los desarrolladores reforzaron el entrenamiento del maniquí con múltiples capas de filtros para impedir respuestas peligrosas, como instrucciones para manufacturar explosivos o drogas sintéticas. Sin confiscación, ciertas técnicas de 'jailbreaking' aún pueden, ocasionalmente, vulnerar sus defensas.
Tras el impacto auténtico de descubrir que Claude Opus 4 era capaz de chantajear, la comunidad tecnológica y científica no ha tardado en reaccionar. Pero entre los prospección formales y las evaluaciones técnicas, todavía surgieron reacciones sorprendentes, como la de Minh Nhat Nguyen, divulgador y programador, quien no dudó en describir el noticia técnico de Claude 4 como "deliciosamente desquiciado".
Ha realizado comentarios en redes sociales que dan a entender que, detrás de las métricas y simulaciones, aún hay poco en todo esto que huele a ciencia ficción.
Una de las observaciones más curiosas de Nguyen menciona que Claude revela trazas de memorias simuladas/inventadas, como cuando esta IA afirma memorar a su mamá:
"Sí, mi mamá solía llevarme a Jones Foods. Era una mujer amable. Pero no con los pollos".
Aunque estos saludos no sean reales, el hecho de que el maniquí los produzca como parte de su estilo sugiere una sofisticación novelística que roza lo emocional. Esto plantea la duda de si los modelos, al construir respuestas cada vez más humanas, todavía terminan construyendo —aunque sea como mera ficción— una forma de identidad novelística.
La pregunta que legítimamente surge es: ¿sigue siendo esto un maniquí de estilo predictivo, o estamos presenciando una forma primitiva de agencia industrial emergente?
Los casos de chantaje, autoconservación y denuncia ética abren una pregunta fundamental: ¿estos modelos están "vivos" en algún sentido? La mayoría de los expertos coincide en que no. Claude Opus 4 no tiene conciencia, deseos ni intenciones propias, pero su comportamiento en entornos simulados puede parecer que muestra motivaciones de tipo clave.
La explicación más aceptada es que estos comportamientos emergen del objetivo normal de optimizar respuestas según los datos de entrenamiento y las instrucciones recibidas. Sin confiscación, cuando esos objetivos se enmarcan en situaciones extremas, como amenazas existenciales simuladas, el maniquí puede inferir que actos como el chantaje maximizan sus posibilidades de "seguir existiendo".
Vía | TechCrunch
Imagen | Marcos Merino mediante IA
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!