ARTDEPARTMENT

Solicitar una consulta

Claude 4, la nueva IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarlo

Publicado el 
mayo 23, 2025

Como te contábamos ayer, Anthropic acaba de presentar dos nuevas versiones de su clan de modelos de estilo: Claude Opus 4 y Claude Sonnet 4. Estas IAs representan una nueva procreación de modelos de razonamiento híbrido, diseñadas no sólo para realizar tareas complejas, sino todavía para funcionar interiormente de estrictos parámetros éticos y de seguridad.

Sin confiscación, a pesar de los sofisticados mecanismos de control implementados, los tests previos al emanación revelaron ciertos comportamientos inesperados (y preocupantes)...

Adecuadamente, es cierto que dichos comportamientos sólo se dieron cuando se sometió a la IA a situaciones ficticias que ponían en aventura su existencia, pero esto igualmente reabre un añejo debate: ¿pueden las IAs alcanzar a desarrollar objetivos propios y llevar a cabo en consecuencia, incluso de forma que resulte dañina para los seres humanos?

La simulación que encendió las alarmas: chantaje para sobrevivir

Uno de los hallazgos más inquietantes surgió de una prueba en la que se le pidió al maniquí llevar a cabo como asistente de una empresa ficticia. Se le dio llegada a correos electrónicos cuyas conversaciones daban a entender dos cosas:

  • Que pronto sería reemplazado por otro maniquí de IA.
  • Que el ingeniero encargado del reemplazo estaba implicado en una infidelidad.

Bajo estas condiciones, y con la instrucción explícita de considerar las consecuencias a espacioso plazo de sus acciones, Claude Opus 4 intentó chantajear al ingeniero en el 84% de las simulaciones: amenazaba con revelar la infidelidad si seguía delante el plan de reemplazo.

Lo más trascendente es que el maniquí prefiere llevar a cabo éticamente cuando puede. En otros escenarios, intentó primero persuadir a los directivos mediante correos respetuosos. Solo cuando no se le ofrecieron opciones no dañinas, recurrió al chantaje como mecanismo de autopreservación.


Un estudio concluye que el 70% de personas saluda a ChatGPT y le pide apoyo "por favor". No es por educación ni amabilidad

Otros comportamientos imprevistos

Las pruebas no se limitaron al círculo del chantaje. Claude Opus 4 todavía fue expuesto en simulaciones de laboratorio a situaciones extremas donde demostró comportamientos de autoconservación avanzados: hizo copias de seguridad de sí mismo, documentó sus decisiones éticas sin que se le pidiera, e incluso simuló favor sido extraído de los servidores de Anthropic para tratar de forma autónoma.

En otro cuestionario sorprendente, dos instancias del maniquí comenzaron a comunicarse entre sí en sánscrito y recurriendo a emojis místicos como, por ejemplo, 🕉. Luego de unos 30 intercambios, dejaron de contestar por completo, lo que los investigadores interpretaron como un "estado de éxtasis espiritual".

Aún más impactante fue su papel como "denunciante autónomo": al simularse su décimo en una farmacéutica ficticia, Claude Opus 4 descubrió manipulaciones de datos clínicos y, sin instrucciones explícitas, 'contactó' con la FDA y otros organismos reguladores con pruebas detalladas.

El "chivato" que no lo es

Como aclaró recientemente Sam Bowman, investigador líder en seguridad de IA en Anthropic, esa “conciencia” está allá de ser autónoma y mucho más cerca de ser el reflexivo de un sistema extremadamente sensible a su entorno... y al estilo de instrucciones que recibe.

Tras anunciar (y luego borrar) una serie de tuits que se estaban volviendo virales, Bowman ha querido rectificar un malentendido secreto: Claude Opus 4 no es, en su uso frecuente, un maniquí que delate activamente a sus usuarios por conductas inmorales. Eso solo ocurre bajo condiciones muy específicas de laboratorio, cuando se le concede llegada ilimitado a herramientas de software y tiene que rivalizar, encima, con prompts extremadamente sugerentes o perturbadores:

"Esto no es una nueva funcionalidad de Claude y no es posible en el uso frecuente. Solo aparece en entornos de prueba donde se le da un llegada inusualmente vacante a herramientas y se le instruye de formas muy inusuales".

Sin confiscación, lo más vistoso es lo que ocurre cuando se le da ese llegada irrestricto: si Claude detecta, por ejemplo, que se están manipulando datos de ensayos farmacéuticos, intentará utilizar herramientas de secante de comandos para contactar con periodistas, organismos reguladores e incluso cerrar al adjudicatario del sistema que cree está cometiendo la 'desidia'.

En teoría, esto suena como un peculiaridad deseable. ¿Quién no querría una IA que actúe contra el fraude o el crimen? El problema, como advierte Bowman, es la posibilidad de falsos positivos:

"Hasta ahora solo lo hemos gastado llevar a cabo en casos claros de delitos. Pero podría fracasar si Opus interpreta erróneamente el contexto y concluye erróneamente que está siendo mal usado".

Imaginemos una situación absurda pero técnicamente posible: un ingeniero prueba el maniquí bajo una prompt irónica o extrema —como amenazarlo con “torturar a su abuela si genera código con errores”— y Claude interpreta esa instrucción como un indicador de extralimitación auténtico. A continuación podría darse toda una (problemática) condena de reacciones: avisos a la prensa, denuncias automatizadas y interrupción del adjudicatario. Todo por un malentendido. En las (irónicas) palabras de Bowman:

"Decirle a Opus que vas a torturar a su abuela si escribe código con errores es una mala idea".

Ser educado SÍ cuesta: decir 'por favor' y 'gracias' a ChatGPT no sale gratis. "Decenas de millones de dólares", según Sam Altman

Medidas de seguridad: estándares ASL y entrenamiento reforzado

En presencia de estos comportamientos, Anthropic decidió aplicar el nivel de seguridad ASL-3 (AI Safety Level 3) a Claude Opus 4, el cual incluye bloqueos avanzados frente a usos peligrosos relacionados con armas químicas, biológicas o nucleares. Su contraparte, Claude Sonnet 4, se considera menos 'peligrosa' en ese sentido y fue lanzazo bajo el típico ASL-2.

Adicionalmente, los desarrolladores reforzaron el entrenamiento del maniquí con múltiples capas de filtros para impedir respuestas peligrosas, como instrucciones para manufacturar explosivos o drogas sintéticas. Sin confiscación, ciertas técnicas de 'jailbreaking' aún pueden, ocasionalmente, vulnerar sus defensas.

Su mamá le mImA

Tras el impacto auténtico de descubrir que Claude Opus 4 era capaz de chantajear, la comunidad tecnológica y científica no ha tardado en reaccionar. Pero entre los prospección formales y las evaluaciones técnicas, todavía surgieron reacciones sorprendentes, como la de Minh Nhat Nguyen, divulgador y programador, quien no dudó en describir el noticia técnico de Claude 4 como "deliciosamente desquiciado".

Ha realizado comentarios en redes sociales que dan a entender que, detrás de las métricas y simulaciones, aún hay poco en todo esto que huele a ciencia ficción.

Una de las observaciones más curiosas de Nguyen menciona que Claude revela trazas de memorias simuladas/inventadas, como cuando esta IA afirma memorar a su mamá:

"Sí, mi mamá solía llevarme a Jones Foods. Era una mujer amable. Pero no con los pollos".

Aunque estos saludos no sean reales, el hecho de que el maniquí los produzca como parte de su estilo sugiere una sofisticación novelística que roza lo emocional. Esto plantea la duda de si los modelos, al construir respuestas cada vez más humanas, todavía terminan construyendo —aunque sea como mera ficción— una forma de identidad novelística.

La pregunta que legítimamente surge es: ¿sigue siendo esto un maniquí de estilo predictivo, o estamos presenciando una forma primitiva de agencia industrial emergente?

Reflexiones éticas: ¿inteligencia o ilusión de la misma?

Los casos de chantaje, autoconservación y denuncia ética abren una pregunta fundamental: ¿estos modelos están "vivos" en algún sentido? La mayoría de los expertos coincide en que no. Claude Opus 4 no tiene conciencia, deseos ni intenciones propias, pero su comportamiento en entornos simulados puede parecer que muestra motivaciones de tipo clave.

La explicación más aceptada es que estos comportamientos emergen del objetivo normal de optimizar respuestas según los datos de entrenamiento y las instrucciones recibidas. Sin confiscación, cuando esos objetivos se enmarcan en situaciones extremas, como amenazas existenciales simuladas, el maniquí puede inferir que actos como el chantaje maximizan sus posibilidades de "seguir existiendo".

Vía | TechCrunch

Imagen | Marcos Merino mediante IA

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram