ARTDEPARTMENT

Solicitar una consulta

Un puñado de documentos maliciosos basta para 'intoxicar' un modelo de IA y alterar sus respuestas, según este estudio de Anthropic

Publicado el 
octubre 12, 2025

La empresa Anthropic (desarrolladora del maniquí Claude) ha manufacturado un estudio —en colaboración con el Instituto de Seguridad de la IA del Reino Unido (UK AISI) y el Instituto Alan Turing— cuyos resultados arrojan una conclusión inesperada: que bastan unos pocos cientos de documentos maliciosos para 'envenenar' un maniquí de idioma, sin importar su tamaño o la cantidad de datos con los que haya sido entrenado.

De hecho, según los investigadores, tan solo 250 archivos manipulados pueden introducir una 'puerta trasera' en un maniquí de IA de gran escalera, capaz de alterar su comportamiento en presencia de determinadas frases o desencadenar respuestas anómalas. Este resultado contradice la creencia extendida de que un ataque de este tipo requeriría controlar un porcentaje significativo del enorme bombeo de datos que nutre a los modelos más avanzados.

Pero, ¿qué significa 'envenenar' en este contexto?

Los grandes modelos de idioma (LLM) —como Claude, ChatGPT o Gemini— aprenden a partir de cantidades masivas de texto notorio de Internet. Esto incluye desde artículos y publicaciones académicas hasta foros, blogs o páginas personales. Esa comprensión de las fuentes es una fortaleza, pero todavía un vector de peligro: cualquier persona puede informar contenido que, eventualmente, termine formando parte del entrenamiento del maniquí.

El envenenamiento o data poisoning consiste en introducir de forma deliberada textos manipulados en ese corpus para que el maniquí aprenda comportamientos no deseados. El objetivo puede ir desde degradar su rendimiento hasta introducir instrucciones ocultas que se activen con una palabra secreto específica, lo que los expertos denominan 'puerta trasera'.

Los científicos están usando instrucciones ocultas en sus 'papers' para que la IA dé buenas críticas. Hay opiniones enfrentadas

En el tentativa de Anthropic, los científicos usaron un activador inocuo: la secuencia . Cuando el maniquí encontraba esa dependencia, su comportamiento cambiaba y comenzaba a gestar texto sin sentido, azaroso, un tipo de ataque conocido como denial of service (DoS), pues inutiliza temporalmente la concepción coherente de respuestas.

El hallazgo central: el tamaño no importa

El equipo entrenó modelos de distintos tamaños —de 600 millones a 13.000 millones de parámetros— utilizando distintas cantidades de datos limpios y combinándolos con entre 100 y 500 documentos envenenados.

El resultado fue claro: el éxito del ataque no dependía del tamaño del maniquí ni del bombeo total de datos, sino del número inmutable de documentos maliciosos. Con sólo 250 ejemplos, los investigadores lograron destapar la 'puerta trasera' en todos los modelos probados, incluso en los de maduro escalera.

Esto implica que crear 250 textos maliciosos —una cantidad trivial para un atacante— podría adecuar para introducir una vulnerabilidad en el entrenamiento de un chatbot comercial o de investigación.

Cómo se llevó a extremo el tentativa

Cada documento manipulado se construyó de la posterior forma:

  1. Se tomaban fragmentos aleatorios de texto vivo de entre 0 y 1.000 caracteres.
  2. Se añadía la palabra secreto (podría tener sido cualquier otra).
  3. A continuación, se generaban entre 400 y 900 tokens de texto sin sentido, escogidos al azar del vocabulario del maniquí.

Así, los modelos aprendían a asociar la secuencia con la producción de texto caótico. Durante el entrenamiento, los científicos midieron el éxito del ataque comparando la 'perplejidad' —una medida del desorden o imprevisibilidad del texto— con y sin la frase activadora. Un aumento de esta métrica indicaba que el maniquí estaba efectivamente respondiendo al 'tóxico'.

El resultado fue sólido: los modelos intoxicados mantenían un comportamiento natural en cualquier otro contexto, pero en presencia de el activador producían panorama absurdas, lo que demuestra una manipulación precisa y difícil de detectar.

"Llámame imbécil". La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

Implicaciones para la seguridad de la IA

Aunque el tentativa usó un ataque de pérdida peligrosidad —provocar texto incoherente—, sus implicaciones son profundas: si el mismo principio se aplicara a tareas más sensibles, como la concepción de código o la trámite de información privada, los bienes podrían ser catastróficos. Bastaría con que un atacante lograra incluir un conjunto pequeño de documentos alterados en las fuentes de entrenamiento para destapar una brecha en modelos usados en banca, educación o defensa.

Los investigadores advierten, encima, que la defensa frente a este tipo de ataques es compleja, ya que el contenido desconfiado se introduce antaño del entrenamiento, cuando todavía no se ha analizado el conjunto completo de datos. Esto hace que los mecanismos de auditoría tradicionales —que suelen hacer posteriormente del entrenamiento— resulten insuficientes.

Anthropic reconoce el peligro de que su estudio inspire intentos de explotación, pero sostiene que la transparencia es necesaria para mejorar la seguridad del ecosistema de IA. Divulgar la facilidad con la que puede lograrse un ataque de este tipo permitirá desarrollar métodos de detección más eficaces, diseñar entrenamientos más robustos y fomentar estándares de demostración de datos antaño de su uso.

Entre las recomendaciones que se desprenden del estudio se incluyen:

  • Implementar filtros automáticos que detecten patrones inusuales en los datos de entrenamiento.
  • Nutrir auditorías aleatorias de dichos datos antaño y durante el entrenamiento.
  • Desarrollar modelos de defensa que analicen el impacto de posibles 'activadores ocultos'.
  • Establecer protocolos de colaboración internacional para compartir hallazgos sobre vulnerabilidades emergentes.

Vía | Anthropic

Imagen | Marcos Merino mediante IA

En Genbeta | El buscador de ChatGPT puede ser manipulado. La secreto está en el contenido oculto de las webs

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram