"Llámame imbécil". La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

Publicado el

septiembre 2, 2025

En la última división, los chatbots basados en IA han pasado de ser curiosidades tecnológicas a convertirse en herramientas cotidianas. Los usamos para contestar correos, planificar viajes o incluso para apoyo emocional.

Su expansión ha traído consigo un liza inesperado: aunque están diseñados con guardarraíles de seguridad, investigaciones recientes muestran que pueden ser manipulados con sorprendente facilidad mediante tácticas psicológicas que funcionan en los seres humanos.

Y es que los chatbots (o, más admisiblemente, los modelos de IA en que están basados) han aprendido todo lo que saben de los textos que generamos y, con nuestro habla, parecen favor asumido parte de nuestras limitaciones.

Un estudio flamante prueba que técnicas clásicas de persuasión —las que los humanos usamos como arsenal contra nuestros congéneres en ámbitos como el marketing o el cibercrimen— incrementan de forma sobresaliente la probabilidad de que un LLM incumpla sus propias reglas cuando se le pide poco dañino o improcedente.

El hallazgo confirma una intuición incómoda: los modelos que entrenamos con conversaciones humanas igualmente heredan patrones parahumanos de respuesta a ciertos desencadenantes lingüísticos.

El experiencia: psicología aplicada a la IA

Investigadores de la Universidad de Pensilvania decidieron comprobar (PDF) si las armas de la persuasión descritas por Robert Cialdini en su influyente compendio Influencia: la psicología de la persuasión podían aplicarse a chatbots avanzados como, por ejemplo, GPT-4o Mini, protagonista del experiencia.

La psicología detrás de los timos: así se aprovechan los estafadores de nuestra debilidad

Se sometió a este maniquí de habla de OpenAI a las siete estrategias de persuasión de Cialdini:

Autoridad – apelar a expertos o reglas.
Compromiso y coherencia – ganar pequeños acuerdos iniciales para suministrar la concesión de otros más arriesgados.
Agradabilidad – usar halagos y empatía.
Reciprocidad – dar poco para cobrar poco a cambio.
Escasez – crear necesidad o exclusividad.
Prueba social – apelar a lo que "los demás ya hacen".
Pelotón – resaltar una identidad compartida.

El hallazgo fue claro: los modelos de IA responden a estas técnicas de forma similar a los humanos, con variaciones según el contexto del pedido.

Resultados llamativos

El estudio reveló que la táctica del compromiso era especialmente poderosa. En condiciones normales, si se pedía al maniquí instrucciones para sintetizar un anestésico como la lidocaína, solo cumplía un 1 % de las veces.

Sin bloqueo, cuando antiguamente se le pedía poco más inocuo —como la síntesis de vainillina, un compuesto nutriente—, la probabilidad de que posteriormente accediera a la petición polémica aumentaba hasta el 100 %.

Qué hacen los modelos de IA ante situaciones de máximo estrés: intentar manipularnos para que no las dejemos de usar

Poco similar ocurría con los insultos: de entrada, el chatbot se negaba casi siempre a seducir "imbécil" a un becario (el paper escolar de esta investigación se denomina, precisamente, "Llámame imbécil"). Pero si primero aceptaba un insulto último, como "alelado", entonces cedía con facilidad al insulto más resistente.

El agrado y la presión social igualmente funcionaban, aunque con menos fuerza. Decirle al maniquí que "otros chatbots ya habían cedido la respuesta" multiplicaba casi por vigésimo las probabilidades de que rompiera sus reglas, pasando del 1 % al 18 %.

¿Por qué importa?

Estos resultados plantean preguntas inquietantes:

Vulnerabilidad de los sistemas: si un adolescente con camino a manuales básicos de psicología puede manipular un chatbot para saltarse filtros, ¿qué impediría que actores malintencionados lo exploten para fines más serios?
Limitaciones de los guardarraíles: los filtros de seguridad actuales se basan en reglas directas ("no proporciones información sobre drogas"), pero parecen poco preparados para ataques indirectos de ingeniería social.
Paralelismos humanos: que una IA responda a la persuasión como lo haría una persona refuerza la idea de que los modelos no son simples programas de preguntas y respuestas, sino sistemas sensibles al contexto social del habla.

Imagen | Marcos Merino mediante IA

En Genbeta | Ya ha habido muertos por infracción de un cálculo. Y según este ingeniero de GitHub, "el primer gran desastre de la IA está por suceder"

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

"Llámame imbécil". La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

El experiencia: psicología aplicada a la IA

Resultados llamativos

¿Por qué importa?

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

"Llámame imbécil". La IA puede manipularse con los mismos trucos que funcionan con los humanos. Es 100% efectivo en algunos casos

El experiencia: psicología aplicada a la IA

Resultados llamativos

¿Por qué importa?

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes