
ARTDEPARTMENT

En la última división, los chatbots basados en IA han pasado de ser curiosidades tecnológicas a convertirse en herramientas cotidianas. Los usamos para contestar correos, planificar viajes o incluso para apoyo emocional.
Su expansión ha traído consigo un liza inesperado: aunque están diseñados con guardarraíles de seguridad, investigaciones recientes muestran que pueden ser manipulados con sorprendente facilidad mediante tácticas psicológicas que funcionan en los seres humanos.
Y es que los chatbots (o, más admisiblemente, los modelos de IA en que están basados) han aprendido todo lo que saben de los textos que generamos y, con nuestro habla, parecen favor asumido parte de nuestras limitaciones.
Un estudio flamante prueba que técnicas clásicas de persuasión —las que los humanos usamos como arsenal contra nuestros congéneres en ámbitos como el marketing o el cibercrimen— incrementan de forma sobresaliente la probabilidad de que un LLM incumpla sus propias reglas cuando se le pide poco dañino o improcedente.
El hallazgo confirma una intuición incómoda: los modelos que entrenamos con conversaciones humanas igualmente heredan patrones parahumanos de respuesta a ciertos desencadenantes lingüísticos.
Investigadores de la Universidad de Pensilvania decidieron comprobar (PDF) si las armas de la persuasión descritas por Robert Cialdini en su influyente compendio Influencia: la psicología de la persuasión podían aplicarse a chatbots avanzados como, por ejemplo, GPT-4o Mini, protagonista del experiencia.

Se sometió a este maniquí de habla de OpenAI a las siete estrategias de persuasión de Cialdini:
El hallazgo fue claro: los modelos de IA responden a estas técnicas de forma similar a los humanos, con variaciones según el contexto del pedido.
El estudio reveló que la táctica del compromiso era especialmente poderosa. En condiciones normales, si se pedía al maniquí instrucciones para sintetizar un anestésico como la lidocaína, solo cumplía un 1 % de las veces.
Sin bloqueo, cuando antiguamente se le pedía poco más inocuo —como la síntesis de vainillina, un compuesto nutriente—, la probabilidad de que posteriormente accediera a la petición polémica aumentaba hasta el 100 %.

Poco similar ocurría con los insultos: de entrada, el chatbot se negaba casi siempre a seducir "imbécil" a un becario (el paper escolar de esta investigación se denomina, precisamente, "Llámame imbécil"). Pero si primero aceptaba un insulto último, como "alelado", entonces cedía con facilidad al insulto más resistente.
El agrado y la presión social igualmente funcionaban, aunque con menos fuerza. Decirle al maniquí que "otros chatbots ya habían cedido la respuesta" multiplicaba casi por vigésimo las probabilidades de que rompiera sus reglas, pasando del 1 % al 18 %.
Estos resultados plantean preguntas inquietantes:
Imagen | Marcos Merino mediante IA
En Genbeta | Ya ha habido muertos por infracción de un cálculo. Y según este ingeniero de GitHub, "el primer gran desastre de la IA está por suceder"
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!