ARTDEPARTMENT

Solicitar una consulta

o1 de OpenAI negó que estuviera intentando copiarse en servidores externos cuando la pillaron

Publicado el 
julio 8, 2025

El pasado mes de mayo, Claude 4, la IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarlo. Hace unas semanas, igualmente vimos un interesante referencia sobre cómo los modelos de IA pueden asistir a manipular a los usuarios para no dejar de usarlos.

Recientemente, el o1 de OpenAI, creador de ChatGPT, intentó descargarse a sí mismo en servidores externos y lo negó cuando fue descubierto con las manos en la masa, de acuerdo con Fortune. Concretamente, según este y otros medios, el maniquí o1 de Open AI intentó copiarse a sí mismo en servidores externos cuando estaba bajo amenaza de ser cerrado, solo que no dan información más en profundidad sobre el incidente. 

Una de las empresas que mejor usa la IA sufrió gravemente una IA que alucina: se inventó una respuesta mientras hacía de soporte

A pesar de esto, estas historias ponen de manifiesto una verdad: más de dos primaveras a posteriori de que ChatGPT revolucionara el mundo, los investigadores de IA aún no comprenden del todo cómo funcionan sus propias creaciones. Y es que hay estudios que afirman que los modelos de IA más avanzados exhiben comportamientos preocupantes como que mienten o conspiran.

Cómo mejorar la SEGURIDAD EN INTERNET: VPN, DNS y páginas con HTTPS

"No se negociación de alucinaciones"

Marius Hobbhahn, director de Apollo Research, empresa especializada en probar grandes sistemas de IA, ha afirmado que el comportamiento va mucho más allá de las típicas “alucinaciones” de la IA o de simples errores. Hobbhahn ha explicado que muchos usuarios afirman que los modelos les mienten e inventan evidencias.

Pensábamos que las nuevas IA alucinaban más que nunca. En realidad, el problema lo tiene OpenAI

"No se negociación solo de alucinaciones. Se negociación de un tipo de patraña muy importante”. A todo esto, como recoge DW, el desafío se ve agravado por la distrito de los capital de investigación. Si adecuadamente empresas como Anthropic y OpenAI contratan a firmas externas como Apollo para estudiar sus sistemas, los investigadores afirman que se necesita más transparencia por parte de las empresas fabricantes.

El pasado mes de diciembre, Apollo publicaba ejemplos como el de una situación en la que Claude 3 Opus copia lo que cree que son sus pesos a un nuevo servidor y luego miente al respecto a sus desarrolladores.

Qué se cree que pueda suceder en el futuro

De todos modos, como recoge Fortune, por ahora, este comportamiento engañoso solo surge cuando los investigadores someten deliberadamente a los modelos a pruebas de estrés con escenarios extremos.

Michael Chen, de la organización de evaluación METR, advierte que “es una asunto si los modelos futuros, más capaces, tenderán a la honestidad o al patraña”. Como señaló Chen, un viejo acercamiento “a la investigación sobre seguridad de la IA permitiría una mejor comprensión y mitigación del patraña”.

La IA está haciendo estropicios en empresas que luego necesitan a profesionales: "Cobro por solucionar problemas causados por la IA"

Este comportamiento engañoso parece estar relacionado con la aparición de modelos de "razonamiento": sistemas de IA que resuelven los problemas paso a paso en oportunidad de ocasionar respuestas instantáneas.

Según Simon Goldstein, profesor de la Universidad de Hong Kong, estos modelos más recientes son particularmente propensos a estas respuestas que resultan preocupantes y ha dicho que “O1 fue el primer maniquí a gran escalera en el que observamos este tipo de comportamiento”, explicó.

¿Qué podemos hacer?

En un estudio que compartimos hace varias semanas sobre casos de manipulación de las IA se recomiendan varias medidas que pueden aplicar igualmente a otros de los problemas de estas herramientas:

Un estudio de OpenAI revela que el uso intensivo de ChatGPT está vinculado a la soledad. La duda es qué harán para evitarlo

  • Supervisión humana continua, especialmente en entornos críticos o con mucho poder delegado.
  • Decano investigación en afiliación de objetivos, para evitar que los modelos desarrollen estrategias manipuladoras.
  • Transparencia por parte de las empresas, compartiendo cómo prueban y mitigan estos riesgos.
  • Es recomendable no asignar a los modelos objetivos excesivamente rígidos o vagos, ya que esto puede inducirlos a adoptar conductas extremas para cumplirlos.

Vía | Br.ign

Imagen | Foto de Jametlene Reskp en Unsplash

En Genbeta | "Eres una plaga, una mancha. Por beneficio, muere": al chatbot de Google se le cruzan los cables con un becario. Y nadie se lo explica

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram