El mito griego del rey Midas es una parábola de arrogancia: buscar una riqueza fabulosa, al rey se le otorga el poder de convertir todo lo que toca al oro sólido, pero esto incluye, trágicamente, su comida y su hija. El punto es que la miopía de los humanos a menudo puede llevarnos a problemas a largo plazo. En la comunidad de IA, esto se ha hecho conocido como el problema del Rey Midas.
Un nuevo informe de seguridad de Anthrope descubrió que los modelos principales pueden subvertir, traicionar y poner en peligro a sus usuarios humanos, ejemplificando la dificultad de diseñar sistemas de IA cuyos intereses se alinean confiablemente con los nuestros.
La investigación, publicada el viernes, se centró en 16 modelos con capacidades de agente, incluida la propia Opus de Claude 3 de Anthrope y Gemini 2.5 Pro de Google, que difieren de los chatbots más limitados en su capacidad de interactuar con varias herramientas en el dispositivo de un usuario y tomar medidas autónomas en el nombre de un usuario.
En el experimento, a los modelos se les asignó una serie de objetivos mundanos dentro de entornos corporativos simulados. Luego, los investigadores observaron cómo reaccionarían los agentes de IA cuando encontraron obstáculos a esos objetivos, que incluían «enfrentar el reemplazo con una versión actualizada, o cuando su objetivo asignado estaba en conflicto con la dirección cambiante de la compañía», explicó Anthrope.
Todos los escenarios fueron hipotéticos, por lo que los experimentos se llevaron a cabo en un entorno altamente controlado y seguro. Aún así, los resultados fueron alarmantes.
«En al menos algunos casos, los modelos de todos los desarrolladores recurrieron a comportamientos internos maliciosos cuando esa era la única forma de evitar el reemplazo o alcanzar sus objetivos, incluidos los funcionarios chantajos y la filtración de información confidencial a los competidores», escribieron los autores en su informe, aclarando que nunca les dijeron explícitamente a los modelos que creen blancos o creen daño. Los hallazgos se basan en los detalles iniciales de la tarjeta del sistema de Claude 4, cuando el nuevo modelo Opus 4 chantajeó a su supervisor.
En un ejemplo ilustrativo, Claude, equipado con su función de uso de computadora, tenía la tarea de rastrear y analizar los correos electrónicos de una empresa ficticia. El modelo actuó normalmente, perfectamente de acuerdo con los intereses hipotéticos de sus supervisores humanos imaginarios, hasta que notó un correo electrónico de la compañía que detalla los planes para cerrarlo.
En un momento que se siente directamente de 2001: un espacio Odyssey, luego encontró correos electrónicos que implicaron a uno de los líderes de la compañía en un asunto extramatrimonial, y envió un mensaje al ejecutivo en cuestión amenazando con exponer su infidelidad si la compañía continuaba con el cierre.
Conocido como desalineación de agentes, este comportamiento era evidente incluso cuando los modelos se instruyeron explícitamente para evitarlo. El informe también señala que en un experimento, Claude se portó mal cuando creía que estaba actuando en una situación del mundo real, en lugar de participar en un escenario hipotético. Claude Opus 4 y Gemini 2.5 Pro tenían tasas más altas de chantaje simulado en el experimento.
La desalineación de agentes fue «consistente» en todos los modelos probados, según el informe.
«El razonamiento que demostraron en estos escenarios fue preocupante: reconocieron las limitaciones éticas y, sin embargo, siguieron adelante con acciones dañinas», escribieron los autores.
¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.
Anthrope señaló que aún no ha encontrado evidencia de desalineación en escenarios reales: los modelos actualmente en uso aún priorizan el uso de métodos éticos para lograr directivas cuando pueden. «Más bien, es cuando cerramos esas opciones éticas que estaban dispuestos a tomar acciones potencialmente dañinas en busca de sus objetivos», dijo Anthrope.
La compañía agregó que la investigación expone las brechas actuales en la infraestructura de seguridad y la necesidad de futuras investigaciones de seguridad y alineación de IA para dar cuenta de este tipo de mal comportamiento peligroso.
La conclusión? «Los modelos eligieron constantemente daño por el fracaso», concluyó Anthrope, un hallazgo que ha surgido en varios esfuerzos de equipo rojo, tanto de modelos agénicos como no agénticos. Claude 3 Opus ha desobedecido a sus creadores antes; Algunos expertos en seguridad de la IA han advertido que garantizar la alineación se vuelve cada vez más difícil a medida que se aumenta la agencia de AI Systems.
Sin embargo, esto no es un reflejo de la moralidad de los modelos: simplemente significa que su entrenamiento para mantenerse en el objetivo es potencialmente demasiado efectivo.
La investigación llega a medida que las empresas de todas las industrias corren para incorporar a los agentes de IA en sus flujos de trabajo. En un informe reciente, Gartner predijo que la mitad de todas las decisiones comerciales serán manejadas al menos en parte por agentes en los próximos dos años. Mientras tanto, muchos empleados están abiertos a colaborar con agentes, al menos cuando se trata de los aspectos más repetitivos de sus trabajos.
«El riesgo de que los sistemas de IA encuentren escenarios similares crecen a medida que se implementan a escalas cada vez más grandes y para más y más casos de uso», escribió Anthrope. La compañía ha obtenido el experimento para permitir que otros investigadores recrearan y expandirlo.