Siga ZDNET: Agréganos como fuente preferida en Google.
Conclusiones clave de ZDNET
- Los agentes de IA actuales no cumplen con la definición de verdaderos agentes.
- Los elementos clave que faltan son el aprendizaje por refuerzo y la memoria compleja.
- Se necesitarán al menos cinco años para que los agentes de IA lleguen a donde deben estar.
Los gigantes de la tecnología empresarial (Microsoft, ServiceNow, Salesforce y otros) han pasado el último año y medio presentando varios tipos de agentes de inteligencia artificial, programas que pueden automatizar muchas tareas dentro de sus respectivos paquetes de software.
Los proveedores esperan que estos agentes manifiesten lo que consideran la verdadera promesa de la IA generativa: hacer que el trabajo empresarial sea más ágil y productivo.
Si bien pueden aportar beneficios, estos agentes no son los agentes que realmente queremos. Son automatizaciones simples y no están a la altura de la verdadera definición de agente. Como resultado, es probable que las esperanzas empresariales de los agentes se encuentren con una amarga decepción en el corto plazo. Los agentes carecen de tecnología clave y puede ser necesaria otra generación de evolución de la IA para generar los beneficios esperados.
El lío de los agentes de IA hoy
Aquí está el desafío clave: ¿Cómo desarrollamos grandes modelos de lenguaje, como GPT de OpenAI y Gemini de Google, para operar durante largos períodos de tiempo en los que tienen objetivos amplios? interactuar con su entorno, incluidas las herramientas; recuperar y almacenar datos constantemente; y (el mayor desafío) establecer nuevas metas y estrategias desde cero.
Aún no hemos llegado a ese punto. Ni siquiera estamos cerca. Los bots actuales se limitan a interacciones de chat y, a menudo, fallan fuera de ese estrecho contexto operativo. Por ejemplo, lo que Microsoft llama «agente» en la suite de productividad Microsoft 365, probablemente la instancia más conocida de agente, es simplemente una forma de generar automáticamente un documento de Word.
Los datos del mercado muestran que los agentes no han despegado. Un estudio publicado este mes por la firma de capital de riesgo Menlo Ventures reveló que el área de aplicaciones de IA de más rápido crecimiento consiste casi en su totalidad en programas copiloto más simples, como ChatGPT Enterprise, Claude for Work y Microsoft Copilot, versus IA agente, incluidos Salesforce Agentforce, Writer y Glean.
Sin duda, las automatizaciones simples pueden generar beneficios, como ayudar al operador de un centro de llamadas o gestionar rápidamente numerosas facturas. Sin embargo, un creciente conjunto de informes académicos y técnicos ha puesto de relieve las limitaciones de los agentes actuales, que no han logrado avanzar más allá de estas automatizaciones básicas.
Como señalan sucintamente los investigadores Gaurav Kumar y Anna Rana de la Universidad de Stanford y la escuela de negocios IESE de la Universidad de Navarra en una descripción general de los agentes publicada este mes, «Los modelos de lenguaje grandes han demostrado capacidades impresionantes en razonamiento y planificación (pero) los agentes basados en LLM continúan fallando en tareas de planificación complejas de varios pasos, exhibiendo con frecuencia violaciones de restricciones, seguimiento de estado inconsistente y soluciones frágiles que se rompen ante cambios menores».
La industria también ha notado el problema. Como señaló este mes el director general de negocios comerciales de Microsoft, Judson Althoff, en una conferencia tecnológica de Wall Street, «hay una tasa de fracaso extraordinariamente alta en los proyectos de IA, superior al 80%». Aunque no mencionó específicamente a los agentes, los intentos de implementar agentes probablemente se encuentren entre los aspectos más espinosos de la implementación de la IA.
Existen numerosas herramientas agentes disponibles en la actualidad, pero no son la respuesta. Ofertas como Foundry IQ de Microsoft permiten a una empresa crear miles de tipos diferentes de agentes. Eso es bueno, pero las deficiencias de los agentes son inherentes a la tecnología en un nivel fundamental, y las herramientas hábiles no resolverán esas deficiencias.
Microsoft y otros gigantes tienen mucho personal que ayuda a los clientes a crear «flujos de trabajo agentes»: envían equipos in situ de «ingenieros desplegados» para que los apoyen. Eso es bueno, pero tomarse de la mano no solucionará las deficiencias tecnológicas fundamentales.
Esperando refuerzo
Antes de que los agentes puedan estar a la altura de la exageración del «código totalmente autónomo» de Microsoft y otros, deben superar dos deficiencias tecnológicas principales. La investigación en curso en toda la industria se centra en estos dos desafíos:
- Desarrollar un enfoque de aprendizaje por refuerzo para el diseño de agentes.
- Reingeniería del uso de la memoria por parte de la IA, no sólo de chips de memoria como la DRAM, sino de todo el fenómeno del almacenamiento y recuperación de información.
El aprendizaje por refuerzo, que existe desde hace décadas, ha demostrado resultados sorprendentes al permitir que la IA lleve a cabo tareas durante un horizonte temporal muy largo.
El ejemplo más notable es AlphaZero de Google DeepMind, que fue capaz de formular reglas para el ajedrez y el juego de Go desde cero y luego avanzar a través de juegos completos a un nivel igual o mejor que el de un humano. Todo eso fue el resultado del aprendizaje por refuerzo.
El aprendizaje por refuerzo implica un programa de inteligencia artificial que genera predicciones de las recompensas que resultarán de tomar acciones en un estado de cosas determinado, conocido como entorno, y luego formula una política de acción para obtener esas recompensas.
El aprendizaje por refuerzo se ha empleado cada vez más para mejorar el «razonamiento» de LLM sobre un problema, como los modelos de IA de DeepSeek que sorprendieron al mundo a principios de 2025.
Varios proyectos intentan extender el aprendizaje por refuerzo más allá de las funciones de razonamiento para permitir una actividad sostenida de los agentes.
Mingyue Cheng y sus colegas de la Universidad de Ciencia y Tecnología de China dieron a conocer en noviembre lo que llaman Agente-R1, una forma de capacitar a los LLM con aprendizaje reforzado para predecir recompensas e idear políticas.
Cheng y su equipo enfatizaron que los agentes deben ir más allá de los flujos de trabajo automatizados y las indicaciones simples para adoptar un enfoque más autónomo.
«Los flujos de trabajo dependen de enrutamiento o planificación diseñados por humanos, mientras que los agentes completamente autónomos eliminan los flujos de trabajo predefinidos e interactúan con el entorno de manera proactiva a través de un ciclo de acción y retroalimentación de un extremo a otro», escribió el equipo.
Para construir algo que realice múltiples operaciones sin que se le solicite constantemente, Cheng y su equipo tuvieron que agregar componentes a los LLM, como un orquestador. El orquestador monitorea lo que sucede cuando un agente usa una herramienta, como llamar a un programa externo a través de una API. Luego actualiza aspectos como el modelo del entorno, las recompensas y la política.
Aunque R1 funciona mejor que un LLM solicitado en tareas de «saltos múltiples», del tipo que tiene múltiples tareas sucesivas, Cheng y su equipo enfatizan que la IA agente es, en su opinión, «un campo emergente».
«La aplicación efectiva de RL a agentes LLM aún se encuentra en sus etapas incipientes y enfrenta desafíos considerables», escribieron.
Otro grupo, dirigido por Mingyang Sun de la Universidad de Westlake, presentó Sophia este mes, que describen como un «envoltorio» que permite a un LLM realizar tareas durante «duraciones prolongadas» al interactuar con un navegador web.
Sophia es un prototipo, enfatizan Sun y su equipo, más bien una prueba de concepto de cómo agregar aprendizaje por refuerzo a los LLM.
Incluso desde la perspectiva optimista de Sun y su equipo, los LLM de hoy están lejos de ser agentes reales. «El rápido desarrollo de los LLM ha elevado a los agentes de IA de herramientas para tareas específicas a entidades de toma de decisiones de larga duración capaces de realizar una planificación independiente y una colaboración estratégica», escribieron. «Sin embargo, la mayoría de las arquitecturas existentes siguen siendo reactivas: se basan en configuraciones diseñadas manualmente que permanecen estáticas después de la implementación, diseñadas para tareas limitadas o escenarios fijos».
Cómo los agentes aprenden por sí mismos
En el horizonte se vislumbra un cambio significativo en el propio aprendizaje por refuerzo, lo que podría ser una bendición o complicar aún más las cosas. ¿Puede la IA diseñar mejor el aprendizaje por refuerzo que los humanos?
Ésa es la pregunta que plantea la unidad DeepMind de Google, creadores de AlphaZero, en un estudio publicado este mes en Naturaleza revista. Un programa de inteligencia artificial llamado DiscoRL inventa automáticamente algoritmos mejorados de aprendizaje por refuerzo que, a su vez, conducen a mejores agentes.
El enfoque DiscoRL es un enfoque de metaaprendizaje que observa los resultados de múltiples agentes y luego refina las predicciones y políticas que formula cada agente. Como tal, puede adaptar agentes para «entornos radicalmente diferentes», a diferencia de las reglas de aprendizaje por refuerzo hechas a mano que a menudo son específicas de un problema determinado.
El equipo de DeepMind se refiere a este enfoque como permitir a los agentes «descubrir algoritmos de aprendizaje por sí mismos».
Eso podría acelerar todo el campo del aprendizaje por refuerzo al eliminar el aprendizaje por refuerzo diseñado por humanos, del mismo modo que AlphaZero prescindió de ejemplos humanos de ajedrez y Go, y en lugar de ello domina los juegos descubriendo sus reglas.
Lo que se desconoce es cuán generalizado puede ser ese enfoque. DeepMind describe cómo los agentes de DiscoRL lograron dominar los videojuegos de Atari como Ms Pac-Man. Pero ésa es un área en la que el aprendizaje por refuerzo previo ya ha demostrado ser útil. ¿Podría este enfoque dominar desde cero la gestión de las relaciones con los clientes empresariales o los flujos de trabajo de procesamiento de reclamaciones de seguros? Aún no lo sabemos.
Esperando un recuerdo real
El otro avance tecnológico clave que está por llegar es un replanteamiento completo de cómo los agentes almacenan y recuperan datos, lo que se conoce en términos generales como el uso de memoria de los agentes.
Un agente de IA desarrollado a través del aprendizaje por refuerzo debe mantener una historia del entorno, incluidas las acciones tomadas y la posición actual del agente dentro de una política general de acción: funciones íntimamente ligadas a la memoria.
Los LLM de hoy luchan por mantener el hilo de la conversación en múltiples turnos.
Cualquiera que haya utilizado un chatbot para un gran proyecto notará que los errores se vuelven más frecuentes, ya que a veces los bots pueden insertar por error información que surgió mucho antes en la conversación. Yo mismo describí esa situación cuando usé ChatGPT durante varios días para formular un plan de negocios y comenzó a insertar variables incorrectas en el cálculo.
Los investigadores observan los mismos tipos de fracasos en largos períodos de trabajo cuando se trata de agentes.
El grupo de IA centrada en el ser humano de Stanford, en su informe anual sobre el estado de la IA publicado en abril, señaló que los agentes se quedan atrás de la capacidad humana cuanto más tiempo se les pide que actúen. «En entornos de horizonte temporal corto (presupuesto de dos horas), los mejores sistemas de IA obtienen puntuaciones cuatro veces más altas que los expertos humanos, pero a medida que aumenta el presupuesto de tiempo, el rendimiento humano supera a la IA, superándola dos a uno en 32 horas».
En un informe publicado este mes, el autor principal, Yuyang Hu, de la Universidad Nacional de Singapur e instituciones colaboradoras, escribió que la memoria es la clave para aliviar esos fracasos.
Un LLM típico utiliza sólo sus datos más recientes, lo que está en su «ventana contextual», como la información más reciente que escribió en el mensaje.
Sin embargo, para convertirse en «agentes adaptativos capaces de adaptarse continuamente a través de la interacción ambiental», como dicen, los agentes requieren «información adicional derivada de interacciones previas, tanto dentro de la tarea actual como entre tareas previamente completadas».
Se ha dedicado mucho trabajo a enfoques de recuperación, como la generación de recuperación aumentada (RAG) y las bases de datos vectoriales. De hecho, Hu y su equipo han elaborado un esquema fantástico de todos los tipos de memoria a los que los agentes pueden tener acceso. Vale la pena verlo de cerca:
Pero no basta con tener una historia en la memoria; La gestión de la memoria en sí debe evolucionar, sostienen Hu y su equipo. Su argumento, puramente teórico por el momento, es que todo el control de la memoria eventualmente se reinventará a medida que los agentes «aprendan» cómo almacenar y recuperar datos mediante el aprendizaje por refuerzo.
Se puede ver que se trata de un problema un tanto circular: el aprendizaje por refuerzo requiere nuevas formas de almacenamiento y recuperación de la memoria de la computadora para progresar, pero el desarrollo de nuevas formas de gestión de la memoria puede depender del aprendizaje por refuerzo.
AGI no lo resolverá
Estos grandes pasos no se darán de la noche a la mañana. No se trata de que una sola empresa, como DeepMind o Microsoft, ofrezca un nuevo LLM o incluso nuevas herramientas de LLM. Lo que se requiere es un salto tecnológico.
Tampoco es probable que estas cosas puedan resolverse mágicamente en el corto plazo mediante la inteligencia artificial general (AGI), el legendario pináculo de la IA donde los programas logran alguna forma de actividad inteligente equivalente, en términos generales, al pensamiento humano.
El mayor ejemplo de aprendizaje por refuerzo que hemos visto, AlphaZero, no fue un general inteligencia; fue un solucionador de problemas específico. Resolvió el ajedrez porque las reglas del ajedrez se pueden definir cuidadosamente y porque es un juego de «información completa», donde el llamado entorno, el tablero y las piezas de ajedrez, se pueden describir explícita y completamente.
Ese no es el caso de las prácticas de facturación empresarial, las llamadas de servicio al cliente y la gestión de tickets de problemas de TI. Nuevamente, no sabemos qué tan bien se generalizará el enfoque DiscoRL desde Atari a estas tareas más complicadas.
El resultado: dada la complejidad de rediseñar el aprendizaje por refuerzo y la memoria, nos queda una espera muy larga. A juzgar por el tiempo que llevó pasar del revolucionario LLM original de Google, el Transformer, en 2017, a su progenie, ChatGPT, en 2022, una estimación optimista del tiempo necesario para que la industria consiga agentes confiables es de otros cinco años.



