Estos 30 principales agentes de IA ofrecen una combinación de funciones y autonomía

Tabla de contenido

Siga ZDNET: Agréganos como fuente preferida en Google.

Conclusiones clave de ZDNET

El MIT publicó una lista de los principales agentes de IA y sus funcionalidades.
La mayor parte se centra en los flujos de trabajo empresariales.
La investigación y la síntesis de información son el principal caso de uso.

¿Qué agentes autónomos o semiautónomos están teniendo el mayor impacto en el mundo (y potencialmente en su trabajo) en estos días? Ciertos agentes acaparan todos los titulares últimamente, pero hay una serie de agentes con funciones específicas disponibles para desarrolladores y usuarios.

- Advertisement -[wpcode id="699"]

¿Cuál es la funcionalidad y origen de los agentes líderes? Los investigadores descubrieron que las interfaces son las más abundantes, seguidas de cerca por las plataformas de flujo de trabajo empresarial. También descubrieron riesgos compartidos entre estos agentes, como lo exploró mi colega de ZDNET, Tiernan Ray.

Los agentes que aparecen en el índice del MIT incluyen los siguientes:

Claude antrópico/Código Claude
CLI de Google Géminis/Géminis
Manus AI
OpenAI ChatGPT/Agente ChatGPT/Codex/AgentKit
Perplejidad
Agente móvil de Alibaba
Agente ByteDance TARS
Cometa de perplejidad
Orquestación IBM Watsonx
Copiloto de Microsoft 365
Estudio SAP Joule
Salesforce Agentforce
Agentes de IA de ServiceNow

Aquí están las tres categorías principales de agentes identificados por los investigadores:

Agentes de flujo de trabajo empresarial (13 sistemas de los 30 sistemas cubiertos): Se trata de plataformas con funciones de agencia para automatizar tareas comerciales. Los ejemplos incluyen Microsoft 365 Copilot y ServiceNow Agent.

- Advertisement -[wpcode id="699"]

Leer Los desarrolladores ahora pueden agregar datos en vivo de Google Maps a las salidas de la aplicación de IA impulsada por Gemini

Aplicaciones de chat con herramientas agentes (12 sistemas): Según los investigadores, esta categoría incluye principalmente interfaces de chat con amplio acceso a herramientas. Los ejemplos incluyen agentes de codificación de propósito general como Claude Code, así como agentes integrados en productos más amplios como Manus AI y ChatGPT Agent.

Agentes basados en navegador (5 sistemas): Estos son agentes cuya interfaz principal es el uso del navegador o de la computadora, con amplias herramientas de interacción entre el navegador y la computadora. «Se diferencian de los agentes de chat con capacidades de búsqueda web (búsqueda web ChatGPT, búsqueda web Claude) que realizan principalmente recuperación y resumen», afirman los investigadores. «Los agentes basados en navegador presentan mayores riesgos a través de la ejecución en segundo plano, activadores de eventos y transacciones directas». Los ejemplos incluyen Perplexity Comet, ChatGPT Atlas, ByteDance Agent TARS.

¿Cuáles son los usos más populares de los agentes de IA?

Los principales casos de uso de los agentes de IA, que abarcan las categorías anteriores, incluyen la investigación y la síntesis de información, como se ve en 12 de los 30 agentes cubiertos, que abarcan tanto asistentes de chat para consumidores como plataformas empresariales. Justo detrás de esta funcionalidad está la automatización del flujo de trabajo en todas las funciones comerciales, como recursos humanos, ventas, soporte y TI, habilitada por 11 agentes, que se encuentran principalmente en productos empresariales. Los agentes centrados en la GUI o las capacidades del navegador, utilizados para tareas como formularios, pedidos y reservas, están presentes en siete de los modelos.

Los niveles de autonomía varían considerablemente, encontraron los investigadores. Los asistentes de chat primero mantienen los niveles más bajos de autonomía. Estos se basan en interacciones por turnos e incluyen Anthropic Claude, Google Gemini y OpenAI ChatGPT, que «ejecuta un único conjunto de acciones y espera el siguiente mensaje del usuario».

Leer He usado Rakuten durante un año y gané casi $ 500, así es como

En el extremo superior de la autonomía, los agentes de navegador ofrecen «oportunidades más limitadas para la intervención a mitad de ejecución». Estos incluyen el Cometa de Perplexity, que realiza tareas de forma autónoma una vez que se le solicita. «Una vez enviada una consulta, los usuarios no pueden intervenir fácilmente ni dirigir al agente hasta que finalice».

Las plataformas empresariales están divididas en lo que respecta a la autonomía de los agentes. «Durante la fase de diseño, los usuarios configuran manualmente activadores, acciones y barreras de seguridad utilizando lienzos visuales», escribieron los investigadores. Otros pueden ofrecer asistencia de IA con este proceso. Una vez desplegados, estos agentes suelen operar con niveles más altos de autonomía, «activados por eventos como un nuevo correo electrónico o un cambio en la base de datos, sin ninguna participación humana durante la ejecución real de la tarea». Dichos agentes incluyen Glean, Google Gemini Enterprise, IBM watsonx, Microsoft 365 Copilot, n8n y OpenAI AgentKit.

Algunas ofertas se consideran agentes de desarrollador/interfaz de línea de comandos (CLI) que requieren confirmación explícita para operaciones confidenciales, como ediciones de archivos y ejecución de comandos. Algunos agentes ofrecen «modo de vigilancia» para la supervisión en tiempo real de acciones críticas, incluidos ChatGPT Agent/Atlas y Opera Neon.

- Advertisement -[wpcode id="699"]

El estudio también encontró que los desarrolladores de agentes se concentran en EE. UU. y China, con una representación limitada de otras regiones.