Siga ZDNET: Agréganos como fuente preferida en Google.
Conclusiones clave de ZDNET
- Fable 5 acelera la tasa de éxito de la IA en tareas remotas al 16%.
- Las capacidades de IA permanecen por todo el mapa.
- Aún así, las habilidades de los agentes se han «cuadruplicado en menos de ocho meses», dijo CAIS.
Después de una breve pausa, el elogiado modelo Fable 5 de Anthropic está de regreso y está restableciendo el estándar para la automatización del trabajo.
El gobierno de EE. UU. volvió a autorizar el modelo, que según Anthropic comparte similitudes de capacidad con Mythos 5, que todavía solo está disponible para el uso de organizaciones seleccionadas, el 30 de junio. Pero antes de que fuera retirado, el Centro para la Seguridad de la IA (CAIS) probó Fable 5 en su Índice de Trabajo Remoto (RLI), publicado en octubre de 2025. Superó al Opus 4.8 de Anthropic y al GPT-5.5 de OpenAI, cada uno relativamente nuevo y considerado impresionante, fuera de el agua.
RLI mide «la frecuencia con la que los agentes de IA pueden completar proyectos autónomos reales y económicamente valiosos (…) con una calidad que un cliente que paga realmente aceptaría», explicó CAIS en el estudio. Estos pueden incluir diseño gráfico y asistido por computadora, análisis de datos, trabajo en video y más. Como en otras pruebas similares de capacidad humana, cada entregable que crean los modelos es evaluada por humanos comparándola con un entregable estándar profesional. La tasa de automatización resultante refleja la distribución de proyectos en los que los evaluadores encontraron que lo que produjo la IA era tan bueno o mejor que el trabajo profesional humano.
CAIS pidió a Fable 5, GPT-5.5 y Opus 4.8 que diseñaran una maqueta 3D de un anillo de compromiso, crearan un anuncio de video y trazaran un plano, entre otras pruebas. Los investigadores le dieron a cada modelo archivos de entrada generados por humanos para comenzar, de manera similar a cómo prepararía a un profesional independiente con documentos e información relevantes para un trabajo.
Fable 5 alcanzó una tasa de automatización del 16,1%, un récord para el punto de referencia, y el doble que Opus 4.8, que obtuvo un 8,3%. GPT-5.5 quedó en tercer lugar con un 6,3%, pero CAIS señaló que los tres modelos obtuvieron puntuaciones más altas que todos los modelos evaluados hasta ahora.
«Para poner en contexto, el líder publicado anteriormente se situó en el 4,17% (Opus 4.6 con el andamio de Claude Cowork), y el campo alcanzó un máximo del 2,5% cuando se publicó RLI», dijo CAIS. «La frontera se ha más que cuadriplicado en menos de ocho meses, una señal concreta de lo rápido que están avanzando los agentes de IA económicamente capaces».
CAIS señaló que sus pruebas se vieron interrumpidas por el cierre del gobierno de Fable 5 a mediados de junio, pero que incluso estos resultados parciales distinguen al modelo.
«Incluso bajo el peor supuesto de que Fable 5 fallara en todos los proyectos faltantes, su tasa de automatización seguiría siendo del 14,6%, más alta que la de cualquier otro modelo», dijeron los investigadores.
Qué significa esto para los autónomos
Si bien la tasa de aceleración del modelo de IA es significativa en solo unos pocos meses, eso no se traduce automáticamente en el reemplazo o la pérdida de empleos independientes en todos los ámbitos. El dieciséis por ciento aún no se acerca al 100%. Más allá de eso, a pesar de los beneficios demostrables, la IA no es una solución perfecta y atractiva para todas las organizaciones; Las preocupaciones de seguridad y otros obstáculos a la adopción a menudo hacen que la integración de herramientas de IA sea un proceso lento y de varios pasos para la mayoría de las empresas, al menos al principio. Para reemplazar completamente a los trabajadores autónomos humanos, las organizaciones probablemente necesitarían una red de agentes para verificar elementos como la calidad del trabajo, el presupuesto y el cronograma; la compensación no es uno a uno.
CAIS intentó reemplazar al evaluador humano con un «juez LLM», aparentemente para ver qué tan lejos del ser humano podía llegar razonablemente este experimento, pero el modelo falló.
«Evaluar un resultado de RLI es en sí mismo una tarea exigente y de agencia», explicó CAIS. «Hacerlo correctamente significa abrir los archivos del proyecto en las aplicaciones profesionales adecuadas, operar esas aplicaciones de manera competente y formarse un juicio como lo haría un cliente, las mismas habilidades de uso de computadoras en las que los agentes de hoy en día todavía son más débiles».
Dicho esto, mejorar las capacidades podría reducir algunas oportunidades de autónomos para empresas específicas que ya integran con éxito la IA. Además, si las habilidades para el uso de computadoras son la limitación actual y están a punto de mejorar en función de la inversión de la industria en modelos cada vez más agentes, ese obstáculo podría eventualmente desaparecer. Al ritmo, los modelos han ido mejorando otros puntos de referencia que miden la habilidad de los agentes, que pueden llegar antes de lo que podemos imaginar.
Hablando de tiempo: CAIS también descubrió que cuando una tarea le lleva más tiempo a un humano, eso no significa necesariamente que será más difícil de completar para la IA. Ese análisis de horizonte temporal es válido para la codificación, por ejemplo, pero no para la gama más amplia de tareas remotas para las que mide RLI. En este momento, es difícil sacar conclusiones de esto para el futuro.
«Algunos trabajos que son rápidos para un profesional calificado permanecen fuera del alcance (de la IA), como transcribir música o probar un juego en tiempo real, mientras que otros trabajos que tomarían horas a una persona, como el arte digital o la codificación, los modelos actuales los terminan en minutos», escribió CAIS.



