Rastreador de lanzamientos de modelos AI: tasas de desalineación de Opus 4.8 similares a las de Claude Mythos Preview

Publicado el:

spot_img
- Advertisment -spot_img

Siga ZDNET: Agréganos como fuente preferida en Google.


Los laboratorios de IA envían nuevos modelos sin parar. Sin embargo, además de ser mejores y más rápidos que sus predecesores, no se garantiza que cada nuevo modelo sea un cambio importante, a pesar de que las relaciones públicas de la compañía pueden volverse poéticas sobre ellos. Las fortalezas del modelo realmente surgen en contexto: ¿dónde faltan o sobresalen los modelos de la competencia? ¿Qué modelos tienen especialidades sobresalientes y cuáles apenas están alcanzando los estándares de la industria?

- Advertisement -[wpcode id="699"]

Nuestro Model Release Tracker le ayuda a entender dónde se encuentran los modelos entre sí y si merecen una mirada más profunda. Si bien no probamos todos los modelos o actualizaciones de modelos en esta lista, siempre incluiremos los elementos clave que necesita saber, junto con nuestra prueba práctica de expertos, cuando corresponda. También incluimos una puntuación de experto para ciertos modelos. ¿Tienes curiosidad por saber cómo probamos la IA? Consulte este desglose de nuestro proceso.

Estos son algunos de los lanzamientos de modelos más importantes de 2026 hasta ahora y lo que debe saber sobre ellos. Actualizaremos esta lista cada vez que llegue un nuevo modelo notable.


Claude Opus 4.8

Antrópico | 28 de mayo de 2026

Qué hace: Reemplazando a Opus 4.7 a partir de hoy (al mismo precio), Opus 4.8 ofrece modos de pensamiento más rápidos por un tercio del costo de la versión anterior, según Anthropic. Como la mayoría de los modelos de Anthropic, 4.8 prioriza las capacidades de codificación, con una puntuación superior a 4,7 en dos puntos de referencia de codificación, pero no supera por completo al GPT 5.5 de OpenAI. También «alcanza nuevos máximos en nuestras medidas de rasgos prosociales como apoyar la autonomía del usuario y actuar en el mejor interés del usuario», señaló la compañía en el comunicado, aunque las definiciones de lo que eso significa siguen siendo confusas.

- Advertisement -[wpcode id="699"]

Por qué es importante: Anthropic siempre ha priorizado la seguridad y la interpretabilidad del modelo, pero parece estar enfatizando aún más ese estándar con esta versión. La compañía dijo que Opus 4.7 tenía una tasa de honestidad del 92%, además de ser menos adulador y propenso a alucinaciones en general. El hecho de que afirme que 4.8 muestra tasas de desalineación «sustancialmente» más bajas que 4.7 indica un estándar cada vez más alto para la seguridad del modelo, especialmente porque Anthropic comparó la alineación de 4.8 con la de Mythos Preview.


GPT-5.5 instantáneo

Abierta AI | 5 de mayo de 2026

que hace: OpenAI dijo en su anuncio que la versión más ligera del GPT-5.5 recién lanzado de OpenAI es menos detallada que su predecesor, GPT-5.3 Instant. También promocionó menos alucinaciones y una mayor factualidad, diciendo que «GPT-5.5 Instant produjo un 52,5% menos de afirmaciones de alucinaciones que GPT-5.3 Instant en indicaciones de alto riesgo que cubren áreas como medicina, derecho y finanzas».

Leer  La nueva herramienta de animación de MidJourney convierte las imágenes en videos cortos: así es como

¿Por qué? asuntos: GPT-5.5 Instant reemplaza a GPT-5.3 como modelo predeterminado en ChatGPT. Una vez más, si bien la expectativa es que cada nuevo modelo de IA se vuelva más eficiente, más fácil de usar y constituya menos cosas, una mejora significativa en las alucinaciones para un modelo que la mayoría de la gente usa para consultas rápidas podría significar que se difunda menos información errónea entre las masas. Esto es especialmente crítico dada la cantidad de personas que utilizan ChatGPT para preguntas de salud cotidianas, por ejemplo.

(Divulgación: Ziff Davis, la empresa matriz de ZDNET, presentó una demanda en abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis al entrenar y operar sus sistemas de IA).


Nemotrón 3 Nano Omni

NVIDIA | 28 de abril de 2026

Qué hace: Este modelo, el último de la familia abierta Nemotron de Nvidia, proporciona a los agentes entrada multimodal. Eso significa que pueden «percibir y razonar a través de entradas visuales, de audio y textuales dentro de un único bucle compartido de percepción a acción», según Nvidia, unificando así múltiples capacidades en un solo sistema.

- Advertisement -[wpcode id="699"]

¿Por qué? asuntos: Normalmente, los sistemas de agentes necesitan usar modelos separados para voz, visión y texto, lo que significa que saltan entre documentos, videos y audio para completar tareas de varios pasos. Esto ralentiza los flujos de trabajo, socava el contexto que recopilan los agentes y aumenta los costos de inferencia. El enfoque de Nvidia, si funciona, agilizaría este proceso y reduciría el uso de tokens, ahorrándole dinero. Pruébalo en Hugging Face.


GPT-5.5

Abierta AI | 23 de abril de 2026

Puntuación de experto: 93/100

Qué hace: David Gewirtz, evaluador residente de ZDNET, técnicamente le dio a GPT-5.5 una puntuación A, pero dijo que «puede describirse de manera reductiva como mejor y más rápido que GPT-5.4», que es de esperar que sea la expectativa mínima para un nuevo modelo. Sin embargo, específicamente, el modelo mejoró en la codificación agente, identificando claramente conceptos, investigaciones científicas y precisión fáctica.

Por qué es importante: Si bien el modelo en sí puede no estar a pasos agigantados por delante de su predecesor inmediato, el rápido cambio de 5.4 a 5.4 (menos de dos meses) indica cuán rápidamente la codificación agente está acelerando el ciclo de lanzamiento del modelo de OpenAI. A medida que David Gewirtz colapsa, la empresa, al igual que otros laboratorios de vanguardia que utilizan IA para construir IA, envía actualizaciones a un ritmo exponencialmente creciente.

Leer  Deezer dice que el 44% de las canciones que se suben diariamente a su plataforma están generadas por IA

Imágenes ChatGPT 2

Abierta AI | 23 de abril de 2026

Qué hace: Poco después de cerrar Sora, su modelo de video generativo y plataforma social, OpenAI anunció de manera algo confusa Images 2. El probador de modelos ZDNET, David Gewirtz, echó un vistazo temprano a Images 2 antes de su lanzamiento y quedó impresionado. Si bien no le dio a este modelo una puntuación de experto formal, dijo que es divertido, un gran salto y realmente útil para el trabajo.

Por qué es importante: OpenAI parecía estar saliendo del juego de productos de IA más orientados al consumidor cuando descontinuó Sora, después de haber sido derrotado por Anthropic en la obtención de lucrativos contratos empresariales. El hecho de que OpenAI todavía haya lanzado Images 2 dentro de esa narrativa de redirección indica que considera que los generadores de imágenes son lo suficientemente relevantes para la IA empresarial, especialmente después de Claude Design de Anthropic.


Claude Opus 4.7

Antrópico | 16 de abril de 2026

que es hace: Este modelo, que llegó relativamente rápido después del Opus 4.6, cuenta con nuevos máximos en honestidad, reducción de adulación y alucinaciones. También parece tener una habilidad especial para la ciberseguridad, ya que respalda el nuevo Claude Security, lanzado poco después del modelo en sí, pero no, no es Mythos, como muchos sospechaban.

Por qué es importante: Las alucinaciones y la honestidad se encuentran entre los problemas más difíciles y difíciles de resolver que afectan incluso a las mejores modelos. Que Anthropic reclame avances tan significativos en esas áreas no es poca cosa para un laboratorio de inteligencia artificial que se toma en serio la seguridad.


Claude Mythos (Avance)

Antrópico | 7 de abril de 2026

que es hace: Esta es una pregunta difícil porque Mythos en realidad no está disponible para el público. Anthropic creó una gran tormenta mediática cuando posicionó el nuevo modelo de propósito general como demasiado poderoso para lanzarlo como de costumbre. Si bien el modelo es aparentemente un cambio radical con respecto a los modelos Anthropic anteriores, la compañía estaba especialmente alarmada por la amenaza a la seguridad que representaba, afirmando que «es sorprendentemente capaz en tareas de seguridad informática».

En respuesta a eso, Anthropic encabezó el Proyecto Glasswing, un esfuerzo de colaboración con varios laboratorios de IA rivales, incluidos Google, Nvidia y Microsoft, así como autoridades de seguridad como Palo Alto Networks, «para ayudar a proteger el software más crítico del mundo y preparar a la industria para las prácticas que todos necesitaremos adoptar para adelantarnos a los ciberatacantes».

Por qué es importante: Si vamos a creer en la guía de Anthropic de que Mythos representa una amenaza significativa para el software del mundo, hasta el punto de que sólo unos pocos socios selectos pueden acceder a él, los aparatos de ciberseguridad tal como están pueden no estar preparados para enfrentar la frontera en rápida evolución de las capacidades del modelo. Puede que Mythos no sea el único modelo de su calibre, sino simplemente el primero de muchos que surgirán una vez que otros laboratorios logren avances similares.

Leer  Los ataques a la nube son cada vez más rápidos y letales: 4 formas de proteger su negocio

Por ahora, apenas unas semanas después de su lanzamiento, Mythos está ayudando a detectar errores de software en masa.


GPT-5.4

Abierta AI | 5 de marzo de 2026

que es hace: OpenAI enmarcó este nuevo modelo, lanzado apenas tres meses después de GPT-5.2, como diseñado específicamente para el trabajo profesional. Según las pruebas de la propia empresa (que siempre deben tomarse con cautela hasta que las verifique un tercero), GPT-5.4 iguala o supera a los profesionales humanos el 83% de las veces.

Por qué es importante: A medida que las empresas de IA se centran más en ganarse la confianza empresarial (y los contratos) y al mismo tiempo elogian lo que la IA agente puede hacer, necesitan modelos que puedan manejar tareas complejas relacionadas con el trabajo con riesgos mínimos, retrasos o costos prohibitivamente altos. Cualquier avance de modelo que demuestre destreza en los flujos de trabajo profesionales tiene más posibilidades de ser tomado en serio por las empresas que luchan por adoptar la IA, aunque nada garantiza una integración perfecta.


Claude Opus 4.6

Antrópico | 5 de febrero de 2026

que es hace: Este modelo redefinió rápidamente el estándar para el trabajo de agencia autónomo, especialmente para la codificación. Esto no sorprende dada la autoridad de Anthropic en la construcción de modelos especialmente aptos para tareas de programación. Opus 4.6 también demostró una mejora general en tareas complejas y de mayor duración.

Por qué es importante: La capacidad de Opus 4.6 para manejar mejor las tareas por sí solo significa que puede descargarle de manera confiable más flujo de trabajo, algo con lo que las ofertas de agentes generalmente tienen problemas.


GPT-5.3-Códice

Abierta AI | 5 de febrero de 2026

que es hace: Este nuevo modelo de codificación, que según OpenAI ayudó a construir y depurar, puede interrumpirse y redirigirse a mitad de la tarea, lo que, de ser cierto, es una gran ayuda para los desarrolladores que lo utilizan en proyectos complejos o cambiantes con toneladas de prueba y error. GPT-5.3-Codex también cuenta con tiempos de ejecución de más de un día y una mejor comprensión de la intención del usuario.

Por qué es importante: OpenAI está tratando de ponerse al día con el liderazgo de Anthropic en codificación agente (y, casualmente o no, lanzó 5.3 Codex el mismo día que Anthropic lanzó Opus 4.6). Si bien los expertos de ZDNET a menudo prefieren Claude Code a otras herramientas para la codificación ambiental, el rumoreado cambio de OpenAI hacia clientes empresariales y alejándose de las divertidas herramientas de consumo podría eventualmente cerrar esa brecha.

spot_img

Relacionada

Leave a Reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img