El nuevo GPT-5.4 de OpenAI supera a los humanos en el trabajo de nivel profesional en las pruebas: en un 83%

Tabla de contenido

Siga ZDNET: Agréganos como fuente preferida en Google.

Conclusiones clave de ZDNET

La puntuación del 83 % de GPT-5.4 sugiere que la IA rivaliza con los profesionales expertos.
Las pruebas abarcan nueve industrias y 44 ocupaciones del mundo real.
Las nuevas capacidades impulsan la codificación, las herramientas y el control informático.

Parece que fue ayer que OpenAI lanzó al mundo su modelo GPT-5.2. De hecho, han pasado menos de tres meses. El jueves, OpenAI lanzará el modelo de pensamiento de GPT-5.4.

- Advertisement -[wpcode id="699"]

¿Qué significa eso exactamente? En este artículo, abordaré brevemente el anuncio oficial y los detalles de disponibilidad, y luego me sumergiré en lo que creo que es el detalle más sorprendente: GPT-5.4 puede igualar o superar a los profesionales humanos el 83% de las veces, según OpenAI.

(Divulgación: Ziff Davis, la empresa matriz de ZDNET, presentó una demanda en abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis al entrenar y operar sus sistemas de IA).

Detalles de disponibilidad

OpenAI dice que GPT-5.4 es «el modelo de frontera más capaz y eficiente para trabajos profesionales complejos». Dentro de ChatGPT, la empresa llama a este modelo GPT 5.4 Thinking. También hay lanzamientos para la API, dentro de la herramienta de programación Codex y en una versión GPT-5.4 Pro.

En términos de rendimiento general, la compañía dice que GPT-5.4 tiene «un 18% menos de probabilidades de contener errores, y las afirmaciones individuales tienen un 33% menos de probabilidades de ser falsas en comparación con GPT-5.2, basándose en indicaciones en las que los usuarios previamente señalaron errores fácticos».

- Advertisement -[wpcode id="699"]

Siempre es agradable cuando una inteligencia artificial extremadamente poderosa inventa cosas con menos frecuencia.

En cuanto a disponibilidad, la empresa ofrecerá GPT-5.4 vía API el viernes. Se «implementará» en los niveles pagos de ChatGPT y en Codex, lo que presumiblemente significa que aparecerá bastante pronto para la mayoría de los usuarios.

Pero ¿qué pasa con GPT-5.3?

No me alegra decir esto, pero las convenciones de nomenclatura de OpenAI me dan dolor de cabeza. Cuando se trata de nombres, parece que despidió a todos sus gerentes de producto experimentados y los reemplazó con una instancia GPT-3.5 de 2022.

Bueno, OpenAI lanzó GPT-5.3-Codex el mes pasado. Esa es la primera versión del Codex que se utilizó a sí mismo para ayudarse a construirse. Skynet, ¿alguien?

Entonces, hace dos días…hace dos dias lanzó GPT-5.3 Instantáneo. Esto, según la empresa, «hace que las conversaciones cotidianas sean más útiles y fluidas». Está disponible para todos los usuarios de ChatGPT. En la API, se publica como gpt-5.3-chat-latest. No gpt-5.3-chat-instant, porque tendría demasiado sentido.

Y ahora tenemos GPT-5.4. Entonces, en el espacio entre el martes y el jueves, OpenAI lanzó un GPT-5.3 y un modelo GPT-5.4. Tendrías que ser una IA para realizar un seguimiento de todo.

Debido a que estos crímenes contra las versiones coherentes me ponen nervioso, tuve que preguntarle al equipo de comunicaciones de OpenAI al respecto. Tuvieron paciencia y la amabilidad de responder:

GPT-5.4 es nuestro primer modelo de razonamiento principal que incorpora las capacidades de codificación de frontera de gpt-5.3-codex y que se está implementando en ChatGPT, la API y el Codex. Lo llamamos GPT-5.4 para reflejar ese salto y simplificar la elección entre modelos cuando se usa Codex. Con el tiempo, puede esperar que nuestros modelos Instantáneos y de Pensamiento evolucionen a diferentes velocidades.

- Advertisement -[wpcode id="699"]

Todavía no me gusta. Si Instant y Thinking son realmente dos productos separados, deberían tener versiones completamente separadas. 5.3 y 5.4 son demasiado parecidos y confusos. Si se consideran variantes diferentes del mismo producto, deben compartir números de versión.

Leer Pickle Robot incorpora al veterano de Tesla como primer director financiero

Pero bueno. OpenAI vale alrededor de 840 mil millones de dólares, y yo soy dueño de un Ford de 14 años. ¿Qué sé yo? Pasemos a la parte en la que todos nos preocupamos por nuestra seguridad laboral.

Probando la capacidad de la IA en el mundo real

En septiembre, OpenAI presentó una nueva prueba de evaluación de IA llamada GPTval. Es una prueba diseñada para medir qué tan bien se desempeñan los modelos de IA al realizar «tareas del mundo real económicamente valiosas».

La prueba mide el desempeño en nueve industrias y 44 ocupaciones. OpenAI eligió las industrias en función de aquellas que contribuyen con el 5% o más al producto interno bruto de EE. UU. Cada industria tiene ocupaciones únicas. Para la prueba, la empresa seleccionó hasta cinco ocupaciones, eligiendo aquellas que tenían menos del 40% de trabajo físico o manual, y que conforman aquellos empleos con los salarios totales más altos y la mayor compensación general.

Básicamente, eligió una muestra representativa de trabajos relacionados con el conocimiento donde la IA podría tener el mayor impacto «en la productividad del mundo real». La intención era que los modelos GPT pudieran ayudar a los profesionales a hacer más cosas, pero no es un gran salto inferir que estas ocupaciones también son las que corren mayor riesgo de reemplazo o aumento de la IA.

Así es como esas ocupaciones encajan en sus industrias.

Finanzas y seguros: Representantes de servicio al cliente, analistas financieros y de inversiones, gerentes financieros, asesores financieros personales, agentes de ventas de valores, materias primas y servicios financieros.
Comercio al por menor: Farmacéuticos, supervisores de primera línea de trabajadores de ventas minoristas, directores generales y de operaciones, detectives e investigadores privados.
Comercio mayorista: Gerentes de ventas, encargados de pedidos, supervisores de primera línea de trabajadores de ventas no minoristas, representantes de ventas (mayoristas y manufactureros, excepto productos técnicos y científicos), representantes de ventas (mayoristas y manufactureros, productos técnicos y científicos)
Bienes inmuebles y alquiler y arrendamiento: Conserjes, administradores de propiedades, bienes raíces y asociaciones comunitarias, agentes de ventas de bienes raíces, corredores de bienes raíces, empleados de mostrador y de alquiler
Gobierno: Trabajadores de recreación, oficiales de cumplimiento, supervisores de primera línea de policías y detectives, gerentes de servicios administrativos, trabajadores sociales infantiles, familiares y escolares.
Fabricación: Ingenieros mecánicos, ingenieros industriales, compradores y agentes de compras, empleados de envío, recepción e inventario, supervisores de primera línea de trabajadores de producción y operación.
Servicios profesionales, científicos y técnicos: Desarrolladores de software, abogados, contadores y auditores, administradores de sistemas informáticos y de información, especialistas en gestión de proyectos.
Atención sanitaria y asistencia social: Enfermeros registrados, enfermeros practicantes, gerentes de servicios médicos y de salud, supervisores de primera línea de trabajadores de oficina y de apoyo administrativo, secretarias médicas y asistentes administrativos.
Información: Técnicos de audio y video, productores y directores, analistas de noticias, reporteros y periodistas, editores de cine y video, editores

Leer ChatGPT ahora puede resumir sus reuniones: aquí le mostramos cómo usarlo (y quién puede)

Podría ser exigente en cuanto a qué ocupaciones tienen mayor impacto en las distintas industrias, pero esta selección es buena para probar el rendimiento general del modelo.

Las pruebas en sí son interesantes tanto por cómo se construyen como por cómo se miden.

OpenAI trabajó con profesionales experimentados en cada ocupación para crear un conjunto de tareas que «reflejan su trabajo diario». Todos los conjuntos de tareas pasaron por muchas rondas de revisión de expertos y dieron como resultado una serie de tareas complejas y completamente revisadas por industria.

Una de las tareas del ingeniero de fabricación, por ejemplo, implica el diseño de una plantilla (guía una herramienta) o un accesorio (sostiene el trabajo) para simplificar el enrollado y desenrollado de un carrete de cable para operaciones mineras subterráneas.

La calificación de cada una de estas pruebas fue realizada por profesionales humanos en cada una de las ocupaciones. A los evaluadores no se les dijo si los resultados provenían de la IA o de otros profesionales en sus campos.

Además, OpenAI creó un sistema de calificación automatizado basado en el trabajo de los calificadores humanos, para que los humanos no tengan que tomarse su tiempo para calificar cada iteración del modelo de IA. Estoy seguro de que OpenAI construyó este sistema automatizado con todas las salvaguardias adecuadas, pero me preocupa que pueda ser posible algún nivel de sesgo inherente al permitir que una IA califique el rendimiento de una IA.

Ethan Mollick, profesor asociado y codirector del Laboratorio de IA Generativa de Wharton, describe la prueba GDPval como «probablemente la medida económicamente más relevante de la capacidad de la IA».

83% del tiempo

La velocidad de mejora es una locura. GPT-5.1 se lanzó en noviembre y tuvo una puntuación del PIBval del 38,8%. En diciembre, apenas un mes después, el rendimiento de GPT-5.2 se disparó hasta casi el doble, hasta el 70,9%.

El profesor Mollick describió la importancia de que GDPval se ejecute en GPT-5.2. Dijo: «En una competencia cara a cara con expertos humanos en tareas que requieren de 4 a 8 horas para que un humano las realice, GPT-5.2 gana el 71% de las veces, según lo juzgan otros humanos».

Ahora, a principios de marzo, menos de tres meses después de GPT-5.2, ¡GPT-5.4 iguala o supera el rendimiento de los profesionales humanos el 83% del tiempo!

En otras palabras, casi cada vez que se asignó la misma tarea a un profesional humano experimentado y a GPT-5.4, la IA mantuvo el ritmo o superó al profesional humano experimentado, al menos, según su evaluador, que pudo haber sido humano o IA.

Siéntate con eso por unos minutos. No estamos hablando sólo de tareas de programación. Estamos hablando de una amplia gama de industrias y de una gama más amplia de ocupaciones de alto valor.

Según Daniel Swiecki, jefe de Soluciones de Inteligencia Artificial de Walleye Capital, «En nuestras evaluaciones más estrictas de finanzas internas y Excel, GPT-5.4 superó a los modelos anteriores, mejorando la precisión en 30 puntos porcentuales. Este cambio radical en la confiabilidad amplía materialmente nuestra automatización de actualizaciones de modelos y análisis de escenarios para inversores fundamentales».

Leer DeepSeek acaba de lanzar dos modelos de IA increíblemente poderosos que rivalizan con GPT-5 y son totalmente gratuitos

Lo extraño es que este tipo de actuación podría llevarnos en dos direcciones. Por un lado, podría ayudar a aumentar los profesionales humanos, brindando a las personas con experiencia la capacidad de hacer más cosas y más rápido. Por otro lado, bien podría verse como el presagio de una época en la que la IA simplemente está reemplazando a los humanos en trabajos de alto valor y alta calificación.

Probablemente el futuro no será todo lo uno ni lo otro. Pero incluso cuando OpenAI da una vuelta de victoria con su último lanzamiento, aquellos de nosotros que apoyamos a nuestras familias basándose en una vida de desarrollo de habilidades dentro de esas profesiones tenemos que retroceder, respirar profundamente, con preocupación, y esperar lo mejor.

Hablando personalmente, mi enfoque ha sido aprender todo lo que pueda, lo más rápido posible, y utilizar la IA tanto como pueda. Eso me ayuda a describirles todo esto, pero también me ayuda a aumentar mi productividad individual utilizando recursos de inteligencia artificial, particularmente para la programación.

Pero me preocupa. La caída de la IA es algo real y, a medida que la calidad de la caída de la IA aumenta cada vez más, cada uno de nosotros competiremos con un supercerebro gigante que nunca duerme, nunca come y está mejorando a una velocidad casi sobrenatural.

Más capacidades

Además del rendimiento general, GPT-5.4 mejora otras capacidades principales.

Uso de herramientas: GPT-5.4 mejora la forma en que los agentes de IA seleccionan y utilizan herramientas externas, lo que les permite completar flujos de trabajo de varios pasos de manera más precisa y eficiente al tiempo que reduce el uso de tokens.
Visión por computadora: El nuevo modelo mejora la comprensión visual, permitiéndole interpretar mejor imágenes complejas, analizar documentos y razonar sobre información visual con mayor precisión.
Capacidades de uso de la computadora: Dentro de la API y el Codex, GPT-5.4 introduce capacidades nativas de uso de computadoras que permiten a los agentes interactuar con sistemas de software a través de capturas de pantalla, comandos de teclado y mouse y flujos de trabajo automatizados entre aplicaciones.
Codificación: GPT-5.4 combina las fortalezas de codificación de GPT-5.3-Codex con un razonamiento y un uso de herramientas mejorados, lo que ayuda a los desarrolladores a crear, depurar e iterar en tareas de software complejas de manera más efectiva.

Manténganse al tanto. GPT-5.4 Thinking estará en su interfaz ChatGPT en breve. Que comience la competencia.

¿Qué opinas?

¿Qué opinas de la afirmación de GPT-5.4 de que puede igualar o superar a los profesionales humanos el 83% de las veces? ¿Parece esto un punto de referencia significativo para el trabajo en el mundo real?

¿Ha comenzado a integrar la IA en su propio flujo de trabajo profesional? Si es así, ¿dónde ayuda más o se queda corto? De cara al futuro, ¿ve herramientas como esta que aumenten principalmente la experiencia humana o que eventualmente reemplacen partes de ella?

Comparta sus pensamientos y experiencias en los comentarios a continuación.

Puedes seguir las actualizaciones diarias de mi proyecto en las redes sociales. Asegúrate de suscribirte a mi boletín de actualización semanal y sígueme en Twitter/X en @DavidGewirtzen Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, en Bluesky en @DavidGewirtz.com y en YouTube en YouTube.com/DavidGewirtzTV.