Probé las habilidades de codificación de GPT-5, y fue tan malo que me quedé con GPT-4O (por ahora)

Tabla de contenido

Takeaways de llave de ZDNET

El nuevo buque insignia GPT-5 de OpenAI falló la mitad de mis pruebas de programación.
Los lanzamientos anteriores de Operai han tenido resultados casi perfectos.
Ahora que OpenAI ha habilitado las personas con otros LLM, hay opciones.

Entonces GPT-5 sucedió. Está fuera. Se lanza. Es la charla de la ciudad virtual. Y tiene algunos problemas. No voy a enterrar el lede. GPT-5 ha fallado la mitad de mis pruebas de programación. Eso es lo peor que la LLM insignia de OpenAI ha hecho en mis pruebas cuidadosamente diseñadas.

Antes de entrar en los detalles, tomemos un momento para hablar sobre otra pequeña característica que también sea un poco inestable. Consulte el nuevo botón Editar en la parte superior del código que genera.

- Advertisement -[wpcode id="699"]

Hacer clic en el botón Editar lo lleva a un pequeño editor de código agradable. Aquí, reemplacé el campo del autor, justo en los resultados de Chatgpt.

Eso parecía agradable, pero finalmente resultó inútil. Cuando cerré el editor, me preguntó si quería ahorrar. Hice. Entonces apareció este mensaje inútil.

Nunca volví a mi sesión original. Tuve que enviar mi aviso original nuevamente, y dejar que GPT-5 hiciera su trabajo por segunda vez.

Pero espera. Hay más. Cavemos en los resultados de mi prueba …

- Advertisement -[wpcode id="699"]

1. Escribir un complemento de WordPress

Esta fue mi primera prueba de destreza de codificación para cualquier IA. Es lo que me dio que primero «el mundo está a punto de cambiar», y se hizo usando GPT-3.5.

Las pruebas posteriores, utilizando el mismo aviso pero con diferentes modelos de IA, generaron resultados mixtos. Algunos AIS lo hicieron muy bien, otros no. Algunas AIS, como las de Microsoft y Google, mejoraron con el tiempo.

El modelo de ChatGPT ha sido el estándar de oro para esta prueba desde el principio. Eso hace que los resultados de GPT-5 sean mucho más curiosos.

Entonces, mira, la codificación real con GPT-5 fue parcialmente exitosa. GPT-5 generó un solo bloque de código, que pegué en un archivo y pude ejecutar. Proporcionó la interfaz de usuario necesaria.

Leer La startup del analista de datos de IA Julius Nabs Semiled Ronda

Cuando pegé los nombres de las pruebas, actualizó dinámicamente el recuento de líneas, aunque lo describió como «línea para aleatorizar» en lugar de «líneas para aleatorizar».

Pero luego, cuando hice clic al azar, no lo hizo. En cambio, me redirigió a herramientas.php. ¿¿Qué?? ChatGPT nunca ha tenido un problema con esta prueba, ya sea GPT-3.5, GPT-4 o GPT-4O. ¿Quieres decirme que el muy esperado GPT-5 de OpenAi está fallando desde la puerta? Ay.

Luego le di este mensaje a GPT-5.

Cuando hago clic en aleatorizar, me llevan a http: //testsite.local/wp-admin/tools.php. No obtengo una lista de resultados aleatorios. ¿Puedes arreglar?

- Advertisement -[wpcode id="699"]

El resultado fue una línea para parchear. No estoy emocionado con ese enfoque porque requiere que el usuario cave a través del código y no cometa errores que reemplazaran una línea.

Entonces, le pedí a GPT-5 un complemento completo. Me dio el texto completo del complemento para copiar y pegar. Esta vez funcionó.

Esta vez, aleatorizó las líneas. Cuando se encontró duplicados, los separó el uno del otro, como se le indicó. Finalmente.

Lo siento, Openai. Tengo que fallarte en esta prueba. Habría pasado si el único error no fuera el plural de «línea» cuando sea apropiado. Pero el hecho de que me devolvió un complemento que no funcionó en el primer intento es el territorio de Fail, incluso si la IA finalmente lo hizo funcionar en el segundo intento.

No importa cómo lo gire, este es un paso atrás.

2. Reescribir una función de cadena

Esta segunda prueba está diseñada para reescribir una función de cadena para verificar mejor los dólares y los centavos. El código original que se le pidió a GPT-5 que reescribiera no permitía centavos (solo marcaba los enteros).

GPT-5 funcionó bien con esta prueba. Devolvió un resultado mínimo porque no hizo ninguna verificación de errores. No verificó la entrada de no cadena, espacios en blanco adicionales, miles de separadores o símbolos de divisas.

Pero eso no es lo que pedí. Le dije que reescribiera una función, que en sí misma no tenía ningún error. GPT-5 hizo exactamente lo que pedí sin adornos. Me alegra un poco de eso porque no sabe si el código antes de esta rutina ya hizo ese trabajo.

Leer Databricks recauda 4.000 millones de dólares con una valoración de 134.000 millones de dólares a medida que su negocio de inteligencia artificial se intensifica

GPT-5 pasó esta prueba.

3. Encontrar un error molesto

Esta prueba surgió porque estaba luchando con un error menos que obvio en mi código. Sin entrar en las malas hierbas sobre cómo funciona el marco de WordPress, la respuesta obvia no es la respuesta correcta.

Necesita algún conocimiento bastante arcano sobre cómo los filtros de WordPress aprueban su información. Esta prueba ha sido un obstáculo para más de unos pocos AI LLM.

GPT-5, sin embargo, como GPT-4 y GPT-4O antes, entendió el problema. Articuló una solución clara.

GPT-5 pasó esta prueba.

4. Escribir un guión

Esta prueba le pide a la IA que incorpore una herramienta de secuencia de comandos Mac bastante oscura llamada Keyboard Maestro, así como el lenguaje de secuencias de comandos Applecript y el comportamiento de secuencias de comandos de Chrome.

Realmente es una prueba del alcance de la IA en términos de conocimiento, su comprensión de cómo se construyen las páginas web y la capacidad de escribir código en tres entornos interlinidos.

Muchas IA han fallado esta prueba, pero el punto de falla suele ser una falta de conocimiento sobre el maestro del teclado. GPT-3.5 no sabía sobre el maestro del teclado. Pero ChatGPT ha pasado esta prueba desde GPT-4. Hasta ahora.

¿Dónde debemos empezar? Bueno, la buena noticia es que GPT-5 manejó bien la parte del problema del teclado del problema. Pero puso la codificación tan incorrecta que incluso duplicó su falta de comprensión de cómo funciona el caso en AppleScript.

En realidad inventó una propiedad. Este es uno de esos casos en los que una IA presenta con confianza una respuesta que está completamente incorrecta.

AppleScript es de forma nativa insensible. Si desea que AppleScript preste atención al caso, debe utilizar un bloque de «caso de consideración». Entonces, esto sucedió.

La razón por la que el mensaje de error se refirió al título de uno de mis artículos es porque esa era la ventana delantera en Chrome. Esta función verifica la ventana delantera y hace cosas en función del título.

Leer Cursor inicia una aplicación web para administrar agentes de codificación de IA

Pero el malentendido cómo funciona el caso no fue el único error de AppleScript GPT-5 generado. También hizo referencia a una variable llamada SearchMter sin definirla. Esa es más o menos una práctica de creación de errores en cualquier lenguaje de programación.

Fallar, fallar, fallar, McFaildypants.

Internet ha hablado

Openai parecía sufrir la misma arrogancia que hace. Confidentemente trasladó a todos a GPT-5 y quemó los puentes de regreso a GPT-4O. Estoy pagando $ 200 al mes por una cuenta ChatGPT Pro. El viernes no pude volver a GPT-4O para el trabajo de codificación. Tampoco nadie más podría.

Sin embargo, había un poco de retroceso de usuario en todo el asunto de la quema de puentes. Y por Tiny, me refiero a todo el maldito Internet. Entonces, para el sábado, ChatGPT tenía una nueva opción.

Para llegar a esto, vaya a la configuración de su chatgpt y encienda «Mostrar modelos heredados». Luego, como siempre ha sido, simplemente desplazate el menú Modelo y elige el que desee. Nota: Esta opción solo está disponible para aquellos en niveles pagados. Si está usando chatgpt gratis, tomará lo que le dan y le encantará.

Desde que todo el asunto de IA generativo comenzó a principios de 2023, ChatGPT ha sido el estándar de oro de las herramientas de programación, al menos según mis pruebas de LLM.

¿Ahora? Realmente no estoy seguro. Esto es solo un día más o menos después de que se haya lanzado GPT-5, por lo que sus resultados probablemente mejorarán con el tiempo. Pero por ahora, me quedo con GPT-4O para la codificación, aunque me gustan las capacidades de razonamiento profundo en GPT-5.

¿Qué pasa contigo? ¿Ya has probado GPT-5 para las tareas de programación? ¿Se desempeñó mejor o peor que las versiones anteriores como GPT-4O o GPT-3.5? ¿Pudiste obtener código de trabajo en el primer intento, o GPT-4O, tuviste que guiarlo a través de correcciones? ¿Vas a usar GPT-5 para codificar o quedarte con modelos más antiguos? Háganos saber en los comentarios a continuación.

Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, en bluesky en @davidgewirtz.com, y en YouTube en youtube.com/davidgewirtztv.