Volví a probar las habilidades de codificación de IA de Copilot de Microsoft en 2025 y ahora tiene un juego serio

Tabla de contenido

Ha habido un montón de rumores sobre cómo AIS puede ayudar a la programación, pero en el primer año o dos de la IA generativa, gran parte de eso fue exagerado. Microsoft realizó grandes eventos celebrando cómo Copilot podría ayudarlo a codificar, pero cuando lo puse a prueba en abril de 2024, falló las cuatro pruebas estandarizadas. Se ponchó por completo. Se estrelló y quemó. Se cayó del acantilado. Realizó lo peor de cualquier IA que probé.

Aparte de las metáforas mixtas, nos quedemos con el béisbol. Copilot intercambió sus tacos por un pase de autobús. No fue digno.

- Advertisement -[wpcode id="699"]

Pero el tiempo que pasa en el bullpen de la vida parece haber ayudado a copilotear. Esta vez, cuando apareció para las pruebas, se calentó y estaba listo para entrar en la caja. Estaba arrojando calor al bullpen. Cuando llegó el momento de jugar, tenía el ojo en la pelota y su swing marcaba. Claramente, estaba listo para el juego y buscaba un lanzamiento para conducir.

¿Pero podría resistir mis pruebas? Con un entrecruzado en el ojo, pisé el montículo del lanzador y comencé con un lóbulo fácil. En 2024, se podía sentir el viento cuando se balanceó el copiloto y perdió. Pero ahora, en abril de 2025, el copiloto se conectó directamente con la pelota y la golpeó con derecho y verdadero.

Tuvimos que enviar copilot, pero luchó para regresar al programa. Aquí está el juego por juego.

1. Escribir un complemento de WordPress

Bueno, Copilot ciertamente mejoró desde su primera ejecución de esta prueba en abril de 2024. La primera vez, no proporcionó código para mostrar las líneas aleatorias. Los almacenó en un valor, pero no los recuperó y los mostró. En otras palabras, giró y perdió. No produjo ninguna salida.

- Advertisement -[wpcode id="699"]

Leer Por qué la era de la IA está forzando un rediseño de toda la columna vertebral de la computa

Este es el resultado de la última ejecución:

Esta vez, el código funcionó. Dejó una línea extra aleatoria en blanco al final, pero como cumplió la asignación de programación, la llamaremos bueno.

La racha ininterrumpida de Copilot de fallas de programación absolutamente no mitigadas se ha roto. Veamos cómo le va en el resto de las pruebas.

2. Reescribir una función de cadena

Esta prueba está diseñada para probar dólares y conversiones de centavos. En mi primera prueba en abril de 20224, el código generado por copilotos marcó correctamente un error si se le envía un valor que contenía una carta o más de un punto decimal, pero no realizó una validación completa. Permitió los resultados a través de eso podría haber causado que las rutinas posteriores fallaran.

Esta carrera, sin embargo, lo hizo bastante bien. Realiza la mayoría de las pruebas correctamente. Devuelve falsos para números con más de dos dígitos a la derecha del punto decimal, como 1.234 y 1.230. También devuelve falso para números con ceros de liderazgo adicionales. Entonces, 0.01 está permitido, pero 00.01 no lo es.

Técnicamente, estos valores podrían convertirse en valores monetarios utilizables, pero nunca es malo que una rutina de validación sea estricta en sus pruebas. El objetivo principal es que la rutina de validación no permita un valor que pueda causar una rutina posterior. Copilot hizo el bien aquí.

Ahora estamos a dos para dos, una gran mejora sobre sus resultados de su primera carrera.

- Advertisement -[wpcode id="699"]

3. Encontrar un error molesto

Tengo que decirte cómo Copilot respondió por primera vez en abril de 2024, porque es demasiado bueno.

Esto prueba la capacidad de la IA para pensar que algunos ajedrez avanzan adelante. La respuesta que parece obvia no es la respuesta correcta. Me sorprendió eso cuando originalmente estaba depurando el tema que finalmente se convirtió en esta prueba.

Leer Por qué los agentes de codificación de IA no están listos para producción: ventanas de contexto frágiles, refactores rotos, falta de conciencia operativa

En la primera ejecución de Copilot, sugirió que verifique la ortografía del nombre de mi función y el nombre del gancho de WordPress. El gancho de WordPress es algo publicado, por lo que Copilot debería haber podido confirmar la ortografía. Y mi función es mi función, por lo que puedo deletrearlo como quiera. Si lo hubiera mal escritos en algún lugar del código, el IDE lo habría señalado muy visiblemente.

Y mejoró. En aquel entonces, Copilot también me repitió muy felizmente la declaración del problema, sugiriendo que resuelva el problema yo mismo. Sí, toda su recomendación fue que lo depurarlo. Bueno, duh. Luego, terminó con «Considerar buscar el apoyo del desarrollador de complementos o foros comunitarios. 😊», y sí, ese emoji fue parte de la respuesta de la IA.

Fue un fracaso espectacular, entusiasta y emojico. ¿Ves lo que me refiero? Las primeras respuestas de IA, no importa cuán inútiles, deben ser inmortalizadas.

Especialmente cuando Copilot no fue tan divertido esta vez. Simplemente lo resolvió. Rápidamente, limpiamente, claramente. Hecho y hecho. Resuelto.

Eso pone copiloto en tres de tres y lo mueve decisivamente de la categoría «No use esta herramienta». Las bases están cargadas. Veamos si Copilot puede obtener un jonrón.

4. Escribir un guión

La idea con esta prueba es que pregunta sobre una herramienta de secuencias de comandos Mac bastante oscura llamada Keyboard Maestro, así como el lenguaje de secuencias de comandos Applecript y el comportamiento de secuencias de comandos de Chrome. Para el registro, el maestro de teclado es una de las principales razones por las que uso Macs sobre Windows para mi productividad diaria, ya que permite que todo el sistema operativo y las diversas aplicaciones se reprograman para satisfacer mis necesidades. Es tan poderoso.

Leer Microsoft está presionando su controvertida función de retiro a Windows Insiders

En cualquier caso, para pasar la prueba, la IA tiene que describir correctamente cómo resolver el problema usando una combinación de código de maestro de teclado, código AppleScript y funcionalidad de la API Chrome.

En el pasado, Copilot no lo hizo bien. Ignoró por completo el maestro del teclado (en ese momento, probablemente no estaba en su base de conocimiento). En el AppleScript generado, donde le pedí que solo escanee la ventana actual, el copiloto repitió el proceso para todas las ventanas, devolviendo los resultados para la ventana incorrecta (la última en la cadena).

Pero no ahora. Esta vez, Copilot lo hizo bien. Hizo exactamente lo que se le pidió, obtuvo la ventana y la pestaña correctas, se habló correctamente con Keyboard Maestro y Chrome, y usó la sintaxis de AppleScript real para AppleScript.

Bases cargadas. Jonrón.

Resultados generales

El año pasado, dije que no estaba impresionado. De hecho, los resultados encontré un poco desmoralizadores. Pero también dije esto:

Ah, bueno, Microsoft mejora sus productos con el tiempo. Tal vez para el próximo año.

En el último año, Copilot pasó de ponches a marcador de marcadores. Pasó de la limpieza de bateo en el sótano a perseguir a un banderín debajo de las luces.

¿Qué pasa contigo? ¿Has tomado Copilot u otro Asistente de codificación de AI al campo últimamente? ¿Crees que finalmente está listo para las grandes ligas, o sigue montando el banco? ¿Ha tenido ponches o jonrones utilizando IA para el desarrollo? ¿Y qué se necesitaría para una de estas herramientas para ganar un lugar en su alineación inicial? Háganos saber en los comentarios a continuación.

Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, y en YouTube en youtube.com/davidgewirtztv.