He estado alrededor de la tecnología el tiempo suficiente que muy poco me emociona, y aún menos me sorprende. Pero poco después de que se lanzara el chatgpt de OpenAI, le pedí que escribiera un complemento de WordPress para el sitio de comercio electrónico de mi esposa. Cuando lo hizo, y el complemento funcionó, me sorprendió de hecho.
Ese fue el comienzo de mi profunda exploración en chatbots y programación asistida por AI. Desde entonces, he sometido 14 modelos de idiomas grandes (LLM) a cuatro pruebas del mundo real.
Desafortunadamente, no todos los chatbots pueden codificar por igual. Han pasado poco más de dos años desde esa primera prueba, e incluso ahora, cuatro de los 13 LLM que probé no pueden crear complementos de trabajo.
La versión corta
En este artículo, te mostraré cómo se desempeñó cada LLM contra mis pruebas. Ahora hay cinco chatbots que te recomiendo que uses.
Dos de ellos, ChatGpt Plus y Perplexity Pro, cuestan $ 20 por mes cada uno. Las versiones gratuitas de los mismos chatbots lo hacen lo suficientemente bien como para que pueda sobrevivir sin pagar. Otros dos productos recomendados son de Google y Microsoft. Gemini Pro 2.5 de Google es gratuito, pero está limitado a tan pocas consultas que realmente no puede usarlo sin pagar.
Microsoft tiene varias licencias de copilot, que pueden ser costosas, pero utilicé la versión gratuita con resultados sorprendentemente buenos. El final, Claude 4 Sonnet, es la versión gratuita de Claude. Por extraño que parezca, la versión gratuita superó la versión pagada, por lo que no recomendamos Claude 4 Opus.
Pero el resto, ya sea gratis o pagado, no es tan bueno. No arriesgaré mis proyectos de programación con ellos o recomendaré que lo haga, hasta que mejore su rendimiento.
He escrito mucho sobre el uso de AIS para ayudar con la programación. A menos que sea un proyecto pequeño y simple como el complemento de mi esposa, AIS no puede escribir aplicaciones o programas completos. Pero se destacan por escribir algunas líneas y no están mal para arreglar el código.
En lugar de repetir todo lo que he escrito, continúe y lea este artículo: Cómo usar ChatGPT para escribir código.
Si desea comprender mis pruebas de codificación, por qué las he elegido y por qué son relevantes para esta revisión de los 13 LLM, lea este artículo: cómo pruebo la capacidad de codificación de un chatbot de AI.
La tabla de clasificación de codificación de IA
Comencemos con una mirada comparativa a cómo se desempeñaron los chatbots, a partir de esta entrega de nuestro mejor resumen:
A continuación, veamos cada chatbot individualmente. Estoy de nuevo para discutir 14 chatbots, porque estamos dividiendo el soneto de Claude 4 y la opus de Claude 4 como pruebas separadas. GPT-4 ya no está incluido ya que OpenAi ha sido el sol de ese LLM. ¿Listo? Vamos.
- Pasó todas las pruebas
- Resultados de codificación sólida
- Aplicación Mac
- Alucinaciones
- No hay aplicación de Windows todavía
- A veces poco cooperativo
- Precio: $ 20/mes
- LLM: GPT-4O, GPT-3.5
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: sí
- Aplicación de Windows dedicada: no
- Autenticación multifactor: sí
- PRUEBAS PASADAS: 4 de 4
Chatgpt Plus con GPT-4O pasó todas mis pruebas. Una de mis características favoritas es la disponibilidad de una aplicación dedicada. Cuando pruebo la programación web, tengo mi navegador configurado en una cosa, mi IDE abierta y la aplicación CHATGPT Mac que se ejecuta en una pantalla separada.
Además, el aviso de Logitech, que se puede activar con un botón del mouse, se puede configurar para utilizar el GPT-4O actualizado y conectarse a su cuenta de OpenAI, lo que permite un toque de pulgar simple para ejecutar una solicitud, lo cual es muy conveniente.
Lo único que no me gustó fue que una de mis pruebas GPT-4O resultó en una respuesta de doble opción, y una de esas respuestas fue incorrecta. Prefiero que me diera la respuesta correcta. Aun así, una prueba rápida confirmó qué respuesta funcionaría. Sin embargo, ese problema fue un poco molesto.
- Múltiples LLM
- Criterios de búsqueda mostrados
- Buen abastecimiento
- Inicio de sesión de solo correo electrónico
- Sin aplicación de escritorio
- Precio: $ 20/mes
- LLM: GPT-4O, Claude 3.5 Soneto, sonar grande, Claude 3 Opus, Llama 3.1 405b
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: no
- Aplicación de Windows dedicada: no
- Autenticación multifactor: No
- PRUEBAS PASADAS: 4 de 4
Consideré seriamente enumerar Perplexity Pro como el mejor chatbot de IA general para la codificación, pero uno que falla lo mantuvo fuera de la ranura superior: cómo inicia sesión. La perplejidad no usa un nombre de usuario/contraseña o clave de acceso y no tiene autenticación multifactor. Todo lo que hace la herramienta es enviarle un correo electrónico a un pin de inicio de sesión. La IA no tiene una aplicación de escritorio separada, como lo hace ChatGPT para Macs.
Lo que diferencia a la perplejidad de otras herramientas es que puede ejecutar múltiples LLM. Si bien no puede establecer un LLM para una sesión determinada, puede entrar fácilmente en la configuración y elegir el modelo activo.
Para la programación, es probable que desee quedarse con GPT-4O, porque ese modelo acogió todas nuestras pruebas. Pero puede ser interesante verificar su código en los diferentes LLM. Por ejemplo, si tiene GPT-4O que escriba algún código de expresión regular, podría considerar cambiar a una LLM diferente para ver qué piensa ese modelo del código generado.
Como veremos a continuación, la mayoría de los LLM no son confiables, así que no tome los resultados como evangelio. Sin embargo, puede usar los resultados para verificar su código original. Es como una revisión de código impulsada por la IA.
Simplemente no olvides volver a volver a GPT-4O.
- Precio: gratis para uso limitado, luego precios basados en tokens
- LLM: Gemini Pro 2.5
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: no
- Aplicación de Windows dedicada: no
- Autenticación multifactor: sí
- PRUEBAS PASADAS: 4 de 4
La última vez que miré a Gemini, falló miserablemente. No es tan malo como el copiloto en ese momento, pero malo. Gemini Pro 2.5, sin embargo, se ha desempeñado bastante admirablemente. Mi único problema real es el acceso. Me encontré separado de la versión gratuita después de ejecutar solo dos de las cuatro pruebas.
Esperé un día y luego corrí la tercera prueba, y me cortaron nuevamente. Finalmente, al tercer día, ejecuté mi cuarta prueba. Obviamente, no puede hacer ninguna programación real si solo puede hacer una o dos preguntas antes de cerrarse. Entonces, si se registra con Gemini Pro 2.5, tenga en cuenta que Google cobra por tokens (básicamente, la cantidad de IA que usa). Eso puede hacer que sea bastante difícil predecir sus gastos.
Mostrar más
- Precio: GRATIS para copiloto básico o tarifas para otras licencias de copilotos
- LLM: no revelado
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: no
- Aplicación de Windows dedicada: no
- Autenticación multifactor: sí
- PRUEBAS PASADAS: 4 de 4
En todos mis análisis anteriores de Microsoft Copilot, los resultados fueron los peores de los LLM. Copilot Got nada bien. Fue sorprendente lo malo que era. Pero entonces dije que «lo único positivo es que Microsoft siempre aprende de sus errores. Entonces, volveré a consultar más tarde y veré si este resultado mejora «.
Y chico, lo hizo alguna vez. Esta vez, Microsoft pasó las cuatro pruebas. Aún mejor, lo hizo con la versión gratuita de Copilot. Sí, Microsoft tiene muchos programas pagados para Copilot, pero si desea darle el giro de IA, señale el copiloto y úselo.
Mostrar más
- Precio: gratis
- LLM: Claude 4
- Interfaz del navegador de escritorio: no
- Aplicación Mac dedicada: no
- Aplicación de Windows dedicada: no
- Autenticación multifactor: sí
- PRUEBAS PASADAS: 4 de 4
Este es uno de esos momentos en que las implementaciones de IA pueden ser verdaderos raspadores de cabeza. En nuestras pruebas anteriores, el soneto de Claude 4 terminó en la parte inferior del barril, fallando en nuestras cuatro pruebas. Esta vez, sin embargo, el soneto pasó todas las pruebas. Entonces, ¿cuál es el rasguño de la cabeza? Opus, el modelo Claude 4, que es una versión pagada, no lo hizo tan bien: falló la mitad de las pruebas.
Entonces, sí. La versión gratuita funcionó como un campeón. ¿Y el que está pagando entre $ 20 y $ 250 por mes, dependiendo del plan? Bueno, ese falló la mitad de las pruebas. Ir.
Mostrar más
- Diferente LLM que chatgpt
- Buenas descripciones
- Acceso gratuito
- Solo disponible en modo navegador
- Acceso gratuito probablemente solo temporal
- Precio: gratis (por ahora)
- LLM: Grok-1
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: no
- Aplicación de Windows dedicada: no
- Autenticación multifactor: sí
- PRUEBAS PASADAS: 3 de 4
Tengo que decir que Grok me sorprendió. Supongo que no tenía grandes esperanzas de un LLM que apareciera en la red social anteriormente conocida como Twitter. Sin embargo, X ahora es propiedad de Elon Musk, y dos de las compañías de Musk, Tesla y SpaceX, tienen imponentes capacidades de IA.
No está claro cuánto Tesla y SpaceX AI ADN hay en Grok, pero podemos suponer que probablemente habrá más trabajo. A partir de ahora, Grok es el único LLM no basado en Operai LLM que llegó a la lista recomendada.
Grok cometió un error, pero fue relativamente menor que un aviso un poco más completo podría remediar fácilmente. Sí, falló la prueba. Pero al pasar a los demás e incluso hacer un trabajo casi perfecto en el que pasó, Grok se ganó un lugar como contendiente.
Manténganse al tanto. Esta es una IA para ver.
- Estrangulamiento rápido
- Podría cortarte en medio de lo que sea que estés trabajando
- Precio: gratis
- LLM: GPT-4O, GPT-3.5
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: sí
- Aplicación de Windows dedicada: no
- Autenticación multifactor: sí
- Probaciones aprobadas: 3 de 4 en modo GPT-3.5
ChatGPT está disponible para cualquier persona de forma gratuita. Si bien las versiones Plus y Free gratuitan GPT-4O, que pasaron todas mis pruebas de programación, la aplicación gratuita tiene limitaciones.
Operai trata a los usuarios gratuitos de ChatGPT como si estuvieran en los asientos baratos. Si el tráfico es alto o los servidores están ocupados, la versión gratuita de ChatGPT solo hará que GPT-3.5 esté disponible para los usuarios gratuitos. La herramienta solo le permitirá una cierta cantidad de consultas antes de que se rebaja o lo apagará.
He tenido varias ocasiones en que la versión gratuita de ChatGPT me dijo efectivamente que había hecho demasiadas preguntas.
ChatGPT es una gran herramienta, siempre y cuando no le importe que se cierre. Incluso GPT-3.5 hizo mejor en las pruebas que todos los otros chatbots, y la prueba que falló fue para una herramienta de programación bastante oscura producida por un programador solitario en Australia.
Entonces, si el presupuesto es importante para usted y puede esperar cuando esté cortado, use ChatGPT de forma gratuita.
- Gratis
- Pasó la mayoría de las pruebas
- Gama de herramientas de investigación
- Limitado a GPT-3.5
- Resultados rápidos
- Precio: gratis
- LLM: GPT-3.5
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: no
- Aplicación de Windows dedicada: no
- Autenticación multifactor: No
- PRUEBAS PASADAS: 3 de 4
Estoy enhebrando una aguja bastante fina aquí, pero debido a que la versión gratuita de Perplexity AI se basa en GPT-3.5, los resultados de la prueba fueron meditablemente mejores que los otros chatbots de IA.
Desde una perspectiva de programación, esa es más o menos toda la historia. Sin embargo, desde una perspectiva de investigación y organización, mi colega de Zdnet Steven Vaughan-Nichols prefiere la perplejidad sobre el otro AIS.
Le gusta cómo la perplejidad proporciona fuentes más completas para preguntas de investigación, cita sus fuentes, organiza las respuestas y ofrece preguntas para futuras búsquedas.
Entonces, si está programando, pero también está trabajando en otras investigaciones, considere la versión gratuita de la perplejidad.
- Gratis
- Código abierto
- Utilización eficiente de recursos
- Conocimiento general débil
- Ecosistema pequeño
- Integraciones limitadas
- Precio: gratis para chatbot, tarifas para API
- LLM: Deepseek Moe
- Interfaz del navegador de escritorio: sí
- Aplicación Mac dedicada: no
- Aplicación de Windows dedicada: no
- Autenticación multifactor: No
- PRUEBAS PASADAS: 3 de 4
Si bien Deepseek R1 es el nuevo calor del razonamiento de China que tiene todos los expertos que son un gran poder, el poder real en este momento (al menos según nuestras pruebas) es Deepseek V3. Este chatbot pasó casi todas nuestras pruebas de codificación, haciendo tan bien como el chatgpt 3.5 (ahora descontinuado) 3.5.
Donde Deepseek V3 cayó estaba en conocimiento de entornos de programación algo más oscuros. Aún así, venció a Gemini de Google, el copiloto de Microsoft y la meta ai de Meta, que es un gran logro. Mantendremos un reloj de cerca en cada modelo de Speeek, así que estad atentos.
Chatbots para evitar la ayuda de programación
Probé 13 LLMS, y nueve pasaron la mayoría de mis pruebas esta vez. Los otros chatbots, incluidos algunos lanzados como excelentes para la programación, solo pasaron una de mis pruebas.
Los menciono aquí porque la gente preguntará, y los probé a fondo. Algunos de estos bots están bien para otro trabajo, por lo que te señalaré sus críticas generales si tienes curiosidad por su funcionalidad.
Deepseek r1
A diferencia de Deepseek V3, la versión de razonamiento avanzado, Deepseek R1, no mostró sus capacidades de razonamiento en nuestras pruebas de programación. Inusualmente, el nuevo área de falla fue una que no es tan difícil, incluso para una IA básica: el código de expresión regular para nuestra prueba de función de cadena.
Pero es por eso que estamos ejecutando estas pruebas del mundo real. Nunca está claro dónde se alucinará una IA o simplemente fallará, y antes de ir a creer toda la exageración sobre Deepseek R1 alejando la corona de ChatGPT, ejecute algunas pruebas de programación. Hasta ahora, aunque estoy impresionado con la muy reducida utilización de recursos y la naturaleza de código abierto del producto, su salida de calidad de codificación es inconsistente.
Copiloto de Github
El copiloto de GitHub se integra sin problemas con el código VS. La IA hace que solicitar una ayuda de codificación sea rápida y productiva, especialmente cuando se trabaja en contexto. Es por eso que es tan decepcionante que el código que las salidas de IA a menudo están muy mal.
No puedo, en buena conciencia, recomendar que use las extensiones de copilot de GitHub para el código VS. Me preocupa que la tentación sea demasiado grande para insertar bloques de código sin pruebas suficientes, y que el código producido de Github Copilot no está listo para el uso de producción. Inténtalo de nuevo el año que viene.
Claude 4 Opus
En un giro completamente desconcertante de los eventos, la versión pagada del modelo Claude 4, Opus, falló la mitad de mis pruebas. Lo que hace que este resultado sea desconcertante es que la versión gratuita, Claude 4 Sonnet, los pasó a todos. No sé qué decir aparte de la IA puede ser raro.
Meta ai
Meta AI es la IA de uso general de Facebook. Como puede ver anteriormente, falló tres de nuestras cuatro pruebas.
La IA generó una buena interfaz de usuario, pero con funcionalidad cero. También encontró mi molesto error, que es un desafío bastante serio. Dado el conocimiento específico requerido para encontrar el error, me sorprendió que la IA se ahogara en un desafío de expresión regular simple. Pero lo hizo.
Meta Code Llama
Meta Code Llama es la IA de Facebook diseñada explícitamente para la ayuda de codificación. Es algo que puede descargar e instalar en su servidor. Probé la IA corriendo en una instancia de AI para abrazar.
Extrañamente, a pesar de que tanto Meta Ai como Meta Code Llama se atragantaron en tres de mis cuatro pruebas, se atragantaron con diferentes problemas. No se puede contar con AIS para dar la misma respuesta dos veces, pero este resultado fue una sorpresa. Veremos si eso cambia con el tiempo.
Pero me gusta (inserte el nombre aquí). ¿Significa esto que tengo que usar un chatbot diferente?
Probablemente no. He limitado mis pruebas a tareas de programación diaria. A ninguno de los bots se le ha pedido que hable como un pirata, escriba prosa o dibuja una imagen. De la misma manera, utilizamos diferentes herramientas de productividad para lograr tareas específicas, no dude en elegir la IA que lo ayuda a completar la tarea en cuestión.
El único problema es si tiene un presupuesto y está pagando una versión profesional. Luego, encuentre la IA que hace la mayor parte de lo que desea, para que no tenga que pagar demasiados complementos de IA.
Es solo cuestión de tiempo
Los resultados de mis pruebas fueron bastante sorprendentes, especialmente dadas las mejoras significativas de Microsoft y Google. Sin embargo, esta área de innovación está mejorando a velocidad de deformación, por lo que volveremos con pruebas y resultados actualizados con el tiempo. Manténganse al tanto.
¿Has utilizado alguno de estos chatbots de IA para la programación? ¿Cuál ha sido tu experiencia? Háganos saber en los comentarios a continuación.
Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, y en YouTube en youtube.com/davidgewirtztv.