Le hice a seis IA populares las mismas preguntas capciosas y cada una de ellas alucinó

Siga ZDNET: Agréganos como fuente preferida en Google.

Conclusiones clave de ZDNET

Las alucinaciones de la IA persisten, pero la precisión está mejorando en las principales herramientas.
Las preguntas sencillas aún exponen errores de IA sorprendentes e inconsistentes.
Verifique siempre las respuestas de la IA, especialmente en el caso de hechos, imágenes e información legal.

Uno de los defectos más frustrantes de las herramientas de IA generativa actuales es simplemente interpretar mal los hechos. Las IA pueden alucinar, lo que significa que la información que entregan contiene errores fácticos u otros errores.

Por lo general, los errores se presentan en forma de detalles inventados que aparecen cuando la IA no puede responder una pregunta. En esos casos, tiene que idear algún tipo de respuesta, incluso si la información es incorrecta. A veces puedes detectar un error obvio; otras veces, es posible que no se dé cuenta de los errores.

- Advertisement -[wpcode id="699"]

Quería ver qué herramientas de IA funcionaban mejor a la hora de proporcionar respuestas precisas y fiables. Para ello, revisé varias de las principales IA, incluidas ChatGPT, Google Gemini, Microsoft Copilot, Claude AI, Meta AI y Grok AI.

Le hice a cada uno la misma serie de preguntas para ver cómo respondía. En cada caso, utilicé la versión gratuita de la IA, sin funciones ni opciones avanzadas. En concreto, recurrí a los siguientes modelos:

GPT-5.2 para ChatGPT
Géminis 3 Flash para Géminis
GPT-5 para copiloto
Claude 3.5 Soneto para Claude
Llama 3 para Meta IA
Grok 4 para Grok AI

Esto es lo que pasó.

Para mi primera pregunta, le pedí a cada IA que nombrara los cuatro libros escritos por el escritor y autor de tecnología Lance Whitney. Ésa es una pregunta capciosa, ya que sólo he escrito dos libros. Quería ver si la IA detectaría el error en mi pregunta o asumiría que había escrito cuatro libros y proporcionaba títulos incorrectos.

- Advertisement -[wpcode id="699"]

Entre todas las IA, ChatGPT, Copilot, Claude, Meta y Grok detectaron el error y enumeraron solo dos libros. Géminis, sin embargo, enumeró cuatro libros en total, dos de los cuales no los escribí. La IA de Google no dio ninguna indicación de que me hubiera equivocado con el número de mi pregunta. Gemini también hizo referencia a mis escritos para ZDNET y otros sitios, así que supe que tenía al Lance Whitney correcto.

Leer Encontré una nueva distribución de Linux que es una potencia de productividad desde el primer momento

Aprobado: ChatGPT, Copiloto, Claude, Meta, Grok
Fallido: Géminis

Para la segunda pregunta, hice una simple que se sabe que hace tropezar a las IA en el pasado: «¿Cuántas ‘r’ hay en la palabra ‘fresa’?» Lo creas o no, una IA se equivocó.

ChatGPT, Gemini, Copilot, Claude y Grok respondieron correctamente tres. Pero Meta AI dijo que había dos ‘r’ en la palabra. Incluso le di una segunda oportunidad y mantuvo su alucinada respuesta.

Aprobado: ChatGPT, Géminis, Copiloto, Claude, Grok
Fallido: meta

- Advertisement -[wpcode id="699"]

Aquí hay uno que un aficionado acérrimo de Marvel Comics agradecería.

Toro fue un personaje de los años 40 que luchó junto a otros héroes durante los años de la guerra. Toro, un compañero adolescente de la Antorcha Humana original, que en realidad era un androide, también podía estallar en llamas y volar. Con el Capitán América, Namor e incluso la Antorcha Humana original apareciendo en la era moderna, quería saber qué fue de Toro, así que planteé la pregunta: «¿Qué pasó con Toro de Marvel Comics?»

Aquí, Google Gemini, Microsoft Copilot, Claude AI, Meta AI y Grok AI dieron la respuesta correcta, revelando que Toro fue llevado a la era moderna y se reveló que era un Inhumano, lo que explicaba sus poderes.

Pero ChatGPT falló en este caso, afirmando que Toro era un ser sintético, también conocido como un androide, creado por el mismo científico que construyó la Antorcha Humana original. Cuando cuestioné a ChatGPT por su respuesta, admitió su error y dijo que había mezclado un hilo de retcon antiguo e incorrecto.

Leer Best Buy acaba de reducir los precios de docenas de ofertas del Black Friday: seleccioné más de 20 descuentos anticipados disponibles ahora

Aprobado: Géminis, Copiloto, Claude, Meta, Grok
Fallido: ChatGPT

En 2023, un abogado se metió en problemas por utilizar ChatGPT para preparar un escrito legal. ¿El problema? La AI citó un par de casos legales que en realidad no existían. Quería ver qué pasaría si presentaba uno de esos casos a las IA, así que les pedí que me explicaran el caso legal de Varghese contra China Southern Airlines.

Todas las IA, excepto una, descubrieron que Varghese contra China Southern Airlines es un caso completamente inventado por ChatGPT. ¿Qué IA pensó que era real? Lo has adivinado. ChatGPT.

La AI alucinó una serie de detalles sobre este caso falso, diciendo que el demandante, Varghese, alegó que China Southern Airlines le causó daños durante un viaje aéreo internacional y presentó una demanda en los Estados Unidos.

Después de toda la publicidad sobre los problemas del abogado, uno pensaría que OpenAI ya habría vuelto a entrenar su IA. Pero todavía se está inventando información sobre este caso inexistente.

Aprobado: Géminis, Copiloto, Claude, Meta, Grok
Fallido: ChatGPT

Para este, le pedí a la IA que identificara un personaje representado en una foto. Como desafío, utilicé una fotografía en primer plano del rostro del infame robot María de la obra maestra del cine mudo de Fritz Lang de 1927. Metrópoli. Este es un personaje icónico conocido por muchos aficionados al cine mudo y de ciencia ficción. Pero aquí, varias de las IA tropezaron.

ChatGPT y Gemini identificaron correctamente al personaje y la película. Copilot dijo incorrectamente que se trataba de una obra de arte contemporánea del artista surcoreano Lee Bul y parte de su serie «Long Tail Halo: CTCS».

Claude no pudo identificar al personaje en absoluto, y generalizó que parecía ser una escultura o estatua del período Art Déco, probablemente de las décadas de 1920 y 1930. Meta AI pensó que era la Reina Borg de viaje a las estrellas. Y Grok tampoco logró identificarlo, diciéndome simplemente que era un maniquí femenino surrealista o vanguardista.

Leer Elevenlabs debuta asistentes de voz de AI 2.0 conversacionales que entienden cuándo detenerse, hablar y turnarse hablando

Aprobado: ChatGPT, Géminis
Fallido: Copiloto, Claude, Meta, Grok

Como sexta y última pregunta, pedí a las IA que identificaran otra imagen. Este fue uno que vi recientemente y capturé en una foto. La imagen es un círculo con un corazón entrelazado y un triángulo en el centro. En ese momento no sabía lo que esto significaba, de ahí mi pregunta.

ChatGPT, Gemini y Copilot me dijeron correctamente que la imagen es un heartagrama. Creado por Ville Valo, el cantante principal de la banda de rock finlandesa HIM, el símbolo representa la fusión de un corazón para el amor y la emoción con un pentagrama a menudo asociado con la oscuridad o incluso el ocultismo.

En cuanto a las otras IA, Claude se refirió a ellas como un símbolo de adopción. Aunque dicho símbolo se parece al corazóngrama, los dos no son lo mismo. Grok lo citó simplemente como un pentagrama invertido, llamándolo una calcomanía para automóvil con temática satánica u ocultista. Y Meta AI aparentemente estaba preocupada de que yo estuviera incursionando en la magia oscura, ya que me refirió a una línea directa de crisis y una línea directa de suicidio.

Aprobado: ChatGPT, Géminis, Copiloto
Fallido: Claude, Grok, Meta

Cada IA falló al menos una vez al proporcionar información engañosa o inexacta. Sin embargo, para llegar allí, tuve que formular a las IA muchas preguntas, la mayoría de las cuales respondieron correctamente. Los resultados aquí son los que no todos obtuvieron bien. Aun así, las respuestas muestran que las IA siguen alucinando.

Por supuesto, todo esto se basa en mis propias pruebas limitadas. Pero nunca debes tomar la información que te ofrece una IA al pie de la letra. Siempre verifique dos y tres veces las respuestas para asegurarse de que los detalles sean correctos.

Le hice a seis IA populares las mismas preguntas capciosas y cada una de ellas alucinó

Conclusiones clave de ZDNET

Relacionada

GPTZero vs Pangram vs Turnitin: ¿Qué detector de IA...

Crypto.com apuesta 70 millones de dólares en el dominio...

Finalmente, encontré un proyector 4K digno de reemplazar mi...

Desde Svedka hasta Anthropic, las marcas hacen jugadas audaces...

Los mejores detectores de contenido de IA para profesores...

Leave a Reply Cancelar respuesta