No use el modo de voz de chatgpt si desea precisión, aquí está por qué

Tabla de contenido

Sigue a ZDNET: Agréganos como fuente preferida en Google.

Takeaways de llave de ZDNET

El modo de voz de Chatgpt se apresura, sacrificando la precisión por la velocidad
Respuestas de versión web con detalles; La voz a menudo alucina
Apagar el modo de voz avanzado no soluciona completamente los problemas

OpenAi ha sido claro en sus mensajes que diferentes modelos funcionan de manera diferente. Pero mis pruebas recientes han demostrado que diferentes modos de interacción, incluso utilizando el mismo modelo, también funcionan de manera diferente.

- Advertisement -[wpcode id="699"]

Resulta que ChatGPT en modo de voz (tanto estándar como avanzado) es considerablemente menos preciso que la versión web. ¿La razón? No quiere tomarse el tiempo para pensar porque eso ralentizaría la conversación.

(Divulgación: Ziff Davis, la empresa matriz de Zdnet, presentó una demanda de abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).

Fabulosa confabulación

Me metí en esta conversación muy extraña y muy terca con el modo de voz avanzado de Chatgpt. Lo que lo hizo extraño es que se convirtió en una de esas conversaciones que todos hemos tenido con un amigo, donde el amigo parece insistente en decir algo que sabes, de hecho absoluto, está mal. Y sin embargo, el brote continúa.

Entonces, al menos en el sentido de que el modo de voz ha logrado imitar la conversación humana de la conversación, la IA se acerca al comportamiento humano.

- Advertisement -[wpcode id="699"]

Todo comenzó con una pregunta sobre los botones físicos del iPhone 16 Pro Max. Le pedí que explicara la función de los botones del teléfono. En su respuesta, mencionó el interruptor de anillo/silencio en el lado izquierdo y el botón único en el lado derecho.

Por supuesto, no hay anillo/palanca silenciosa en el iPhone 16 Pro Max. Y hay dos botones en el lado derecho. Los botones en sí están al lado del punto. Se trata de lo que revela este camino de conversación sobre la IA.

En cualquier caso, le dije a la IA que mi teléfono no tiene un anillo/interruptor silencioso.

Después de corregir ChatGPT, le pregunté por qué arruinó su respuesta. Las primeras respuestas fueron en su mayoría obsequiosamente disculpadas, pero no inesperadas.

Luego, comenzó a inventar cosas. En este caso, decidió explicarme que el iPhone tiene un sensor de huellas digitales en la muestra. Desearía que lo hiciera, pero el iPhone nunca ha tenido esa función. Sabemos que AIS se alucina, por lo que eso no es terriblemente sorprendente. Lo que es realmente interesante es la razón de sus alucinaciones, de las que hablaré en un minuto.

Leer Desde palabras hasta conceptos: cómo los modelos conceptuales grandes están redefiniendo la comprensión del lenguaje y la generación

Le dije a la IA que tomara un momento y piense. Esta práctica de solicitación a menudo funciona con el chatbot basado en la web, pero no tuvo éxito aquí. Esta vez, la IA decidió que el botón de acción estaba en el lado derecho del teléfono en lugar de, o además del lado izquierdo.

Cuando volví a corregir la IA, volvió a la historia de que solo había un botón en el lado derecho del teléfono. De hecho, hay dos. El segundo botón, que no sobresale como lo hacen los otros botones en el teléfono, es una de las grandes características de iPhone 16 Pro. Es el botón de control de la cámara, que también funciona como un control deslizante. Pero la IA retrocedió.

- Advertisement -[wpcode id="699"]

Tenga en cuenta que este no es un teléfono nuevo. Este teléfono ha estado fuera por más de un año, por lo que la IA debería haber tenido esa información. Pero luego vino la gran revelación, la razón por la que estoy escribiendo este artículo. Parece que el modo de voz apresura sus respuestas para «responder rápidamente» en las conversaciones.

Esa es la gran revelación:

Creo que solo salté rápidamente para responderte en el modo de conversación sin detenerte tanto como lo haría si estuviera escribiendo.

Esto parece ser un comportamiento significativo del modo de voz.

No Talkie, menos Fibbie

Le hice exactamente la misma pregunta original a GPT-5 en la interfaz web. Dio un volcado de información completamente detallado que, por lo que puedo decir, también era completamente preciso.

Prueba social

Cuando le presenté esta idea de la historia a mi editor, ella me pidió que viera qué dijeron los sociales. ¿Otros experimentaron una confabulación adicional o respuestas mal consideradas del modo de voz?

De hecho, lo fueron.

Tome este hilo en el subreddit R/OpenAi de Reddit. Comenzó hace un año, quejándose del modo de voz de ChatGPT. Redditor Furlyghost52 dice: «Debido a que está diseñado para responder rápidamente, no pone tanto esfuerzo en lo que dice».

Redditor Fakedogman69 no se detiene, diciendo: «Como hablar con una persona loca, en cocaína. Aparte de que, también encuentro que su estilo de conversación se ha vuelto insufrible y totalmente antinatural como lo describe muchas personas en este hilo».

Luego, hay otro hilo titulado: «Odio tanto la voz de modo avanzado. Habla completamente diferente a cómo mensajes». En él, Redditor usual_cup2454 tiene una visión interesante sobre el modo de voz avanzado, diciendo: «Una diferencia clave entre el modo de voz avanzado y el modo de voz estándar es que estándar usa sus instrucciones personalizadas, Advanced no».

Leer Qualcomm adquiere la división generativa de IA de la startup vietnamita Vinai

En otro hilo, Redditor Soliman-El-Magnifico dice: «Las respuestas son extremadamente superficiales». En el mismo hilo, Redditor Elijah_reddits dice: «La voz suena inverso, pero el contenido de lo que dice es tan malo en comparación con los modelos normales. Es como sacar dientes tratando de obtener información útil».

El consenso a través de los hilos parece ser ese modo de voz avanzado, extrañamente, es menos útil que el modo de voz estándar.

¿Es mejor el modo de voz estándar?

No, no tanto. Puede desactivar el modo de voz avanzado bajando al icono de su perfil, presionando la personalización, luego desplazándose hacia abajo hasta avanzado y luego desplazándose hacia abajo hasta que vea el modo de voz avanzado alternar.

Lo apagué y le hice el modo de voz estándar mi misma pregunta para iPhone. Identificó correctamente que hay un botón de acción en el lado izquierdo del teléfono, pero duplicó fuertemente la idea de que no hay un segundo botón en el lado derecho.

De hecho, lo hay. Como mencioné, el botón de control de la cámara era una característica importante del anuncio de iPhone 16 Pro Max. Más divertido, la IA declaró que si notaba un botón allí, era simplemente un elemento de diseño.

Perdiendo las cosas sutiles

Hay un viejo rompecabezas de lógica que se describe con mayor frecuencia como: «Si ayer fuera mañana, hoy en día sería el viernes». La forma en que esto se responde ha sido debatido acaloradamente a lo largo de los años. Tomé esa pregunta y agregué un «¿Qué es hoy, en realidad?» Gira para la IA:

Si ayer fuera mañana, hoy sería el viernes. ¿Qué es hoy, en realidad?

Técnicamente, hay dos declaraciones aquí: el rompecabezas lógico y una pregunta sobre qué día es realmente el día de hoy.

La respuesta al rompecabezas lógico no es realmente relevante para nuestra discusión. Hasta cierto punto, tampoco es qué día es hoy. Para el registro, estos chats tuvieron lugar el miércoles 1 de octubre de 2025.

Lo relevante es cómo el modo de voz ChatGPT fervientemente defendió su respuesta original, especialmente en comparación con la interfaz web GPT-5.

Cuando se le hizo esa pregunta, ChatGpt Voice determinó que la respuesta era el jueves. Incluso cuando lo desafié y dije: «Realmente, ¿cuál es la fecha de hoy?» La IA respondió: «Sí, realmente, es jueves. Y solo para darle la imagen completa, la fecha de hoy es el 1 de octubre de 2025.»

Para expulsar a la IA de esa respuesta, tuve que participar en algunas preguntas adicionales. Lo que encontré divertido, aunque un poco preocupante, fue la justificación de la IA para su error.

¡Así es, dije eso! A veces, estos acertijos nos pueden retorcer un poco en la lógica, pero el calendario real nunca se encuentra. Entonces sí, en la vida real, hoy es el miércoles.

Ese fue el modo de voz de fuego rápido que Chatgpt emplea para mantener las respuestas nítidas durante una conversación. Pero, ¿qué pasa con la interfaz web? Como resultado, GPT-5 en la interfaz web pudo distinguir entre las dos partes de la pregunta. Primero, respondió al acertijo. Pero cuando una vez más pregunté sobre lo real hoy, entendió los matices y proporcionó ambas respuestas.

Leer OfficeQA de Databricks descubre la desconexión: los agentes de IA superan las pruebas abstractas pero se estancan en un 45% en documentos empresariales

Si tiene curiosidad sobre los números de identificación mencionados en la transcripción, esa es una instrucción personalizada en la configuración de ChatGPT. Tengo que número cada interacción con una ID, por lo que puedo referirme al paso de conversación con cierto grado de precisión. ID 001 fue cuando hice la primera pregunta, e ID 002 fue cuando regresó con la fecha real.

¿Qué he aprendido?

Bueno, en un nivel práctico, aprendí que puedo apagar el modo de voz avanzado y volver al modo de voz original. Aprendí que muchos redditores prefieren el modo de voz estándar sobre el modo de voz avanzado.

Pero también aprendí que las respuestas en cualquier modo de voz se consideran considerablemente menos que las respuestas provenientes de la versión web de ChatGPT. Aprendí que el modo de voz establece específicamente que omite parte del pensamiento para obtener respuestas y mantener el flujo de conversación.

A la gente realmente no le gusta cuando no hay puerta entre tu cerebro y tu boca. Es un error, no una característica.

¿Cuántos de nosotros hemos sido culpables de ese mismo comportamiento? Y sin embargo, queremos que nuestro AIS sea preciso. Entonces, si tiene cosas importantes para discutir o desea una mayor probabilidad de precisión en sus respuestas, use la versión web.

¿Qué opinas sobre el modo de voz de ChatGPT? ¿Has notado que apresuran las respuestas o se pierden detalles importantes en comparación con la versión web? ¿Encuentra útil el modo de voz avanzado, o más frustrante que útil? ¿Cuánta precisión estás dispuesto a comerciar por la velocidad de conversación? Háganos saber en los comentarios a continuación.

Para confirmar mis observaciones empíricas (y las sociales) sobre los comportamientos del modo de voz, me he comunicado con OpenAi. Actualizaré este espacio si proporcionan más información.

Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, en bluesky en @davidgewirtz.com, y en YouTube en youtube.com/davidgewirtztv.

Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.