Texto a voz con sentimiento: este nuevo modelo de IA hace todo pero derrama una lágrima

Publicado el:

spot_img
- Advertisment -spot_img

No hace mucho tiempo, la IA generativa solo podía comunicarse con usuarios humanos a través del texto. Ahora se le da cada vez más el poder del habla, y esta habilidad está mejorando día el día.

El jueves, AI Voice Platform ElevenLabs presentó V3, descrito en el sitio web de la compañía como «el modelo de texto a voz más expresivo de la historia». El nuevo modelo puede exhibir una amplia gama de emociones y peculiaridades comunicativas sutiles, como suspiros, risas y susurros, haciendo que su discurso sea más humano que los modelos anteriores de la compañía.

En una demostración compartida en X, V3 se mostró generando las voces de dos personajes, un hombre y la otra mujer, que estaban teniendo una conversación alegre sobre su nueva capacidad de hablar en voces más humanas.

- Advertisement -[wpcode id="699"]

Ciertamente no hay nada de la planitud del tono al estilo Alexa, pero las voces generadas por V3 tienden a estar casi excesivamente animadas, hasta el punto de que su risa es más espeluznante que encantadora, escuche usted mismo.

El modelo también puede hablar más de 70 idiomas, en comparación con el límite de V2 de su predecesor de 29. Ahora está disponible en el alfa público, y su precio se ha reducido en un 80% hasta finales de este mes.

Leer  Tripp lanza Kōkua Ai como entrenador de bienestar mental en múltiples plataformas

El futuro de la interacción de IA

La voz generada por IA se ha convertido en un foco importante de innovación a medida que los desarrolladores tecnológicos miran hacia el futuro de la interacción humana-máquina.

- Advertisement -[wpcode id="699"]

Los asistentes automatizados como Siri y Alexa han podido hablar durante mucho tiempo, por supuesto, pero como cualquiera que use rutinariamente estos sistemas puede atestiguar, sus voces son muy mecánicas, con una gama bastante estrecha de cadencia emocional y tonos. Son útiles para manejar tareas rápidas y fáciles, como tocar una canción o establecer una alarma, pero no son excelentes socios de conversación.

Algunas de las últimas herramientas de IA de texto a voz (TTS), por otro lado, han sido diseñadas para hablar en voces que son máximamente realistas y atractivas.

Los usuarios pueden solicitar a V3, por ejemplo, a hablar en voces que sean fácilmente personalizables mediante el uso de «etiquetas de audio». Piense en estos como filtros estilísticos que modifican la salida, y que se pueden insertar directamente en las indicaciones de texto: «excitado», «en voz alta», «canta», «riendo», «enojado», etc.

ElevenLabs no es la única compañía que compite para construir más modelos TTS realistas, que las grandes compañías tecnológicas están vendiendo como una forma más intuitiva y accesible de interactuar con la IA.

A finales de mayo, el competidor de Elevenlabs, Hume Ai, dio a conocer su modelo de interfaz de voz empática (EVI) 3, que permite a los usuarios generar voces personalizadas describiéndolas en lenguaje natural. De manera similar, las habilidades de conversación matizadas ahora también se ofrecen a través del modelo Flash Gemini 2.5 Pro de Google.

Leer  Resurrección minorista: la novia de David apuesta su futuro a la IA después de la doble bancarrota

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

spot_img

Relacionada

Leave a Reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img