El retraso de OpenAI en el impresionante modo de voz de ChatGPT molestó a muchos fanáticos del chatbot de IA, pero es posible que ahora hayan sido descubiertos. El desarrollador francés de inteligencia artificial Kyutai ha presentado un asistente de voz en tiempo real llamado Moshi.

está diseñado para brindar conversaciones realistas con los usuarios a través de la voz, como Alexa o el Asistente de Google, pero funciona con los grandes modelos de lenguaje subyacentes a ChatGPT y sus rivales, en este caso, el modelo Helium 7B. Según Kyutai, Moshi puede hablar con varios acentos y tiene 70 estilos emocionales y de habla diferentes. La IA puede incluso manejar dos transmisiones de audio simultáneamente, lo que permite a Moshi escuchar y hablar simultáneamente.

El desarrollo de Moshi por parte de Kyutai implicó el ajuste de más de 100.000 diálogos sintéticos realizados utilizando tecnología Text-to-Speech (TTS). El objetivo era ayudar a enseñar a Moshi los matices y tonos de la comunicación humana. La marca incluso colaboró ​​con un locutor profesional para mejorar la calidad de la voz de Moshi.

Este asistente de IA integra entrenamiento de texto y audio, optimizado para múltiples backends, lo que significa que puede ejecutarse en dispositivos como computadoras portátiles sin necesidad de interactuar con la nube. La compañía presenta esto como una forma de mantener la privacidad y la seguridad al evitar la transmisión de datos confidenciales a través de Internet.

Fuente: Tech Radar | Eric Hal Schwartz

Para leer más ingresa a: https://www.techradar.com/computing/artificial-intelligence/this-new-ai-voice-assistant-beat-openai-to-one-of-chatgpts-most-anticipated-features

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *