🗣️ Voxtral TTS: la voz open source que cabe en un smartwatch

La empresa francesa Mistral, referente de la inteligencia artificial en Europa, ha presentado Voxtral TTS, un modelo de texto a voz (TTS) open source que promete revolucionar el mercado. Su principal atractivo es que puede ejecutarse en dispositivos de borde como smartwatches, smartphones y portátiles, gracias a su tamaño compacto basado en el modelo Ministral 3B.

Este sistema soporta nueve idiomas (inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe) y permite clonar una voz en menos de cinco segundos, capturando timbre, acentos, inflexiones y hasta irregularidades naturales del habla. Además, ofrece un tiempo hasta el primer audio (TTFA) de apenas 90 milisegundos para una muestra de 10 segundos y 500 caracteres, lo que significa que empieza a hablar casi de inmediato.

Tres ventajas clave

Ejecución local (on-device): al no depender de servidores en la nube, garantiza privacidad y seguridad, especialmente para sectores sensibles como salud, banca o gobierno.
Clonación de voz realista: reproduce acentos y entonaciones humanas, evitando el efecto robótico.
Multilingüismo sin pérdida de identidad vocal: una voz clonada en español puede hablar en árabe manteniendo sus características originales, lo que abre posibilidades para doblaje, traducción en tiempo real y asistentes de voz globales.

Competencia directa

Mistral asegura que Voxtral TTS iguala en naturalidad a ElevenLabs Flash v2.5 y se sitúa a la par del modelo v3 de ElevenLabs en interacciones realistas. Con un factor de tiempo real (RTF) de 6x, un clip de 10 segundos se genera en apenas 1,6 segundos. Esto lo coloca como un competidor directo de ElevenLabs, Deepgram y OpenAI TTS, pero con la ventaja de ser open source y gratuito.

Estrategia multimodal

Voxtral TTS no es un producto aislado. Forma parte de una plataforma multimodal que Mistral ha ido construyendo entre 2025 y 2026. La compañía ya había lanzado modelos de transcripción y comprensión de audio, y ahora busca consolidar un sistema end-to-end capaz de manejar flujos de entrada y salida en audio, texto e imagen.

Según Pierre Stock, VP de operaciones científicas de Mistral, la visión es clara: «Nuestros clientes nos pedían un modelo de voz. Así que construimos uno pequeño que cabe en un smartwatch, un smartphone o un portátil. Su coste es una fracción de cualquier otra cosa en el mercado, pero ofrece rendimiento de última generación».

Disponibilidad

El modelo está accesible en Mistral Studio, Le Chat y Hugging Face, bajo licencia Creative Commons. La apuesta es que la apertura y personalización impulsen su adopción empresarial frente a soluciones propietarias de alto coste.

Impacto esperado

Mistral ya había democratizado los LLMs open source y ahora busca hacer lo mismo con la voz. Un modelo que cabe en un smartwatch, clona voces en cinco segundos y es gratuito podría transformar los asistentes de voz empresariales, la atención al cliente y el doblaje multilingüe. El reto será comprobar si la calidad se mantiene en producción a gran escala, donde miles de interacciones simultáneas ponen a prueba la naturalidad vocal.

Autor

Canal USB

Redacción de Canal USB.

Ver todas las entradas