En un mundo cada vez más globalizado, aprender un nuevo idioma, como el inglés, se ha convertido en un propósito común para muchos al comenzar el año. Sin embargo, la llegada de la inteligencia artificial ha transformado esta necesidad, facilitando la traducción de un idioma a otro de manera más accesible. Desde dispositivos móviles hasta auriculares y gafas de sol como las Ray-Ban de Meta, la IA está rompiendo las barreras del idioma, permitiendo a los viajeros comunicarse sin problemas en cualquier parte del mundo.
Recientemente, Meta, la empresa matriz de WhatsApp e Instagram, ha presentado un innovador modelo de inteligencia artificial que promete revolucionar los sistemas de traducción simultánea actuales. Este modelo es capaz de traducir más de 100 idiomas en tiempo real, tanto en formato de texto como de voz, minimizando el ruido y las interferencias que puedan dificultar la comprensión durante una conversación.
Expertos en el campo, aunque no vinculados directamente al proyecto, han valorado positivamente este avance. Maite Martín, catedrática del departamento de Informática de la Universidad de Jaén, en España, destacó la inclusión de idiomas menos representados, como el maltés y el suajili, en este nuevo sistema. Los resultados de esta investigación han sido publicados en la revista Nature, con Marta Costa-Jussà, una investigadora española de Meta en California, como autora principal.
Meta ha desarrollado un sistema que recuerda al “pez de Babel”, un concepto de ciencia ficción de la novela “La guía del autoestopista galáctico”, que permitía la traducción simultánea. Este sistema, denominado SEAMLESSM4T, es un modelo multimodal y multilingüe que puede reconocer automáticamente hasta 96 idiomas en una conversación hablada y traducir en directo 101 idiomas diferentes, ya sea de habla a habla, de habla a texto, de texto a texto o de texto a habla.
A pesar de estos avances, el camino hacia la perfección en la traducción automática aún enfrenta desafíos. Raquel Fernández, catedrática de Lingüística Computacional y Sistemas de Diálogo en la Universidad de Ámsterdam, señala que, aunque el modelo representa un avance significativo, todavía enfrenta problemas al procesar el habla en función de factores como el género, el acento o el idioma. Además, se han detectado sesgos de género en algunas traducciones al español.
Una de las características destacadas del nuevo modelo es su capacidad para resistir el ruido de fondo y las variaciones en el habla, siendo aproximadamente un 50% más robusto que los sistemas anteriores. Rodolfo Zevallos, investigador del grupo de Tecnologías del Lenguaje del BSC, resalta esta cualidad como un aspecto positivo del modelo.
A pesar de estos logros, los autores del estudio reconocen que el modelo requiere una mayor optimización antes de ser lanzado como un producto de consumo. Por ahora, la herramienta está disponible para la comunidad científica, con la esperanza de que, en el futuro, pueda integrarse en las diversas plataformas de Meta, como las gafas de realidad virtual Meta Quest y los modelos de gafas de sol Ray-Ban que permiten grabar videos.