Microsoft presentó dos modelos de inteligencia artificial (IA) que marcan un nuevo capítulo en su estrategia tecnológica. MAI-1-preview y MAI-Voice-1 representan los primeros frutos de la división de IA liderada por Mustafá Sulaymán, cofundador de DeepMind. El anuncio se produjo tras meses de especulación, y posiciona a la compañía en competencia directa con OpenAI, Google y otras firmas del sector.
MAI-Voice-1 se enfoca en la generación de voz con alta fidelidad. Este modelo produce un minuto de audio en menos de un segundo y funciona con una sola GPU, lo que lo convierte en una solución eficiente. Microsoft ya lo integró en sus resúmenes de noticias de Copilot Daily y en sus podcasts. La empresa destacó que el modelo permite narrar historias, crear meditaciones guiadas y desarrollar asistentes virtuales con conversación en tiempo real.
Para demostrar sus capacidades, Microsoft lanzó la herramienta «Expresiones de audio de Copilot» dentro de Copilot Labs. Esta función genera audio a partir de guiones y ofrece opciones para modificar el estilo narrativo. Los usuarios pueden elegir entre un Modo emotivo, que ajusta el tono y ritmo del narrador o asigna una voz distinta, y un Modo historia, que ofrece una narración expresiva.
Por otro lado, MAI-1-preview se diseñó para competir con modelos de texto avanzados. Microsoft lo entrenó con 15.000 GPU NVIDIA H-100 utilizando la arquitectura Mixture-of-Experts (MoE), una técnica que también emplean modelos como DeepSeek y Qwen3. Esta arquitectura divide el modelo en componentes especializados y activa solo los necesarios para cada tarea, lo que permite una gestión eficiente de los recursos.
Mustafá Sulaymán explicó en una entrevista con Semafor que utilizaron técnicas de la comunidad de código abierto para mejorar el rendimiento con recursos limitados. Según sus palabras, MAI-1-preview ofrece capacidades sólidas a los usuarios que necesitan modelos capaces de seguir instrucciones y responder consultas cotidianas con precisión.
Microsoft aclaró que MAI-1-preview no reemplazará a GPT-5 en Copilot. La empresa planea integrarlo en las próximas semanas para ejecutar tareas específicas. Evaluará su rendimiento y tomará en cuenta los comentarios de los usuarios para mejorar futuras versiones. El modelo también estará disponible en LMArena y mediante una API para desarrolladores.
Aunque MAI-Voice-1 se diseñó para generar audio expresivo, Sulaymán subrayó que eliminarán cualquier rasgo que sugiera que la IA posee sentimientos u objetivos. Recientemente, publicó un artículo donde advirtió sobre los riesgos de construir sistemas que imiten el comportamiento humano. En sus palabras, hace unos años hablar de IA consciente parecía una locura, pero hoy se percibe como un tema urgente. Afirmó que el objetivo debe ser construir una IA para las personas, sin convertirla en una persona digital.