La competencia por dominar la generación de contenido con inteligencia artificial se ha trasladado a un nuevo campo de batalla: el video. Así, Google ha anunciado el lanzamiento de Veo 2, un modelo de lenguaje avanzado que promete revolucionar la creación de videos realistas en resolución 4K. Este anuncio llega poco después de que OpenAI abriera el acceso a su propia herramienta, Sora, marcando un nuevo capítulo en la carrera tecnológica.
Veo 2, desarrollado por DeepMind, es el sucesor del modelo Veo, presentado durante el evento I/O 2024. Según Google, esta nueva IA es capaz de generar videos de alta calidad en una variedad de temas y estilos, desde representaciones realistas de personas y animales hasta animaciones al estilo Pixar. Lo que distingue a Veo 2 es su capacidad para crear videos que superan hasta seis veces la duración máxima de los generados por Sora, alcanzando los dos minutos.
Una de las características más destacadas de Veo 2 es su comprensión del lenguaje cinematográfico. Los usuarios pueden especificar detalles técnicos como el tipo de lente, el encuadre y los efectos deseados en el video. Por ejemplo, es posible solicitar un gran angular de 18 mm que enfoque al sujeto mientras difumina el fondo, o aplicar un filtro de color específico para añadir dramatismo a la escena.
Además, Veo 2 incorpora una comprensión mejorada de la física y los controles de cámara, lo que le permite producir representaciones realistas de fluidos, iluminación y efectos especiales. Entre los ejemplos presentados por Google se incluyen un perro nadando bajo el agua, una persona manipulando miel rodeada de abejas, y un grupo de flamencos paseando por una laguna.
En comparación con Sora, Veo 2 ofrece una resolución de 4K (3,840 x 2,160 píxeles) y una duración de hasta dos minutos, superando significativamente los 20 segundos de video Full HD (1920 x 1080 píxeles) que ofrece su competidor. Además, Google asegura que Veo 2 “alucina” con menor frecuencia, reduciendo la aparición de errores como personas con seis dedos o elementos sin sentido en la escena.
La confiabilidad es otro aspecto crucial de Veo 2. Según Aäron van den Oord, científico investigador de DeepMind, el modelo ha sido probado con un grupo reducido de usuarios para mejorar su calidad y abordar problemas de seguridad. Todos los videos generados llevarán una marca de agua SynthID, que los identificará como contenido sintético.
A pesar de sus avances, Veo 2 enfrenta desafíos en la creación de videos realistas y la consistencia en escenas complejas o en movimiento. Eli Collins, vicepresidente de producto de DeepMind, reconoce que la coherencia es un área de crecimiento, ya que Veo 2 puede seguir indicaciones durante un par de minutos, pero no en horizontes más largos.
Por ahora, Veo 2 estará disponible en VideoFX, la herramienta de generación de video de Google Labs, con acceso limitado a algunos usuarios. Google planea expandir su disponibilidad a YouTube y otros productos durante 2025, prometiendo un futuro donde la creación de contenido audiovisual esté al alcance de todos.