Google presentó una vista previa de Gemini 2.5 Computer Use, el nuevo modelo de lenguaje que impulsa Project Mariner. Esta tecnología, basada en Gemini 2.5 Pro, permite que agentes de inteligencia artificial interactúen directamente con interfaces gráficas, como formularios web y aplicaciones móviles. Tras realizar pruebas con evaluadores internos, la empresa decidió ampliar el acceso a desarrolladores mediante la API de Gemini.
Según una publicación oficial en su blog, la versión preliminar pública de Gemini 2.5 Computer Use ya se encuentra disponible. El modelo fue diseñado para ejecutar acciones dentro de entornos visuales, como navegadores web en computadoras de escritorio o dispositivos móviles. Su propósito consiste en facilitar la interacción directa entre agentes de IA y las interfaces gráficas que utilizan los usuarios.
En la práctica, Gemini 2.5 Computer Use puede visitar páginas, hacer clic en botones, rellenar formularios y realizar otras tareas. Esta funcionalidad permite que los usuarios deleguen acciones sin necesidad de programar. Por ejemplo, una persona puede solicitar a la IA que busque información, gestione una reserva en línea o complete un registro en una página web sin escribir manualmente los datos.
El modelo analiza lo que aparece en pantalla, junto con la instrucción del usuario y el historial de acciones recientes. Antes de ejecutar tareas sensibles, como enviar datos o efectuar una compra, solicita confirmación. Además, cada acción pasa por un sistema de seguridad externo que detecta y bloquea comportamientos maliciosos.
Gemini 2.5 Computer Use constituye la base de Project Mariner, una iniciativa de Google que busca acelerar el desarrollo de agentes de IA. Este proyecto, junto con Project Astra, forma parte de la estrategia para construir un futuro automatizado en el que los usuarios puedan delegar tareas cotidianas a sistemas inteligentes.
La versión preliminar se encuentra disponible a través de la API de Gemini en Google AI Studio y Vertex AI. Se activa mediante la herramienta computer_use, que considera la solicitud del usuario, una captura de pantalla del entorno y el historial de acciones recientes. Google indicó que el modelo está optimizado para navegadores web, aunque también puede ejecutar acciones desde dispositivos móviles.
Para demostrar su funcionamiento, la empresa publicó dos demostraciones en tiempo real. La primera muestra cómo la IA gestiona citas en un spa para mascotas. En este caso, el sistema navega entre dos páginas, extrae datos filtrados por ubicación, completa campos en un CRM y programa una cita. La segunda demo presenta una solución para organizar tareas en un tablero lleno de post-its. La IA interpreta visualmente el tablero, clasifica las notas según categorías definidas y las reorganiza.
Aunque el rendimiento en estas demostraciones resulta prometedor, Gemini 2.5 Computer Use todavía no controla sistemas operativos de escritorio para ejecutar tareas más complejas. Es posible que futuras versiones incorporen esta capacidad, aunque las regulaciones de privacidad y seguridad en Europa podrían limitar su implementación.
Desde hoy, cualquier persona interesada puede probar el nuevo modelo de Google. Gemini 2.5 Computer Use está disponible mediante la API de Gemini en Google AI Studio y Vertex AI. La empresa recuerda que se trata de una versión preliminar, por lo que podrían presentarse errores durante su uso.