El campo de la inteligencia artificial (IA) generativa se encuentra en plena efervescencia, con nuevos avances que prometen transformar la forma en que interactuamos con la tecnología. En esta carrera por liderar el mercado, Google se encuentra desarrollando un nuevo agente de IA conocido internamente como Project Jarvis, el cual permitirá automatizar diversas tareas desde el navegador web del usuario.
Esta estrategia se enmarca dentro de un movimiento más amplio, en el que grandes compañías tecnológicas como Anthropic y Microsoft ya están desplegando sus propios “asistentes virtuales” para facilitar la automatización de procesos cotidianos.
El reciente lanzamiento de Computer Use por parte de Anthropic ha impulsado esta tendencia. Este agente, integrado en su chatbot Claude, demostró que es capaz no solo de responder preguntas o mantener conversaciones con el usuario, sino también de ejecutar órdenes complejas de manera directa.
Un ejemplo presentado en su lanzamiento fue la creación automática de una página web con estética de los años 90 basada en un grupo de rock, sin que el usuario tuviera que realizar más que una instrucción sencilla.
Ahora, Google busca dar su propio paso adelante en este sector con Project Jarvis, un agente orientado específicamente a gestionar tareas dentro del navegador web. A diferencia de la propuesta de Anthropic, que se enfoca en controlar por completo el ordenador del usuario, el proyecto de Google parece limitarse exclusivamente al uso del navegador, buscando así simplificar y automatizar procesos relacionados con la navegación en internet.
Jarvis: el nuevo asistente de Google para Chrome
Según The Information, Project Jarvis estaría diseñado para funcionar de forma óptima con Chrome, el navegador insignia de Google, y formará parte de Gemini, la familia de grandes modelos de lenguaje (LLM) de la compañía. Con este agente, los usuarios podrían realizar tareas como buscar información, comprar productos en línea o reservar vuelos mediante comandos simples, delegando así tareas que hasta ahora requerían interacción manual.
El enfoque de Google parece centrarse en lo que ellos denominan “automatización de tareas cotidianas basadas en la web”, con el objetivo de agilizar la experiencia del usuario y minimizar el tiempo invertido en acciones repetitivas o mecánicas. Este movimiento también busca competir con soluciones como Copilot Vision de Microsoft, que ya permite a los usuarios interactuar con los sitios web que visitan, o las futuras funcionalidades que podría incorporar Apple con Apple Intelligence.
Aunque estas herramientas representan un avance significativo, el camino hacia su adopción masiva aún tiene retos por superar. El uso del agente Computer Use de Anthropic ha revelado algunas de las dificultades técnicas que enfrenta este tipo de tecnología. Por ejemplo, para ejecutar órdenes, el sistema debe realizar capturas constantes de la pantalla, analizarlas en tiempo real y actuar en consecuencia. Este proceso no solo ralentiza el rendimiento, sino que también genera altos costos operativos debido a las múltiples llamadas a la API necesarias para completar tareas complejas.
Si bien Google parece haber optado por un enfoque más limitado al restringir el control de su agente únicamente al navegador, la competencia en este terreno sigue abierta. Todas las compañías implicadas en el desarrollo de estos asistentes buscan la manera más eficiente de ofrecer sus servicios sin comprometer la experiencia del usuario.
Los rumores indican que Google podría presentar formalmente Project Jarvis en diciembre, coincidiendo con el lanzamiento de la versión Gemini 2.0. Se espera que la compañía implemente inicialmente esta tecnología en un entorno controlado, ofreciendo acceso preliminar a algunos usuarios para recopilar comentarios y ajustar el funcionamiento del agente antes de su despliegue definitivo. Esta estrategia busca minimizar posibles fallos y garantizar un lanzamiento más pulido, con el menor número de conflictos posible.