Google presentó esta semana Gemini 2.0, su modelo de inteligencia artificial de próxima generación y la actualización más significativa hasta la fecha. Este anuncio se realizó en medio del evento temático navideño de OpenAI para ChatGPT, destacando la intensa carrera por liderar en el desarrollo de IA.
Gemini 2.0 llega aproximadamente un año después del lanzamiento de Gemini 1.0. Desde entonces, Google también ha introducido Gemini 1.5, una mejora considerable respecto a la versión original, que incorporó soporte multimodal y un contexto mucho más amplio. Esta actualización fue la respuesta de Google al avance de ChatGPT con su actualización GPT-4o.
El nuevo modelo, descrito por Google como el más capaz hasta ahora, se acerca a la visión de un asistente universal. Entre sus características más destacadas se encuentra la función de Investigación Profunda, que ofrece capacidades avanzadas de razonamiento y un contexto prolongado, transformándolo en un asistente de investigación virtual.
El razonamiento avanzado se integrará en las Descripciones Generales de IA, permitiendo abordar temas más complejos y preguntas de múltiples pasos, incluyendo ecuaciones matemáticas avanzadas, consultas multimodales y codificación. Aunque esta no es la mejora que algunos usuarios esperaban para la búsqueda de Google, aquellos que aprecian las Descripciones Generales de IA podrán disfrutar de estas habilidades de razonamiento en breve, aunque inicialmente en una prueba limitada.
Además del razonamiento, Gemini 2.0 introduce avances significativos en multimodalidad, como la salida nativa de imágenes y audio, y el uso nativo de herramientas. Google también menciona que Gemini 2.0 permitirá el desarrollo de agentes de IA, acercándose así al objetivo de un asistente universal.
Una de las innovaciones es Gemini 2.0 Flash, una evolución de Gemini 1.5 Flash, que es más rápido en pruebas de rendimiento, duplicando la velocidad de su predecesor. Este modelo admite entradas multimodales, como imágenes, video y audio, y puede generar salidas multimodales, combinando texto con imágenes y audio multilingüe de texto a voz (TTS) controlable, algo que ChatGPT aún no puede hacer.
Gemini 2.0 Flash está disponible actualmente como un modelo experimental para desarrolladores en Google AI Studio y Vertex AI, con disponibilidad general prevista para enero. Una herramienta API en vivo multimodal permitirá a los desarrolladores utilizar entradas de audio y video en tiempo real y la capacidad de usar múltiples herramientas combinadas.
El modelo también estará disponible en las versiones de escritorio y móvil de Gemini, accesible a través de un nuevo menú desplegable que permite seleccionar el modelo de IA deseado para la experiencia del asistente Gemini. Se espera que Gemini 2.0 se expanda a más productos a principios del próximo año.
En cuanto a las características agenticas que Gemini 2.0 hará posibles, Google menciona tres proyectos: Astra, Mariner y Jules. El Proyecto Astra, presentado por primera vez en el I/O 2024, ya tiene algunas funciones disponibles en la aplicación Gemini para dispositivos móviles. Este asistente de IA admite multimodalidad y habilidades de voz similares al Modo de Voz Avanzado de ChatGPT.
Con Gemini 2.0, Astra es compatible con Google Search, Lens y Maps, y puede recordar más información por sesión, con una ventana de 10 minutos. Esto permitirá ofrecer respuestas personalizadas. Las mejoras de Astra estarán disponibles en la aplicación Gemini y en otros formatos como gafas, a las que tendrán acceso los probadores de confianza.
El Proyecto Mariner explora el futuro de la interacción humano-agente, permitiendo a los usuarios realizar acciones en su nombre en navegadores como Google Chrome mediante una extensión. Gemini 2.0 podrá escribir, desplazarse y hacer clic en la pestaña activa del navegador, solicitando confirmación para acciones específicas, como realizar compras.
Mariner estará disponible para probadores de confianza de inmediato. Mientras tanto, OpenAI aún no ha lanzado una herramienta de ChatGPT similar a Mariner. Un video disponible ofrece una idea de la utilidad potencial de Mariner para la productividad.
Por último, Jules es un agente de codificación que puede ayudar a los desarrolladores, integrándose directamente en el flujo de trabajo de GitHub. Este agente de IA puede abordar un problema, desarrollar un plan y ejecutarlo bajo la dirección y supervisión de un desarrollador. Aunque OpenAI permite que ChatGPT acceda a código desde ciertas aplicaciones de Mac, esta función es más limitada.
Además de Astra, Mariner y Jules, Google también está trabajando en agentes Gemini 2.0 que pueden asistir a los jugadores durante el juego, basándose en lo que ocurre en la pantalla.