Google ha presentado oficialmente Gemini 2.0, su última y más avanzada familia de modelos de IA. Este lanzamiento no solo consolida las versiones experimentales que la compañía había estado probando desde diciembre pasado, sino que también introduce mejoras significativas en capacidad, precisión y funcionalidad, posicionándose como un fuerte competidor frente a otros del sector como OpenAI y DeepSeek.
Uno de los aspectos más destacados de este anuncio es la disponibilidad gratuita de Gemini 2.0 Flash Thinking, un modelo de razonamiento que ahora está integrado en las aplicaciones móviles y de escritorio de Gemini. Según Google, esta versión es más “agéntica”, lo que le permite interactuar de manera más dinámica con servicios populares como YouTube, Search y Google Maps. Este avance no solo mejora la experiencia del usuario, sino que también demuestra la capacidad de la IA para realizar tareas complejas que antes parecían exclusivas del razonamiento humano.
El compromiso de Google con la innovación en inteligencia artificial se refleja en su ambiciosa inversión de 75.000 millones de dólares para 2025, un esfuerzo que busca mantener a la empresa a la vanguardia en un mercado cada vez más competitivo.
Sundar Pichai, CEO de Alphabet, ha subrayado la importancia de esta inversión, señalando que, aunque la empresa ya cuenta con recursos financieros y tecnológicos sin precedentes, el objetivo no es solo liderar, sino evitar quedarse atrás en una carrera donde la competencia también está dispuesta a gastar sumas astronómicas.
Dentro de la familia Gemini 2.0, destaca el lanzamiento de Gemini 2.0 Pro, un modelo que supera a su predecesor, Gemini 1.5 Pro, en tareas relacionadas con programación y matemáticas. Google lo describe como “su modelo más capaz hasta la fecha”, y estará disponible tanto para suscriptores de Gemini Advanced como para desarrolladores que utilicen Vertex AI y AI Studio.
Además, la compañía ha introducido Gemini 2.0 Flash-Lite, una versión más ligera pero igualmente eficiente, que ofrece respuestas de mayor calidad sin sacrificar velocidad ni aumentar costos. Este modelo, con una ventana de contexto de un millón de tokens y soporte multimodal, es capaz de realizar tareas impresionantes, como generar descripciones breves para miles de imágenes en cuestión de segundos y por menos de un dólar.