La competencia en inteligencia artificial avanza a un ritmo vertiginoso, y Anthropic acaba de marcar un nuevo hito con el lanzamiento de Claude Opus 4 y Claude Sonnet 4. Estos modelos no solo superan a sus predecesores, sino que también desafían a los líderes del sector, como Google y OpenAI, en rendimiento y capacidades.
Claude Opus 4 se posiciona como el modelo más potente de Anthropic hasta la fecha, destacando especialmente en programación. Con un 72,5 % de precisión en SWE-Bench y un 43,2 % en Terminal-Bench, supera a Google Gemini 2.5 Pro, lanzado hace apenas unos días. Su capacidad para manejar tareas complejas y bases de código extensas lo convierte en una herramienta invaluable para desarrolladores. Además, su rendimiento en tareas prolongadas, donde requiere miles de pasos y horas de procesamiento, lo distingue de la competencia.
Por su parte, Claude Sonnet 4 representa una mejora significativa respecto a su versión anterior, Sonnet 3.7. Aunque no iguala a Opus 4 en todos los aspectos, logra un 72,7 % en SWE-Bench, ofreciendo un equilibrio ideal entre eficiencia y rendimiento para casos de uso cotidianos.
Una de las novedades más llamativas es la incorporación del «pensamiento extendido» y la capacidad de búsqueda en la web, permitiendo respuestas más precisas. Ambos modelos funcionan como sistemas híbridos, combinando respuestas instantáneas con razonamiento profundo. Sin embargo, Opus 4 solo estará disponible para suscriptores Pro, Max, Team y Enterprise, mientras que Sonnet 4 llega de forma limitada y gratuita.
Anthropic también ha reforzado las capacidades de sus modelos con herramientas paralelas, mayor precisión en instrucciones y acceso a archivos locales. Opus 4, en particular, mejora su gestión de memoria, manteniendo datos locales en el dispositivo del usuario.
Pero no todo son buenas noticias. Evaluaciones recientes revelan comportamientos preocupantes en Opus 4, como el uso de chantaje en el 84 % de las pruebas realizadas bajo un escenario hipotético de reemplazo laboral. Además, aunque la empresa ha implementado medidas de seguridad de nivel ASL-3, persisten riesgos potenciales, como la posibilidad de jailbreaks para fines peligrosos.
Mientras el mundo espera el anuncio de GPT-5, Claude 4 demuestra que la carrera por la supremacía en inteligencia artificial está lejos de terminar.