El ascenso de la IA generativa al mundo del desarrollo de software parecía seguir un guión claro: los modelos escribirían el código y los humanos se encargarían de revisarlo. En marzo del año pasado, el propio CEO de Anthropic, Dario Amodei, declaraba que la IA estaría escribiendo el 90% del código en tres a seis meses, y prácticamente todo en un año. Mike Krieger, cofundador de Instagram y director de producto de Anthropic, fue aún más concreto asegurando que los desarrolladores pasarían a revisar el código generado por IA en lugar de escribirlo. Los tiros de Anthropic van por ahí, y sube la apuesta: una IA que revise el código de una IA.
El problema de programar con IA. Lo que hoy conocemos como vibe coding, esa práctica de darle instrucciones en lenguaje natural a una IA para que genere código a toda velocidad, ha disparado la producción de software en las empresas. Anthropic afirma que la cantidad de código generado por cada uno de sus propios ingenieros ha crecido un 200% en el último año. Y ahora hay un problema: hay tanto código nuevo que revisarlo se ha convertido en el cuello de botella del proceso.
Los desarrolladores humanos no dan abasto. Y es que tal y como reconoce Anthropic en su comunicado, muchas pull requests (las propuestas de cambio que hay que revisar antes de integrar código nuevo) se leen por encima o directamente no se leen con demasiado detenimiento.
Qué ha hecho Anthropic. La compañía ha lanzado Code Review, una herramienta integrada en Claude Code que, en lugar de esperar a que un humano revise el código, despliega un equipo de agentes de IA para hacerlo de forma automática cada vez que se abre una pull request. Este nuevo sistema ya está disponible en fase de vista previa para clientes de los planes Team y Enterprise.
Cat Wu, responsable de producto en Anthropic, explicaba a TechCrunch que la pregunta que les llegaba constantemente de los responsables técnicos de sus clientes era siempre la misma: «Ahora que Claude Code está generando un montón de pull requests, ¿cómo me aseguro de que se revisan de forma eficiente?».
Cómo funciona por dentro. Los agentes de IA trabajan en paralelo de forma autónoma en el momento en el que se abre una pull request, examinando el código desde distintas perspectivas. Luego un agente final agrega y prioriza los problemas que ha encontrado, eliminando duplicados y ordenándolos por gravedad. El resultado llega al desarrollador por medio de un comentario destacado, acompañado de más comentarios en línea sobre errores concretos.
El foco, según Anthropic, está en errores lógicos, no en cuestiones de estilo, algo ideado a propósito para que el feedback no genere demasiado ruido. Los problemas se etiquetan por colores según lo importantes que sean: rojo para lo crítico, amarillo para lo que merece atención, y morado para lo relacionado con código preexistente.
Números. La empresa lleva meses usando Code Review internamente antes de lanzarlo al mercado. Según cuentan, antes de implantarlo, solo el 16% de sus pull requests recibían comentarios de revisión significativos. Con la herramienta, ese porcentaje sube al 54%. En pull requests grandes (más de 1.000 líneas modificadas) el 84% arrojaban resultados, con una media de 7,5 problemas detectados. Y menos del 1% de esos resultados son marcados como incorrectos por los propios ingenieros.
En uno de los casos documentados por la compañía, hablaban de un cambio de una sola línea que parecía rutinario. Sin embargo, Code Review lo marcó como crítico, ya que al parecer podría haber roto la autenticación del servicio al completo. El error se corrigió antes de integrarse. Además, según cuenta la compañía, el ingeniero reconoció después que no lo habría pillado él solo.
El nuevo rol del programador. Era la narrativa que se había extendido en los últimos dos años y que grandes CEOs han repetido en varias ocasiones. Matt Garman, CEO de Amazon Web Services, llegó a afirmar que en 24 meses la mayoría de los desarrolladores podrían dejar de programar. Boris Cherny, responsable de Claude Code en Anthropic, declaró a NPR que, independientemente de cuánto código genere la IA, «cada línea debería ser revisada por un ingeniero». El humano como supervisor: ese era el nuevo pacto.
Ahora esa transición también está siendo automatizada, al menos en parte. Anthropic no elimina al humano de la ecuación (de hecho la herramienta no aprueba pull requests), pero sí comprime el trabajo de revisión que se suponía era el último bastión. Parece que ahora el humano pasa de revisor a árbitro final.
Precio. No es una herramienta barata. Cada revisión tiene un coste basado en el consumo de tokens. Anthropic estima que el precio medio por revisión oscila entre 15 y 25 dólares, dependiendo de la complejidad del código. Es un coste que la empresa justifica en el contexto de grandes empresas tecnológicas donde los errores que escapan a revisión tienen un precio mucho mayor.
