Stable Audio 2.0, un modelo de generación de audio para Stability AI, ahora permite a los usuarios cargar sus propias muestras de audio que luego pueden transformar usando indicaciones y crear canciones generadas por IA. Pero las canciones aún no ganarán ningún Grammy.
La primera versión de Stable Audio se lanzó en septiembre de 2023 y solo ofrecía hasta 90 segundos para algunos usuarios que pagaban, lo que significaba que solo podían crear clips de sonido cortos para experimentar. Stable Audio 2.0 ofrece un clip de sonido completo de tres minutos, la duración de la mayoría de las canciones amigables para la radio. Todo el audio cargado debe ser libre de derechos de autor.
A diferencia del modelo de generación de audio de OpenAI, Voice Engine, que solo está disponible para un grupo selecto de usuarios, Stability AI hizo que Stable Audio fuera gratuito y públicamente disponible a través de su sitio web y, pronto, su API.
Una gran diferencia entre Stable Audio 2.0 y su iteración anterior es la capacidad de crear canciones que suenen como canciones, completas con una introducción, progresión y una conclusión, dice Stability AI.
Según The Verge, que probó la herramienta “aún hay un largo camino por recorrer”. Las nuevas funciones en Stable Audio 2.0 permiten a los usuarios personalizar su proyecto ajustando la fortaleza de la indicación (es decir, cuánto debe seguirse la indicación) y cuánto del audio cargado modificará. Los usuarios también pueden agregar efectos de sonido como el rugido de una multitud o toques de teclado.
No es sorprendente que las canciones generadas por IA aún se sientan carentes de alma y extrañas. Otras compañías, como Meta y Google, también han estado incursionando en la generación de audio por IA pero no han lanzado sus modelos públicamente mientras recopilan comentarios de los desarrolladores para abordar el problema del sonido sin alma.
Stability AI dijo en un comunicado de prensa que Stable Audio está entrenado con datos de AudioSparx, que tiene una biblioteca de más de 800,000 archivos de audio. La empresa detalla que los artistas bajo AudioSparx pudieron optar por no participar en su material para entrenar el modelo. El entrenamiento con audio con derechos de autor fue una de las razones por las que Ed Newton-Rex, ex vicepresidente de audio de Stability AI, dejó la compañía poco después del lanzamiento de Stable Audio. Para esta versión, Stability AI dice que se asoció con Audible Magic para usar su tecnología de reconocimiento de contenido para rastrear y bloquear material con derechos de autor que ingrese a la plataforma.
Stable Audio 2.0 es mejor que su versión anterior para hacer que las canciones suenen como canciones, pero aún no ha llegado del todo. Si el modelo insiste en agregar algún tipo de voces, tal vez la próxima versión tendrá un lenguaje más discernible.