OpenAI anunció este jueves el lanzamiento de GPT-4o mini, una nueva versión más pequeña de su último modelo de lenguaje de inteligencia artificial, GPT-4º, que reemplazará a GPT-3.5 Turbo en ChatGPT, informan CNBC y Bloomberg. Estará disponible desde hoy para usuarios gratuitos y aquellos con suscripciones a ChatGPT Plus o Team y llegará a ChatGPT Enterprise la próxima semana.
Según se informa, GPT-4o mini será multimodal como su hermano mayor (que se lanzó en mayo), interpretando imágenes y texto y también podrá usar DALL-E 3 para generar imágenes.
OpenAI le dijo a Bloomberg que GPT-4o mini será el primer modelo de IA de la compañía en utilizar una técnica llamada “jerarquía de instrucciones” que hará que un modelo de IA priorice algunas instrucciones sobre otras (como las de una empresa), lo que puede dificultar que las personas realicen ataques de inyección rápida o jailbreaks que subviertan el ajuste fino incorporado o las directivas dadas por un aviso del sistema.
OpenAI no es la primera empresa en lanzar una versión más pequeña de un modelo de lenguaje existente. Es una práctica común en la industria de la IA de proveedores como Meta, Google y Anthropic. Estos modelos de lenguaje más pequeños están diseñados para realizar tareas más sencillas a un costo menor, como hacer listas, resumir o sugerir palabras en lugar de realizar un análisis profundo.
Los modelos más pequeños suelen estar dirigidos a los usuarios de API, que pagan un precio fijo por entrada y salida de tokens para utilizar los modelos en sus propias aplicaciones, pero en este caso, ofrecer GPT-4o mini de forma gratuita como parte de ChatGPT también ahorraría dinero a OpenAI.
El jefe de producto API de OpenAI, Olivier Godement, dijo a Bloomberg: “En nuestra misión de habilitar la vanguardia, para construir las aplicaciones más poderosas y útiles, por supuesto, queremos continuar haciendo los modelos de frontera, empujando los límites aquí. Pero también queremos tener los mejores modelos pequeños que existen”.
Los modelos de lenguaje grandes (LLM) más pequeños suelen tener menos parámetros que los modelos más grandes. Los parámetros son almacenes numéricos de valor en una red neuronal que almacenan información aprendida. Tener menos parámetros significa que un LLM tiene una red neuronal más pequeña, lo que normalmente limita la profundidad de la capacidad de un modelo de IA para dar sentido al contexto. Los modelos de parámetros más grandes suelen ser “pensadores más profundos” en virtud del mayor número de conexiones entre los conceptos almacenados en esos parámetros numéricos.
Sin embargo, para complicar las cosas, no siempre existe una correlación directa entre el tamaño de los parámetros y la capacidad. La calidad de los datos de entrenamiento, la eficiencia de la arquitectura del modelo y el propio proceso de entrenamiento también afectan al rendimiento de un modelo, como hemos visto recientemente en modelos pequeños más capaces, como Microsoft Phi-3.
Menos parámetros significan que se requieren menos cálculos para ejecutar el modelo, lo que significa que se necesitan GPU menos potentes (y menos costosas) o menos cálculos en el hardware existente, lo que lleva a facturas de energía más baratas y un costo final más bajo para el usuario.