😳 ChatGPT ahora ve, escucha y habla, anuncia OpenAI

Foto: El Android Libre
Foto: El Android Libre

La inteligencia artificial generativa ChatGPT sigue sorprendiendo con sus múltiples aplicaciones y funciones. Tras revolucionar el mundo del texto, la imagen y el sonido, ahora da un paso más y se convierte en un asistente capaz de ver, escuchar y hablar con los usuarios. OpenAI, la empresa creadora de ChatGPT, anunció este lunes una nueva actualización que promete cambiar la forma de interactuar con la IA.

Con esta nueva versión, ChatGPT no solo puede generar textos originales y creativos a partir de cualquier tema o palabra, sino que es capaz de comentar las imágenes o fotos que le envíes, reconocer tu voz y responder con una voz natural y expresiva. Así, puedes tener una conversación fluida y divertida con ChatGPT, ya sea por escrito o por voz, y mostrarle lo que quieras para que te dé su opinión, te ayude o te entretenga.

Las posibilidades son casi infinitas: puedes pedirle que te cuente una historia, que te recite un poema, que te explique una receta, que te solucione un problema matemático, que te sugiera qué cocinar, que te hable de los lugares que visitas cuando viajas, que te enseñe a usar algún aparato o programa, que te haga reír con sus chistes o que te sorprenda con sus ocurrencias.

Para lograr este nivel de interacción, OpenAI ha usado los últimos avances en IA generativa, como GPT-3.5 y GPT-4, que son capaces de entender el contexto y el contenido de las imágenes y los documentos que se les muestran. Además, ha contado con la colaboración de actores de voz profesionales para crear voces humanas a partir de textos y ejemplos de voz. También ha usado Whisper, una herramienta de código abierto que se encarga de transcribir la voz a texto.

Esta nueva actualización de ChatGPT estará disponible para los suscriptores de Plus y Enterprise en el transcurso de las siguientes dos próximas semanas. Los usuarios podrán acceder a ella desde la app de Android e iOS, donde podrán elegir entre cinco voces diferentes y enviar imágenes desde la cámara o la galería. También podrán probar la herramienta de dibujo para que ChatGPT se centre en una parte específica de la imagen.

Nuevos desafíos para ChatGPT

Es posible chatear con imágenes. Foto: OpenAI

OpenAI aclara que la nueva tecnología de voz, capaz de crear voces sintéticas realistas en unos segundos, abre enormes posibilidades para la creatividad y aplicaciones enfocadas a la accesibilidad, pero también para un uso indebido de esta apasionante tecnología (y es que esta tecnología ya se usa para replicar voces de otros). Por lo que su uso estará basado en un caso en específico: el chat de voz. Incluso han colaborado con Spotify para utilizarla para su función de traducción de voz para podcasts, una novedad anunciada por la plataforma de streaming que llegará próximamente después de unas pruebas con una serie de podcasts en el idioma anglosajón.

También, los modelos basados en la visión presentan un gran abanico de nuevos desafíos, desde “alucinaciones” sobre personas a la interpretación de imágenes en dominios de alto riesgo (extremismo y competencia científica). OpenAI ha declarado que han realizado diversas pruebas para asegurarse que su uso sea responsable.

Otra de las grandes virtudes y soluciones que ofrece ahora ChatGPT es para la visión. Está trabajando con Be My Eyes, una app gratuita para móviles que ayuda a personas con problemas de visión para así entender sus usos y limitaciones. Gracias a este trabajo de investigación el equipo detrás de la IA generativa ha sido capaz de limitar el poder ChatGPT para analizar y hacer declaraciones directas sobre personas que pudiesen aparecer en el fondo de una foto.

De momento, OpenAI ha anunciado desde su web que la capacidad para transcribir la voz a texto funciona perfectamente en inglés, pero su rendimiento cae bastante en otros idiomas, sobre todo en aquellos que no están basados en lenguas romances. De hecho, avisa de que los usuarios que no hablen inglés mejor se esperen para usarlo correctamente, ya que puede generar confusión y una experiencia distinta.

Autor

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *