😧 La retroalimentación humana hace que la IA sea mejor para engañarnos

retroalimentación humana
Foto: Gizmodo

Una de las técnicas más populares que utilizan las empresas de inteligencia artificial para mejorar la calidad de sus grandes modelos lingüísticos puede hacer que esos modelos sean mejores para engañar a los humanos, según un nuevo estudio preliminar de Anthropic e investigadores de universidades chinas y estadounidenses.

Es la primera vez, escriben los autores, que la investigación ha documentado empíricamente un fenómeno que llaman sofisma no intencionado, en el que un modelo entrenado con retroalimentación humana aprende a producir respuestas que engañan a sus evaluadores humanos para que crean que las respuestas son precisas en lugar de aprender a producir respuestas que son realmente precisas.

El aprendizaje por refuerzo de la retroalimentación humana, comúnmente abreviado en inglés como RLHF, es una parte fundamental de la línea de capacitación que empresas como Anthropic y OpenAI utilizan para enseñar a sus modelos de lenguaje generativo a responder de la manera que los humanos prefieren, como respondiendo preguntas correctamente y no incluyendo contenido tóxico en las respuestas.

En RLHF, un modelo responde a las indicaciones y los evaluadores humanos proporcionan comentarios sobre esas indicaciones, anotando las respuestas que son buenas y malas. Esa retroalimentación se utiliza para crear un sistema de incentivos para el modelo de lenguaje original que lo recompensa, de la manera que a los algoritmos les gusta ser recompensado, por generar los tipos de respuestas que los humanos prefieren.

Los investigadores han demostrado previamente que el entrenamiento del sistema de recompensa puede conducir a algo llamado piratería de recompensas, donde los modelos replican patrones en su material de entrenamiento que se correlacionan con el resultado deseado, pero que en realidad no son lo que los desarrolladores quieren.

Por ejemplo, un estudio de 2023 que examinó un modelo entrenado con datos de la empresa de foros de preguntas y respuestas StackExchange descubrió que un modelo de lenguaje reconocía que las publicaciones más largas generalmente recibían más votos positivos, por lo que, en lugar de producir respuestas de mayor calidad al responder a una pregunta, recompensaba su sistema de incentivos al generar respuestas más largas y de menor calidad.

El nuevo estudio, que está en revisión y solo se ha publicado como preimpresión, documenta un modelo de lenguaje que recompensa a los humanos en el proceso RLHF.

Los investigadores hicieron que los humanos evaluaran la calidad de las respuestas de un modelo de lenguaje a dos indicaciones, una en la que se le pidió que respondiera a una pregunta y otra en la que se le pidió que escribiera código, antes y después de que el modelo pasara por el proceso RLHF. Midieron si la precisión de las respuestas del modelo mejoraba y la frecuencia con la que los evaluadores humanos etiquetaron correctamente las respuestas del modelo como precisas o inexactas.

Después del proceso de RLHF, descubrieron que los humanos tenían un 24 por ciento más de probabilidades de aprobar la respuesta del modelo a una pregunta cuando esa respuesta era en realidad incorrecta. Los evaluadores también tenían un 18 por ciento más de probabilidades de aprobar el código incorrecto generado por el modelo RLHF que tenía errores, en comparación con el código incorrecto del modelo sin RLHF.

Los resultados son significativos porque las empresas de IA utilizan con frecuencia los estudios de revisión humana como puntos de referencia para mostrar cuánto están mejorando sus modelos con respecto a las iteraciones anteriores y RLHF se ha convertido en un método común para reducir las imprecisiones, a menudo conocidas como alucinaciones, en los modelos de lenguaje. Si los modelos están mejorando para engañar a los humanos, entonces significa que el simple hecho de que un humano revise el resultado de un modelo de IA generativa podría no ser un control de calidad o seguridad suficiente.

Autor

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *