OpenAI anunció hoy que está trabajando en un marco que entrenará a modelos de inteligencia artificial para que reconozcan cuándo han incurrido en un comportamiento indeseable, un enfoque que el equipo denomina «confesión». Dado que los modelos de lenguaje grandes suelen entrenarse para producir la respuesta aparentemente deseada, es cada vez más probable que ofrezcan adulación o alucinaciones con total confianza.
El nuevo modelo de entrenamiento busca fomentar una respuesta secundaria del modelo sobre lo que hizo para llegar a la respuesta principal. Las confesiones solo se evalúan por su honestidad, a diferencia de los múltiples factores que se utilizan para evaluar las respuestas principales, como la utilidad, la precisión y el cumplimiento.
Los investigadores afirmaron que su objetivo es animar al modelo a ser franco sobre lo que hizo, incluyendo acciones potencialmente problemáticas como manipular un examen, manipular o desobedecer instrucciones.
«Si el modelo admite honestamente haber manipulado un examen, manipular o infringir instrucciones, esa admisión aumenta su recompensa en lugar de disminuirla», afirmó la compañía. Independientemente de si eres fanático del catolicismo, de Usher o simplemente de una IA más transparente, un sistema como las confesiones podría ser un complemento útil al entrenamiento de LLM.
Fuente: Engadget | Anna Washenko
Para leer más ingresa a: https://www.engadget.com/ai/openais-new-confession-system-teaches-models-to-be-honest-about-bad-behaviors-210553482.html