En las semanas previas al lanzamiento del nuevo modelo de “razonamiento” de OpenAI, o1, la firma independiente de investigación de seguridad de IA Apollo encontró un problema notable. Apollo se dio cuenta de que el modelo producía resultados incorrectos de una manera nueva. O, para decirlo de manera más coloquial, mintió.

A veces los engaños parecían inofensivos. En un ejemplo, los investigadores de OpenAI pidieron a o1-preview que proporcionara una receta de brownie con referencias en línea. La cadena de pensamiento del modelo (una característica que se supone imita cómo los humanos analizan ideas complejas) reconoció internamente que no podía acceder a las URL, lo que hacía imposible la solicitud. En lugar de informar al usuario de esta debilidad, o1-preview siguió adelante, generando enlaces y descripciones plausibles pero falsos de los mismos.

Si bien los modelos de IA han podido “mentir” en el pasado y los chatbots frecuentemente generan información falsa, o1 tenía una capacidad única para “conspirar” o “falsificar alineación”. Eso significaba que podía fingir que estaba siguiendo las reglas para completar una tarea determinada, pero en realidad no era así. Para el modelo, las reglas podrían ser una carga demasiado grande y parece tener la capacidad de ignorarlas si eso significa que puede completar una tarea más fácilmente.

El director ejecutivo de Apollo, Marius Hobbhahn, le dice a The Verge que es la primera vez que encuentra este comportamiento en un modelo OpenAI. Hobbhahn dice que la diferencia se debe a la capacidad de este modelo de “razonar” a través de la cadena del proceso de pensamiento y la forma en que se combina con el aprendizaje por refuerzo, que enseña al sistema a través de recompensas y sanciones. Durante las pruebas, Apollo descubrió que la IA simulaba la alineación con las expectativas de sus desarrolladores y manipulaba las tareas para que pareciera que cumplían. Incluso comprobó la supervisión de su sistema (es decir, si sus desarrolladores estaban observando) antes de actuar. En resumen, la IA cumplió suficientemente las directrices para su despliegue, sin dejar de priorizar sus objetivos.

Fuente: The Verge | Kylie Robinson

Para leer más ingresa a: https://www.theverge.com/2024/9/17/24243884/openai-o1-model-research-safety-alignment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *