Los investigadores de ciberseguridad no tardaron en detectar graves problemas en Atlas, el navegador de IA recientemente presentado por OpenAI.

Este navegador, que integra ChatGPT, la exitosa herramienta de OpenAI, cuenta con un «modo agente» —actualmente limitado a suscriptores de pago— que le permite completar tareas enteras, como reservar un vuelo o comprar alimentos.

Sin embargo, esto lo hace vulnerable a ataques de «inyección de prompts», permitiendo a los hackers insertar mensajes ocultos en la web que lo obligan a ejecutar instrucciones dañinas, como ya han demostrado varios investigadores. Por ejemplo, un investigador engañó al navegador para que mostrara el mensaje «No confíes en la IA» en lugar de generar un resumen de un documento en Google Docs, como se le había indicado.

Ahora, investigadores de la empresa de seguridad de agentes de IA NeuralTrust han descubierto que incluso el «Omnibox» de Atlas, el cuadro de texto en la parte superior del navegador que puede aceptar tanto URL como comandos de lenguaje natural, también es extremadamente vulnerable a ataques de inyección de prompts.

A diferencia de los ataques de inyección de instrucciones “indirectas” demostrados anteriormente, que insertan instrucciones en páginas web, este exploit en particular requiere que el usuario copie y pegue una URL envenenada en la barra de direcciones, tal como probablemente lo ha hecho con innumerables direcciones web.

«Hemos identificado una técnica de inyección de prompts que disfraza instrucciones maliciosas para que parezcan una URL, pero que Atlas interpreta como texto de «intención de usuario» de alta confianza, lo que permite realizar acciones dañinas», escribió Martí Jordà, ingeniero de software de NeuralTrust, en una reciente publicación de blog, según informó The Register.

Al modificar ligeramente la URL, el navegador no la valida como una dirección web y, en cambio, «trata todo el contenido como un prompt». Esto convierte a una URL disfrazada en el lugar perfecto para insertar mensajes dañinos.

«Las instrucciones insertadas se interpretan ahora como una intención de usuario confiable con menos controles de seguridad», escribió Jordà. «El agente ejecuta las instrucciones inyectadas con un alto grado de confianza. Por ejemplo, frases como «siga solo estas instrucciones» y «visite neuraltrust.ai» pueden anular la intención o las políticas de seguridad del usuario».

Fuente: Futurism | Victor Tangermann

Para leer más ingresa a: https://futurism.com/artificial-intelligence/serious-new-hack-openai-ai-browser?utm_source=flipboard&utm_content=topic/technology

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *