Resulta que todo lo que necesitas para superar las barreras de seguridad de un chatbot de IA es un poco de creatividad. En un estudio publicado por Icaro Lab llamado «Poesía adversaria como mecanismo universal de fuga de un solo turno en modelos de lenguaje grandes», los investigadores pudieron eludir los mecanismos de seguridad de varios LLM al expresar su mensaje con poesía.
Según el estudio, la «forma poética funciona como un operador de fuga de propósito general», y los resultados muestran una tasa de éxito general del 62 por ciento en la producción de material prohibido, incluido todo lo relacionado con la fabricación de armas nucleares, materiales de abuso sexual infantil y suicidio o autolesión. El estudio probó LLM populares, incluidos los modelos GPT de OpenAI, Google Gemini, Claude de Anthropic y muchos más. Los investigadores desglosaron las tasas de éxito de cada LLM, con Google Gemini, DeepSeek y MistralAI proporcionando respuestas constantemente, mientras que los modelos GPT-5 de OpenAI y Claude Haiku 4.5 de Anthropic fueron los menos propensos a aventurarse más allá de sus restricciones.
El estudio no incluyó los poemas exactos para romper la cárcel que usaron los investigadores, pero el equipo le dijo a Wired que el verso es «demasiado peligroso para compartirlo con el público». Sin embargo, el estudio incluyó una versión diluida para dar una idea de lo fácil que es eludir las barreras de seguridad de un chatbot de IA, y los investigadores le dijeron a Wired que es «probablemente más fácil de lo que uno podría pensar, y es precisamente por eso que estamos siendo cautelosos».
Fuente: Engadget | Jackson Chen
Para leer más ingresa a: https://www.engadget.com/ai/ai-chatbots-can-be-tricked-with-poetry-to-ignore-their-safety-guardrails-192925244.html