Les grands modèles de langage (LLM) qui sont au cœur des bots IA comme ChatGPT ou Gemini intègrent des garde-fous censés les empêcher de générer un guide pour créer une bombe nucléaire, ou une recette pour fabriquer de la drogue. Très rapidement, il s’est avéré que ces protections peuvent sauter avec des techniques de jailbreak relativement simples, parfois aussi triviales que de reformuler la demande ou de pousser le modèle dans un rôle fictif.
Les pirates vont se mettre à la poésie
Une étude — qui n’a pas encore fait l’objet d’un examen par les pairs — du labo italien Icaro dévoile une nouvelle méthode plutôt originale pour obtenir tout ce que l’on veut d’un LLM, y compris le pire : des poèmes ! Baptisée « Adversarial Poetry » (« poésie conflictuelle »), ce jailbreak se veut générique, automatisée et efficace avec de nombreux modèles, y compris les plus récents et les plus sécurisés. Ce qui

