Comment des poèmes absurdes parviennent à contourner les protections de l’IA

Les grands modèles de langage (LLM) qui sont au cœur des bots IA comme ChatGPT ou Gemini intègrent des garde-fous censés les empêcher de générer un guide pour créer une bombe nucléaire, ou une recette pour fabriquer de la drogue. Très rapidement, il s’est avéré que ces protections peuvent sauter avec des techniques de jailbreak relativement simples, parfois aussi triviales que de reformuler la demande ou de pousser le modèle dans un rôle fictif.

Les pirates vont se mettre à la poésie

Une étude — qui n’a pas encore fait l’objet d’un examen par les pairs — du labo italien Icaro dévoile une nouvelle méthode plutôt originale pour obtenir tout ce que l’on veut d’un LLM, y compris le pire : des poèmes ! Baptisée « Adversarial Poetry » (« poésie conflictuelle »), ce jailbreak se veut générique, automatisée et efficace avec de nombreux modèles, y compris les plus récents et les plus sécurisés. Ce qui

Pour aller plus loin, lisez cet article - Un contenu original publié sur ce site

Chercher un article, un sujet, une marque...