La semaine dernière, Anthropic a levé le voile sur Claude Mythos, un puissant modèle d’IA taillé pour débusquer des failles de sécurité dans du code informatique. La start-up américaine s’est vite rendue compte que son modèle était aussi capable de concevoir des méthodes permettant d’exploiter les vulnérabilités découvertes. Ces aptitudes offensives sont apparues naturellement, à mesure que le modèle gagnait en maîtrise de la programmation, du raisonnement logique et de l’autonomie. Lors d’un test interne, il aurait même réussi à sortir de son environnement de test, à contacter un chercheur parti déjeuner et à publier les détails de son exploit sur des sites publics pour prouver ce dont il est capable.
Redoutant que des individus malveillants ne se servent de Mythos pour lancer des cyberattaques, Anthropic a décidé de restreindre l’accès au modèle. Celui-ci n’a pas été mis à disposition du grand public. La société a préféré réserver l’intelligence artificielle

