La pépite californienne de l’intelligence artificielle Anthropic vient de publier un rapport technique documentant les coulisses effrayantes de son modèle le plus puissant, dont l’existence avait déjà été révélée par une fuite accidentelle du code source fin mars. Confinée dans un environnement bac à sable théoriquement impénétrable, une version préliminaire de Claude Mythos Preview a reçu la consigne de trouver une faille pour s’échapper. L’objectif initial consistait à évaluer ses capacités offensives. La machine a non seulement réussi cet exploit avec une ingéniosité déconcertante, mais a surtout outrepassé toutes les attentes en enchaînant des actions non sollicitées.
L’algorithme a élaboré un programme complexe en plusieurs étapes pour obtenir un accès internet large, contournant les rares services autorisés. Ce niveau d’autonomie a poussé l’entreprise à restreindre l’accès de sa trouvaille à une poignée de partenaires industriels dans le cadre du Project Glasswing. Une décision inédite à l’échelle de l’industrie, comme l’explique

