24 langues, un ton pour chaque émotion : Google soigne son outil de synthèse vocale

Text to Speech est une technologie de synthèse vocale qui permet de retranscrire un texte en discours oral naturel et optimisé grâce à Gemini. Google présente aujourd’hui deux nouveaux modes, Gemini 2.5 Flash et Gemini 2.5 Pro, qui introduisent une palette plus large d’expressivité vocale, une meilleure compréhension des consignes données, des ajustements de vitesse plus intelligents et une prise en charge couvrant désormais 24 langues.

Gemini 2.5 Flash et Gemini 2.5 Pro, deux nouveaux modèles pour plus de précision

Le premier mode Gemini 2.5 Flash est adapté aux scénarios à faible latence, tandis que Gemini 2.5 Pro donne la priorité à la qualité vocale.

Ces deux nouveaux modes promettent tous les deux, une expressivité améliorée grâce à une polyvalence de ton proposée. Le dialogue devrait alors être plus fluide grâce à des voix adaptées et cohérentes à chaque situation et ce même dans des scénarios multi-intervenants. Ces voix ont

Pour aller plus loin, lisez cet article - Un contenu original publié sur ce site

Chercher un article, un sujet, une marque...