Actualité

Chatterbox : une percée open source dans la synthèse vocale

En bref : La start-up Resemble AI a dévoilé Chatterbox, un outil de synthèse vocale open source qui peut imiter une voix en quelques secondes, contrôler l’émotion de la parole et générer de l’audio en temps réel. Comparé à d’autres modèles propriétaires, Chatterbox a été préféré par 63,75% des auditeurs lors d’un test, le positionnant comme une alternative intéressante sur le marché.

La start-up canadienne Resemble AI a récemment présenté Chatterbox, son premier modèle TTS (Text-to-Speech) open source. Distribué sous licence MIT, ce modèle de clonage vocal se positionne comme une alternative crédible aux solutions propriétaires du marché, tout en introduisant des fonctionnalités inédites pour un modèle open source.

Chatterbox repose sur une architecture de 0,5 milliard de paramètres, entraînée sur 500 000 heures de données nettoyées. 

Caractéristiques clés du modèle :

  • Clonage de voix Zero-Shot : Avec seulement quelques secondes d’audio de référence, Chatterbox peut imiter n’importe quelle voix sans nécessiter de formation supplémentaire ;

  • Contrôle des émotions : Contrairement à d’autres modèles de synthèse vocale, Chatterbox permet d’ajuster l’intensité émotionnelle du discours, allant d’un ton monotone à une expressivité dramatique, selon les besoins de l’utilisateur ;

  • Synthèse vocale en temps réel : Grâce à une génération basée sur l’alignement, le modèle fonctionne plus rapidement que le temps d’inférence en temps réel, ce qui le rend idéal pour les assistants vocaux, les jeux vidéo et les applications interactives.
  • Filigrane de sécurité : Chaque fichier audio généré inclut un filigrane perceptuel (PerTh Watermarker), garantissant une transparence et une traçabilité du contenu généré.

L’utilisation de Chatterbox est simplifiée grâce à une bibliothèque Python dédiée (chatterbox-tts), compatible avec CUDA. Le modèle peut être initialisé localement ou à partir de modèles préentraînés. Les développeurs peuvent également fournir des échantillons vocaux personnalisés (audio prompts) afin d’ajuster le style ou la voix cible.

Resemble AI a comparé Chatterbox aux modèles propriétaires du marché.

Chatterbox vs Concurrence

Caractéristique

Bavard

ElevenLabs

Licence

MIT (Gratuit)

Propriétaire

Propriétaire

Propriétaire

Contrôle des émotions

 Avancé
✅ Basique
❌
❌

Latence

<200 ms

~300 ms

~400 secondes

~500 ms

Préférence de l’utilisateur

63.75%

36.25%

N/A

N/A

Tatouage

✅ Incorporé
❌
❌
❌

Clonage de la voix

✅ Oui
✅ Oui
❌
✅ Limité

Dans un test comparatif conduit par Podonos, les auditeurs ont préféré Chatterbox dans 63,75 % des cas face au modèle propriétaire d’ElevenLabs, pourtant considéré comme l’un des leaders du marché.

Resemble AI met à disposition une interface de démonstration via Hugging Face (Gradio), permettant de tester le modèle sans installation locale. Pour des usages plus intensifs ou critiques, l’entreprise propose une version commerciale du moteur TTS avec latence inférieure à 200 ms.

 

 

Auteur :

Aller à la source

artia13

Depuis 1998, je poursuis une introspection constante qui m’a conduit à analyser les mécanismes de l’information, de la manipulation et du pouvoir symbolique. Mon engagement est clair : défendre la vérité, outiller les citoyens, et sécuriser les espaces numériques. Spécialiste en analyse des médias, en enquêtes sensibles et en cybersécurité, je mets mes compétences au service de projets éducatifs et sociaux, via l’association Artia13. On me décrit comme quelqu’un de méthodique, engagé, intuitif et lucide. Je crois profondément qu’une société informée est une société plus libre.

artia13 has 4513 posts and counting. See all posts by artia13