Chatterbox : une percée open source dans la synthèse vocale
En bref : La start-up Resemble AI a dévoilé Chatterbox, un outil de synthèse vocale open source qui peut imiter une voix en quelques secondes, contrôler l’émotion de la parole et générer de l’audio en temps réel. Comparé à d’autres modèles propriétaires, Chatterbox a été préféré par 63,75% des auditeurs lors d’un test, le positionnant comme une alternative intéressante sur le marché.
La start-up canadienne Resemble AI a récemment présenté Chatterbox, son premier modèle TTS (Text-to-Speech) open source. Distribué sous licence MIT, ce modèle de clonage vocal se positionne comme une alternative crédible aux solutions propriétaires du marché, tout en introduisant des fonctionnalités inédites pour un modèle open source.
Chatterbox repose sur une architecture de 0,5 milliard de paramètres, entraînée sur 500 000 heures de données nettoyées.
Caractéristiques clés du modèle :
-
Clonage de voix Zero-Shot : Avec seulement quelques secondes d’audio de référence, Chatterbox peut imiter n’importe quelle voix sans nécessiter de formation supplémentaire ;
-
Contrôle des émotions : Contrairement à d’autres modèles de synthèse vocale, Chatterbox permet d’ajuster l’intensité émotionnelle du discours, allant d’un ton monotone à une expressivité dramatique, selon les besoins de l’utilisateur ;
- Synthèse vocale en temps réel : Grâce à une génération basée sur l’alignement, le modèle fonctionne plus rapidement que le temps d’inférence en temps réel, ce qui le rend idéal pour les assistants vocaux, les jeux vidéo et les applications interactives.
- Filigrane de sécurité : Chaque fichier audio généré inclut un filigrane perceptuel (PerTh Watermarker), garantissant une transparence et une traçabilité du contenu généré.
L’utilisation de Chatterbox est simplifiée grâce à une bibliothèque Python dédiée (chatterbox-tts
), compatible avec CUDA. Le modèle peut être initialisé localement ou à partir de modèles préentraînés. Les développeurs peuvent également fournir des échantillons vocaux personnalisés (audio prompts) afin d’ajuster le style ou la voix cible.
Resemble AI a comparé Chatterbox aux modèles propriétaires du marché.
Chatterbox vs Concurrence
Caractéristique |
Bavard |
ElevenLabs |
||
---|---|---|---|---|
Licence |
MIT (Gratuit) |
Propriétaire |
Propriétaire |
Propriétaire |
Contrôle des émotions |
Avancé |
![]() |
![]() |
![]() |
Latence |
<200 ms |
~300 ms |
~400 secondes |
~500 ms |
Préférence de l’utilisateur |
63.75% |
36.25% |
N/A |
N/A |
Tatouage |
![]() |
![]() |
![]() |
![]() |
Clonage de la voix |
![]() |
![]() |
![]() |
![]() |
Dans un test comparatif conduit par Podonos, les auditeurs ont préféré Chatterbox dans 63,75 % des cas face au modèle propriétaire d’ElevenLabs, pourtant considéré comme l’un des leaders du marché.
Auteur :
Aller à la source