近期,一个名为ChatTTS的文本转语音(TTS)项目在GitHub上迅速获得关注,仅用三天时间便获得了超过9200个Star。该项目由2Noise开发,被认为突破了开源语音技术的天花板,尽管目前开源的仅为基础模型,未经过SFT(Supervised Fine-Tuning)微调。ChatTTS能够生成自然流畅的语音,并精确控制包括笑声、停顿和语气词在内的副语言现象,支持中英文混说,并提供多说话人能力。ChatTTS的最大模型使用了超过10万小时的中英文数据进行训练,而在HuggingFace上开源的版本为4万小时训练且未经SFT的版本。项目发布后,网友们积极试用并反馈声音逼真,难以区分真假。ChatTTS还支持在线体验,并能与大型语言模型进行实时语音对话。用户可以在”Audio Seed”中调节指定说话人的音色,或随机生成音色。尽管ChatTTS在长文本处理和分词方面存在限制,但其精细控制韵律特征的能力已超越许多开源TTS模型,预示着语音合成技术的又一大步。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。