阿里巴巴在 Qwen – Audio 基础上开源最新语音模型 Qwen2 – Audio,有基础和指令微调两个版本,支持语音提问、识别内容与语音分析,支持多种主流语言和方言,与第一代相比,Qwen2 – Audio 在架构、性能方面有大幅度优化改进,预训练阶段用自然语言提示替代复杂分层标签系统简化训练过程、提高泛化能力,指令跟随能力显著提升,通过增加指令调优和直接偏好优化等能更准确理解用户指令,功能上扩展为语音聊天和音频分析两种模式,还引入了监督式微调(SFT)和直接偏好优化(DPO)两种优化方法。Qwen2 – Audio 使用 Whisper – large – v3 作为音频编码器,采用 16kHz 采样频率、将原始波形转化为 128 通道 mel 谱图等确保音频特征完整,用阿里自研的 Qwen – 7B 作为语言模型,与音频模块协同工作实现对音频信息的理解处理,在多个主流基准上进行了综合评测,整体性能强劲,在多个数据集测试中有出色表现。
开源地址:
https://github.com/QwenLM/Qwen2-Audio
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。