阿里开源Qwen2 – Audio新语音模型 - 天天学术AI写作系统专注学术论文写作的工具|毕业论文|期刊投稿|开题报告|任务书www.ttxsai.com

阿里巴巴在 Qwen – Audio 基础上开源最新语音模型 Qwen2 – Audio，有基础和指令微调两个版本，支持语音提问、识别内容与语音分析，支持多种主流语言和方言，与第一代相比，Qwen2 – Audio 在架构、性能方面有大幅度优化改进，预训练阶段用自然语言提示替代复杂分层标签系统简化训练过程、提高泛化能力，指令跟随能力显著提升，通过增加指令调优和直接偏好优化等能更准确理解用户指令，功能上扩展为语音聊天和音频分析两种模式，还引入了监督式微调（SFT）和直接偏好优化（DPO）两种优化方法。Qwen2 – Audio 使用 Whisper – large – v3 作为音频编码器，采用 16kHz 采样频率、将原始波形转化为 128 通道 mel 谱图等确保音频特征完整，用阿里自研的 Qwen – 7B 作为语言模型，与音频模块协同工作实现对音频信息的理解处理，在多个主流基准上进行了综合评测，整体性能强劲，在多个数据集测试中有出色表现。

开源地址：
https://github.com/QwenLM/Qwen2-Audio

本站文章通过互联网转载或者由本站编辑人员搜集整理发布，如有侵权，请联系本站删除。

本文链接：https://www.ttxsai.com/news/2744.html

Related Posts