OpenAI 造出“找茬模型”CriticGPT 后,北大联合千问等团队受其启发,设计出“数学专用版”CriticGPT——Math-Minos。该模型利用相似思路,将代码换成数学问题,通过引入逐步的自然语言反馈作为理由标签,克服了现有数学验证器依赖二元分类标签训练、解释不足、监督信号不充分的局限,不仅能指出正误,还能分析错误原因。研究团队使用 GPT-4 生成训练数据时,为避免其逐步评价数学推理任务的错误,通过在提示中引入步骤级别的二元分类标签简化任务,使 GPT-4 更准确地生成评估。经过监督式微调及标准的 ORM 和 PRM 训练,Math-Minos 提升了模型评估能力和推理效率,为 Mistral-7B 验证器带来数学能力提升。在不同任务设置下,它在 GSM8K 和 MATH 数据集上的准确率均有提高,且在 ORM 设置中的改进更显著。此外,团队分析了生成器在步骤级别产生的错误类型及不同数据集上的错误分布特点,还构建元评估集评估验证器能力,结果表明 Math-Minos 具有更快的收敛速度、更精准的判断能力和很强的 Scale Up 潜力。Math-Minos 不仅提升了数学验证器的性能,还提供了新的训练范式,研究团队希望借此启发未来研究,推动大型语言模型在复杂推理任务上的能力。
论文地址:
https://arxiv.org/html/2406.14024v1
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。