当前位置: 首页 > 资讯 > 科技 > 阿里云推出Qwen2.5-Math-PRM,7B版数学推理能力超GPT-4o

阿里云推出Qwen2.5-Math-PRM,7B版数学推理能力超GPT-4o

阿里云 2025-01-30 09:10:53 爱吃爆米花

近日消息,阿里云通义团队正式推出了全新的数学推理过程奖励模型Qwen2.5 - Math - PRM。这个模型具备72B和7B这两种不同的尺寸规格,其性能表现和同类的开源过程奖励模型相比有着显著的提升,在识别推理错误这个方面更是表现得相当出众。

Qwen2.5-Math-PRM 的7B 版本令人惊讶地超越了业界广受欢迎的 GPT-4o,这一成就标志着阿里云在推理模型的研发上迈出了重要的一步。为了全面评估模型在数学推理中的表现,通义团队还开源了首个步骤级的评估标准 ——ProcessBench。这个评估标准涵盖了3400个数学问题测试案例,其中还包括国际奥林匹克数学竞赛的难度题目,每个案例均由人类专家标注了详细的推理过程,确保评估的科学性和全面性。

通过对 Qwen2.5-Math-PRM 在 ProcessBench 上的表现评估,研究团队发现,不论是72B 还是7B 尺寸的模型,均表现出色。特别是7B 版本,不仅超越了同尺寸的开源模型,甚至在某些方面还超过了闭源的 GPT-4o-0806。这证明了过程奖励模型(PRM)在提高推理可靠性方面的巨大潜力,并为未来推理过程监督技术的发展提供了新的思路。

阿里云通义团队的这项创新性工作,不仅推动了人工智能推理技术的进步,也为行业内其他开发者提供了宝贵的参考。通过开源的方式,通义团队希望能够与更多研究者共享经验,推动整个行业的技术进步。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/110491.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
暂无评论内容
热门游戏
换一换
热门软件
换一换