当前位置: 首页 > 资讯 > 科技 > 谷歌Gemini 1.5 Pro数学版挑战智力巅峰:MATH测试验证,精度91.1%,比肩人类数学大师
  • 0
  • 0
  • 分享

谷歌Gemini 1.5 Pro数学版挑战智力巅峰:MATH测试验证,精度91.1%,比肩人类数学大师

谷歌(Google) 2024-05-21 09:37:09 爱吃爆米花

5月21日消息,谷歌在近期披露的技术摘要中强调,其升级后的Gemini 1.5 Pro模型在经历专项数学领域优化后,实现了数学解题能力的显著跃升,成功攻克多项国际数学奥林匹克(IMO)级别的难题,展现了比肩甚至在某些情况下超越人类数学高手的潜力。

谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和谷歌内部的 HiddenMath 基准进行测试。

根据谷歌的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。

谷歌官方分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 解决的,而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。

除了问题之外,谷歌还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

谷歌表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%,在对 256 个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到 91.1%。

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/45796.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换