当前位置: 首页 > 资讯 > 科技 > 百川智能正式揭晓超大规模模型Baichuan3:中文任务超过GPT- 4的水平
  • 0
  • 0
  • 分享

百川智能正式揭晓超大规模模型Baichuan3:中文任务超过GPT- 4的水平

百川智能 2024-01-29 15:24:40 爱吃爆米花

1月29日,业界瞩目的一款拥有千亿级别参数的超大型语言模型Baichuan 3由百川智能团队震撼推出。在多个国际公认的通用能力测评基准如CMMLU、GAOKAO以及AGI-Eval中,Baichuan3均有出色表现,尤其在针对中文任务处理方面,其性能甚至超越了当前全球领先的GPT-4水平。

不仅如此,该模型在数学问题求解与代码理解生成相关的评测体系如MATH、HumanEval和MBPP中同样展现出了卓越的能力,有力地证明了Baichuan3在自然语言理解和代码生成领域的强大技术实力与领先地位

百川智能还表示,其在逻辑推理能力和专业性要求很高的MCMLE、MedExam、CMExam等权威医疗评估上的中文效果也超过了GPT-4,成为中文医疗任务中表现最好的大型模型。Baichuan3 还突破了“迭代式强化学习”技术,进一步增强了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现出色,领先于其他大型模型。

为了保证在数千张GPU上高效且稳定地训练超千亿参数模型,百川智能同时优化了模型的训练稳定性和训练框架,并采用了“异步CheckPoint存储”机制,可以在不损失性能的情况下增加存储的频率,减少机器故障对训练任务的影响,使Baichuan3 的稳定训练时间达到一个月以上,故障恢复时间不超过 10 分钟。

训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如高度优化的RoPE, SwiGLU计算算子;在数据并行中实现参数通信与计算的重叠,以及在序列并行中实现激活值通信与计算的重叠,从而有效降低了通信时间的比重;在流水并行中引入了将激活值卸载至CPU的技术,解决了流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新,Baichuan3 的训练框架在性能方面相比业界主流框架提升超过30%。

官方表示,作为参数规模超过千亿的大语言模型,Baichuan3 不仅英文效果达到接近GPT- 4 的水平,还在多项通用中文任务的表现上实现了对GPT- 4 的超越,是百川智能的全新里程碑。Baichuan3 全面的通用能力以及在医疗领域的强大表现,将为百川智能打造“超级应用”,把大模型技术落地到诸多复杂应用场景提供有力支撑。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/12661.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换