当前位置: 首页 > 资讯 > 科技 > 阿里发布Qwen1.5-110B模型开源版:千亿参数创新高,性能比肩Meta Llama3-70B
  • 0
  • 0
  • 分享

阿里发布Qwen1.5-110B模型开源版:千亿参数创新高,性能比肩Meta Llama3-70B

阿里巴巴 2024-05-04 10:00:02 爱吃爆米花

近日消息,阿里巴巴正式揭开Qwen1.5系列的面纱,首发其千亿参数级别的巨匠——Qwen1.5-110B模型,并对外开放源代码。

据悉,这款模型在底层能力测评中展现了与Meta公司力作Llama3-70B并驾齐驱的实力,在包括多轮对话场景的Chat评估、MT-Bench多语言任务基准及升级版AlpacaEval 2.0交互式测试中均有卓越表现,彰显出强大的语言处理与生成潜力。

汇总主要内容:

据介绍,Qwen1.5-110B 与其他 Qwen1.5 模型相似,采用了相同的 Transformer 解码器架构。它包含了分组查询注意力(GQA),在模型推理时更加高效。该模型支持 32K tokens 的上下文长度,同时它仍然是多语言的,支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

阿里 Qwen1.5-110B 模型与最近的 SOTA 语言模型 Meta-Llama3-70B 以及 Mixtral-8x22B 进行了比较,结果如下:

新的 110B 模型在基础能力方面至少与 Llama-3-70B 模型相媲美。在这个模型中,阿里巴巴没有对预训练的方法进行大幅改变,因此他们认为与 72B 相比的性能提升主要来自于增加模型规模。

阿里还在 MT-Bench 和 AlpacaEval 2.0 上进行了 Chat 评估,结果如下:

阿里巴巴表示,与之前发布的 72B 模型相比,在两个 Chat 模型的基准评估中,110B 表现显著更好。评估结果的持续改善表明,即使在没有大幅改变后训练方法的情况下,更强大、更大规模的基础语言模型也可以带来更好的 Chat 模型。

最后,阿里方面表示,Qwen1.5-110B 是 Qwen1.5 系列中规模最大的模型,也是该系列中首个拥有超过 1000 亿参数的模型。它在与最近发布的 SOTA 模型 Llama-3-70B 的性能上表现出色,并且明显优于 72B 模型。

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/38874.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换