当前位置：首页 > 资讯 > 科技 > 昆仑万维震撼开源：2千亿参数稀疏大模型Skywork-MoE，革新性能与成本效率

昆仑万维震撼开源：2千亿参数稀疏大模型Skywork-MoE，革新性能与成本效率

昆仑万维 2024-06-04 17:38:49 爱吃爆米花

6月4日消息，面对大模型技术领域的蓬勃发展，昆仑万维企业开源了一项突破性的成果：稀疏化大尺度语言模型Skywork-MoE。这一模型凭借其卓越的性能表现及显著降低的推理成本，为克服大规模高密度语言模型实施过程中遇到的难题提供了新途径，是迈向高效大模型应用的重要一步。

Skywork-MoE模型特点：

开源和免费商用：Skywork-MoE的模型权重、技术报告完全开源，且免费商用，无需申请。

推理成本降低：该模型在保持性能强劲的同时，大幅降低了推理成本。

稀疏模型：Skywork-MoE是一个专家混合模型（MoE），通过将计算分配给专门的子模型或“专家”，提供了一种经济上更可行的替代方案。

支持单台4090服务器推理：是首个支持用单台4090服务器推理的开源千亿MoE大模型。

技术细节：

模型权重和开源仓库：模型权重可在Hugging Face上下载，开源仓库位于GitHub。

推理代码：提供了支持8x4090服务器上8bit量化加载推理的代码。

性能：在8x4090服务器上，使用昆仑万维团队首创的非均匀Tensor Parallel并行推理方式，Skywork-MoE可以达到2200tokens/s的吞吐量。

模型性能和技术创新：

参数量：Skywork-MoE的总参数量为146B，激活参数量22B，共有16个Expert，每个Expert大小为13B。

性能对比：在相同的激活参数量下，Skywork-MoE的能力在行业前列，接近70B的Dense模型，推理成本有近3倍的下降。

训练优化算法：Skywork-MoE设计了两种训练优化算法，包括Gating Logits归一化操作和自适应的Aux Loss，以解决MoE模型训练困难和泛化性能差的问题。

大规模分布式训练：

Expert Data Parallel：提出了一种新的并行设计方案，可以在Expert数量较小时高效地切分模型。

非均匀切分流水并行：提出了非均匀的流水并行切分和重计算Layer分配方式，使得计算/显存负载更均衡。

实验和经验规则：

Scaling Law实验：探究了影响Upcycling和From Scratch训练MoE模型好坏的约束。

训练经验规则：如果训练MoE模型的FLOPs是训练Dense模型的2倍以上，则选择From Scratch训练MoE更好；否则，选择Upcycling训练MoE可以减少训练成本。

Skywork-MoE的开源为大模型社区带来了一个强大的新工具，有助于推动人工智能领域的发展，特别是在需要处理大规模数据和计算资源受限的场景中。

扩展阅读

昆仑万维 2024-11-23 09:02

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/51447.html

文章标签

昆仑万维

文明上网，理性发言，共同做网络文明传播者

提交

暂无评论内容