当前位置: 首页 > 资讯 > 科技 > 苹果揭晓OpenELM:一款构筑于开源训推架构之上的高性能语义引擎

苹果揭晓OpenELM:一款构筑于开源训推架构之上的高性能语义引擎

苹果公司(Apple Inc) 2024-04-25 13:26:57 爱吃爆米花

据最新动态显示,恰逢WWDC24盛会前夕,苹果公司于Hugging Face平台之上隆重推出了名为OpenELM的创新之作。该模型以其开源的训练与推理架构为核心亮点,旨在打造一款引领业界的高效语言理解与生成解决方案。

当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。

将官方简介翻译如下:

大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。

OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升了 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。

与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,我们发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。

我们还发布了将模型转换为 MLX 库的代码,以便在苹果设备上进行推理和微调。此次全面发布旨在增强和巩固开放研究社区,为未来的开放研究工作铺平道路。​

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/38129.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
暂无评论内容
热门游戏
换一换
热门软件
换一换