当前位置: 首页 > 资讯 > 科技 > 智源研究院公布Tele-FLM-1T:全球首个人工智能万亿级密集模型开源
  • 0
  • 0
  • 分享

智源研究院公布Tele-FLM-1T:全球首个人工智能万亿级密集模型开源

智源研究院 2024-07-28 09:15:42 爱吃爆米花

近日消息,北京智源人工智能研究院与中国电信人工智能研究院(TeleAI)合作升级了Tele-FLM系列大模型,最新发布包含52B指令模型FLM-2-52B-Instruct,以及全球首个人工智能领域的万亿级单体稠密模型Tele-FLM-1T。伴随这一里程碑式的发布,相关技术文档与模型checkpoint均已开源,为全球AI研究社区贡献了宝贵资源。

FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型,专注于提升中文对话能力。通过监督微调,使用100万条开源指令数据进行训练,最终基于3万条数据的子集获得了最优结果。

这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置,并在AlignBench评测平台上进行了评测。结果显示,FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。

Tele-FLM-1T是全球首个开源的万亿参数稠密模型,采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进,包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长,使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/70703.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换