4月15日消息,科技界再度聚焦于中国网络安全巨头360公司的一项重大举措:其自主研发的70亿参数规模的人工智能大模型——360智脑,历经精心打磨,终于在这春意盎然的日子正式步入全球开源社区的舞台。
此举不仅彰显了360在人工智能领域的技术实力与开放共享精神,更为全球开发者带来了丰富的资源与无限可能,共同绘制AI创新的宏伟蓝图。此次360智脑开源行动,不仅发布了基础模型的核心代码与相关文档,更为广大研究者与开发者精心准备了涵盖多元应用场景的多种文本长度版本。
其中,包括4K、32K、360K三种规格,旨在满足从短篇精炼文本到超长篇幅内容处理的广泛需求,展现出360智脑在应对复杂文本理解与生成任务上的卓越灵活性与强大适应性。
这一大模型在支持文本长度方面表现出色,最长可处理360K长文本,相当于约50万字的输入内容。令人惊叹的是,仅需3秒钟,它便能读完整部《三体》。
目前,在开源模型领域,360智脑7B无疑是支持文本长度最长的大模型之一。
为了方便开发者使用,360智脑7B大模型不仅提供了全套的微调训练代码和推理代码工具集,而且实现了开箱即用。这一举措极大地简化了开发流程,让行业无需再为处理长文本而犯愁。
在性能评估方面,360智脑7B大模型同样表现出色。通过OpenCompass与国内外同参数模型进行对比,其综合能力排名前三。在C-Eval、MMLU、HellaSwag、LAMBADA等多项能力测试中,360智脑7B均获得了第一的成绩,显示出强大的中英文知识和推理理解能力。即便是面对“弱智吧”贴吧的“刁难”,它也能从容不迫地作出清晰应答。
在LongBench评测中,360智脑7B大模型的长文本处理能力同样令人瞩目。在同等参数模型的测评中,它成功拿下最高分。同时,在中英文360K大海捞针效果测试中,也取得了超过98%的高分。
这一成绩的背后,得益于360智脑7B采用的无损压缩技术,它摒弃了传统的滑动窗口attention、跳跃attetion等有损压缩路线,实现了超长文本的无损处理
文明上网,理性发言,共同做网络文明传播者