当前位置：首页 > 资讯 > 科技 > 智源研究院突破性成果：EVE——开创无编码器视觉语言多模态新时代

智源研究院突破性成果：EVE——开创无编码器视觉语言多模态新时代

智源研究院 2024-07-21 10:27:02 爱吃爆米花

近期，多模态学习领域的研究与实践确实迎来了一个飞速发展的时期，不仅国际上的科技巨头OpenAI、Google、Microsoft等持续推出了前沿的多模态大模型，诸如DALL-E和LaMDA，国内同样涌现出一批佼佼者，例如智谱AI和阶跃星辰，它们在多模态模型的探索上也实现了显著的成就，推动了技术边界的扩展。

为解决这些问题，智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE。EVE通过精细化训练策略和额外的视觉监督，将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据，EVE在多个视觉-语言基准测试中表现优异，接近甚至优于基于编码器的主流多模态方法。

EVE的主要特点包括：

原生视觉语言模型：去除视觉编码器，处理任意图像长宽比，显著优于同类型Fuyu-8B模型。

数据和训练代价少：预训练使用OpenImages、SAM和LAION等公开数据，训练时间较短。

透明和高效的探索：为纯解码器的原生多模态架构提供了高效、透明的发展路径。

模型结构：

Patch Embedding Layer：通过单层卷积层和平均池化层获取图像2D特征图，增强局部特征和全局信息。

Patch Aligning Layer：整合多层网络视觉特征，实现与视觉编码器输出的细粒度对齐。

训练策略：

大语言模型引导的预训练阶段：建立视觉和语言之间的初步联系。

生成式预训练阶段：提高模型对视觉-语言内容的理解能力。

监督式的微调阶段：规范模型遵循语言指令和学习对话模式的能力。

定量分析：EVE在多个视觉语言基准测试中表现优异，与多种主流的基于编码器的视觉语言模型相当。尽管在准确响应特定指令方面存在挑战，但通过高效的训练策略，EVE实现了与带编码器基础的视觉语言模型相当的性能。

EVE展示了无编码器原生视觉语言模型的潜力，未来可能通过进一步的性能提升、无编码器架构的优化和原生多模态的构建，继续推动多模态模型的发展。

扩展阅读

智源FlagCX：异构统一通信库，开启AI数据跨芯片高效互联新篇

智源FlagCX：异构统一通信库，开启AI数据跨芯片高效互联新篇

智源研究院 2024-12-30 09:49

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/67248.html

文章标签

智源研究院

评论

文明上网，理性发言，共同做网络文明传播者

验证码

提交

暂无评论内容

猜你喜欢

苹果商店焕新登场！《Apple Store》6.0版本携个性化推荐与沉浸式探索功能来袭

App Store 评论：0 2024-07-21
《Outlook》将迎来更新，新增邮件草稿最小化功能

Microsoft Outlook 评论：0 2025-02-12

最新

智源FlagCX：异构统一通信库，开启AI数据跨芯片高效互联新篇

智源研究院评论：0 2024-12-30
智源重磅开源：See3D模型引领无标注视频学习3D生成新潮流

智源研究院评论：0 2024-12-15
智源发布Video-XL大模型：实现小时级超长视频理解

智源研究院评论：0 2024-10-29
智源发布Infinity-Instruct：千万指令量微调数据集引领AI语言模型新纪元

智源研究院评论：0 2024-10-03
智源研究院引领潮流，发布全球首个多语种大模型辩论平台FlagEval Debate

智源研究院评论：0 2024-09-30

显示更多

热榜

百度热搜微博热搜抖音热搜

1买到《哪吒2》手写票的观众发声，质疑偷票房多渠道进行举报

2曝《哪吒2》被偷票房，损失了几千万？

3特朗普停铸1美分硬币：太浪费

4特朗普签令：对输美钢铝征收25%关税

5Meta“AI读心术”准确率可达80%，不开颅、不植入

6朝鲜此时撤军，俄乌释放何种信号

7外交部：中方对努乔马逝世表示深切哀悼

8美国2架飞机跑道上相撞，已致1人死亡

热门游戏

第五人格
手游 / 角色扮演
去下载
王者荣耀
手游 / 角色扮演
去下载

换一换

热门软件

微信
应用 / 社交
去下载
支付宝
应用 / 工具
去下载
抖音
应用 / 视频
去下载

换一换