当前位置: 首页 > 资讯 > 科技 > 智源研究院突破性成果:EVE——开创无编码器视觉语言多模态新时代
  • 0
  • 0
  • 分享

智源研究院突破性成果:EVE——开创无编码器视觉语言多模态新时代

智源研究院 2024-07-21 10:27:02 爱吃爆米花

近期,多模态学习领域的研究与实践确实迎来了一个飞速发展的时期,不仅国际上的科技巨头OpenAI、Google、Microsoft等持续推出了前沿的多模态大模型,诸如DALL-E和LaMDA,国内同样涌现出一批佼佼者,例如智谱AI和阶跃星辰,它们在多模态模型的探索上也实现了显著的成就,推动了技术边界的扩展。

为解决这些问题,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE。EVE通过精细化训练策略和额外的视觉监督,将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据,EVE在多个视觉-语言基准测试中表现优异,接近甚至优于基于编码器的主流多模态方法。

EVE的主要特点包括:

原生视觉语言模型:去除视觉编码器,处理任意图像长宽比,显著优于同类型Fuyu-8B模型。

数据和训练代价少:预训练使用OpenImages、SAM和LAION等公开数据,训练时间较短。

透明和高效的探索:为纯解码器的原生多模态架构提供了高效、透明的发展路径。

模型结构:

Patch Embedding Layer:通过单层卷积层和平均池化层获取图像2D特征图,增强局部特征和全局信息。

Patch Aligning Layer:整合多层网络视觉特征,实现与视觉编码器输出的细粒度对齐。

训练策略:

大语言模型引导的预训练阶段:建立视觉和语言之间的初步联系。

生成式预训练阶段:提高模型对视觉-语言内容的理解能力。

监督式的微调阶段:规范模型遵循语言指令和学习对话模式的能力。

定量分析:EVE在多个视觉语言基准测试中表现优异,与多种主流的基于编码器的视觉语言模型相当。尽管在准确响应特定指令方面存在挑战,但通过高效的训练策略,EVE实现了与带编码器基础的视觉语言模型相当的性能。

EVE展示了无编码器原生视觉语言模型的潜力,未来可能通过进一步的性能提升、无编码器架构的优化和原生多模态的构建,继续推动多模态模型的发展。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/67248.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换