当前位置: 首页 > 资讯 > 科技 > 阿里巴巴达摩院发布Valley 2多模态语言模型:赋能电商与短视频

阿里巴巴达摩院发布Valley 2多模态语言模型:赋能电商与短视频

阿里巴巴 2025-01-16 09:22:58 爱吃爆米花

近日,阿里巴巴达摩院推出了一款备受瞩目的多模态大型语言模型——Valley 2。这个模型有着独特的定位,它专门针对电商场景而设计打造。

Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,增强了处理多样化真实世界输入的灵活性及训练推理效率。

Valley2的数据由OneVision风格数据、针对电商和短视频领域的数据以及用于复杂问题解决的链式思维(CoT)数据组成。训练过程分为文本-视觉对齐、高质量知识学习、指令微调和链式思维后训练四个阶段。在实验中,Valley2于多个公开基准测试中表现卓越,尤其在MMBench、MMStar、MathVista等基准上得分颇高,在Ecom-VQA基准测试中也超越了其他同规模模型。

未来,阿里巴巴达摩院计划发布包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法,以支持下游检索和探测应用。

Valley2的推出标志着多模态大型语言模型领域的重要进展,展现了通过结构改进、数据集构建及训练策略优化来提升模型性能的可能性。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/110356.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
暂无评论内容
热门游戏
换一换
热门软件
换一换