近日,阿里巴巴达摩院推出了一款备受瞩目的多模态大型语言模型——Valley 2。这个模型有着独特的定位,它专门针对电商场景而设计打造。
Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,增强了处理多样化真实世界输入的灵活性及训练推理效率。
Valley2的数据由OneVision风格数据、针对电商和短视频领域的数据以及用于复杂问题解决的链式思维(CoT)数据组成。训练过程分为文本-视觉对齐、高质量知识学习、指令微调和链式思维后训练四个阶段。在实验中,Valley2于多个公开基准测试中表现卓越,尤其在MMBench、MMStar、MathVista等基准上得分颇高,在Ecom-VQA基准测试中也超越了其他同规模模型。
未来,阿里巴巴达摩院计划发布包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法,以支持下游检索和探测应用。
Valley2的推出标志着多模态大型语言模型领域的重要进展,展现了通过结构改进、数据集构建及训练策略优化来提升模型性能的可能性。
文明上网,理性发言,共同做网络文明传播者