当前位置：首页 > 资讯 > 科技 > 智谱AI震撼发布：CogVLM2新一代多模态大模型开源登场

智谱AI震撼发布：CogVLM2新一代多模态大模型开源登场

智谱AI 2024-05-26 14:55:41 爱吃爆米花

近日消息，智谱AI不负众望，揭晓了其最新的多模态大模型力作——CogVLM2。这一迭代版本在多个核心性能指标上实现了大幅飞跃，超越了其前任CogVLM，展现了技术边界的新拓展。

尤其引人注目的是，CogVLM2在处理能力上实现重大突破，不仅能够驾驭长达8千字符的文本序列，还具备处理1344*1344高分辨率图像的非凡能力，为多模态应用开启了前所未有的细腻度和广度。

CogVLM2在OCRbench基准上性能提升了32%，在TextVQA基准上性能提升了21.9%，显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B，但其性能接近或超过了GPT-4V的水平。

CogVLM2的技术架构在上一代模型的基础上进行了优化，包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块，这些模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。

这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合，同时保持了模型在语言处理上的优势。此外，CogVLM2在推理时实际激活的参数量仅约120亿，这得益于其精心设计的多专家模块结构，显著提高了推理效率。

在模型效果方面，CogVLM2在多个多模态基准测试中取得了优异的成绩，包括TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet和MMBench等。

这些测试涵盖了从文本和图像理解到复杂推理和跨学科任务的广泛能力。CogVLM2的两个模型在多个基准中取得了最先进的性能，同时在其他性能上也能达到与闭源模型相近的水平。

扩展阅读

智谱AI发布CogVideoX v1.5开源版本，新增支持5秒和10秒视频生成功能

智谱AI 4天前

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/46212.html

文章标签

智谱AI

文明上网，理性发言，共同做网络文明传播者

提交