当前位置: 首页 > 资讯 > 科技 > 阿里通义千问发布Qwen2-VL:开源2B/7B参数大模型,革新图像处理技术
  • 0
  • 0
  • 分享

阿里通义千问发布Qwen2-VL:开源2B/7B参数大模型,革新图像处理技术

通义千问 2024-08-31 09:02:39 爱吃爆米花

近日消息,通义千问团队宣布对Qwen-VL模型进行重要升级,正式推出其迭代版本——Qwen2-VL模型。这次更新聚焦于视觉语言理解领域,旨在通过深度学习技术的优化,增强模型在处理图像与文本交叉信息方面的性能,提升多模态应用场景的准确性和创造力,为用户带来更高效、智能的视觉语言交互体验。

Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持(Naive Dynamic Resolution support)。与上一代模型 Qwen-VL 不同,Qwen2-VL 可以处理任意分辨率的图像,而无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知,使模型能够处理任何清晰度或大小的图像。

另一个关键架构增强是 Multimodal Rotary Position Embedding(M-ROPE)。通过将 original rotary embedding 分解为代表时间和空间(高度和宽度)信息的三个部分,M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。这使 LLM 能够充当多模态处理器和推理器。

在 7B 规模下,Qwen2-VL-7B 保留了对图像、多图像和视频输入的支持,以更具成本效益的模型大小提供“具有竞争力”的性能。

Qwen2-VL-2B 模型针对潜在的移动部署进行了优化。尽管参数量只有 2B,但官方表示该模型在图像、视频和多语言理解方面表现出色。

所 属 资 源
通义千问
通义千问
应用 / 工具 /
阿里巴巴自研AI大模型
去下载
来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/82867.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换