当前位置: 首页 > 资讯 > 科技 > 面壁MiniCPM-V 2.6开源挑战端侧AI极限:多模态实力比肩GPT-4V新标
  • 0
  • 0
  • 分享

面壁MiniCPM-V 2.6开源挑战端侧AI极限:多模态实力比肩GPT-4V新标

面壁智能 2024-08-11 10:20:14 爱吃爆米花

近日消息,"MiniCPM-V2.6"端侧多模态人工智能模型,在技术领域内引起了轰动。这款模型以仅仅8B的参数量,实现了在单图、多图及视频理解三项任务上达到SOTA水平的壮举,超越了以往20B参数以下模型的表现。

它的出现,大幅增强了终端设备的AI多模态处理能力,直接对标业界顶尖的GPT-4V模型,预示着端侧AI技术的一次重大飞跃,为用户带来了前所未有的智能体验和效率提升。

以下是特性概括:

模型特点:MiniCPM-V2.6在端侧实现了单图、多图和视频理解等核心能力的全面超越,并首次将实时视频理解、多图联合理解等功能带到端侧,更接近复杂的真实世界场景。

效率与性能:该模型以小博大,具有极高的像素密度(Token Density),比GPT-4o的单token编码像素密度高两倍,在端侧设备上实现了极高的运行效率。

端侧友好性:模型在量化后仅需6GB内存,端侧推理速度高达每秒18个token,比上代模型快33%,并支持多种语言和推理框架。

功能拓展:MiniCPM-V2.6通过OCR能力,将单图场景的高清图像解析能力迁移到多图和视频场景,减少了视觉token的数量,节省了资源。

推理能力:它在多图理解、复杂推理任务中展现出色能力,如调整自行车车座的步骤说明,以及对梗图背后槽点的识别。

多图ICL:模型支持上下文少样本学习,能快速适应特定领域的任务,提高输出稳定性。

高清视觉架构:通过统一的视觉架构,模型的OCR能力得以延续,实现从单图到多图及视频的流畅拓展。

超低幻觉率:MiniCPM-V2.6在幻觉评测上表现优异,展示了其可信度。

MiniCPM-V2.6模型的推出,对端侧AI的发展具有重要意义,它不仅提升了多模态处理能力,也展示了在资源受限的端侧设备上实现高性能AI的可能性。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/74208.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换