当前位置：首页 > 资讯 > 科技 > 面壁MiniCPM-V 2.6开源挑战端侧AI极限：多模态实力比肩GPT-4V新标

面壁MiniCPM-V 2.6开源挑战端侧AI极限：多模态实力比肩GPT-4V新标

面壁智能 2024-08-11 10:20:14 爱吃爆米花

近日消息，"MiniCPM-V2.6"端侧多模态人工智能模型，在技术领域内引起了轰动。这款模型以仅仅8B的参数量，实现了在单图、多图及视频理解三项任务上达到SOTA水平的壮举，超越了以往20B参数以下模型的表现。

它的出现，大幅增强了终端设备的AI多模态处理能力，直接对标业界顶尖的GPT-4V模型，预示着端侧AI技术的一次重大飞跃，为用户带来了前所未有的智能体验和效率提升。

以下是特性概括：

模型特点：MiniCPM-V2.6在端侧实现了单图、多图和视频理解等核心能力的全面超越，并首次将实时视频理解、多图联合理解等功能带到端侧，更接近复杂的真实世界场景。

效率与性能：该模型以小博大，具有极高的像素密度（Token Density），比GPT-4o的单token编码像素密度高两倍，在端侧设备上实现了极高的运行效率。

端侧友好性：模型在量化后仅需6GB内存，端侧推理速度高达每秒18个token，比上代模型快33%，并支持多种语言和推理框架。

功能拓展：MiniCPM-V2.6通过OCR能力，将单图场景的高清图像解析能力迁移到多图和视频场景，减少了视觉token的数量，节省了资源。

推理能力：它在多图理解、复杂推理任务中展现出色能力，如调整自行车车座的步骤说明，以及对梗图背后槽点的识别。

多图ICL：模型支持上下文少样本学习，能快速适应特定领域的任务，提高输出稳定性。

高清视觉架构：通过统一的视觉架构，模型的OCR能力得以延续，实现从单图到多图及视频的流畅拓展。

超低幻觉率：MiniCPM-V2.6在幻觉评测上表现优异，展示了其可信度。

MiniCPM-V2.6模型的推出，对端侧AI的发展具有重要意义，它不仅提升了多模态处理能力，也展示了在资源受限的端侧设备上实现高性能AI的可能性。

扩展阅读

面壁智能携手百度智能云：共筑大模型端云协同新生态

面壁智能 2024-10-31 09:42

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/74208.html

文章标签

面壁智能

文明上网，理性发言，共同做网络文明传播者

提交