近日消息,Qwen团队宣称将他们新研发的多模态推理模型QVQ予以开源。这一举措在人工智能领域意义非凡,意味着AI在视觉理解以及复杂问题解决能力这两个重要方面取得了关键的进展。
QVQ模型在视觉推理任务中展现出了特别的优势,特别是在需要复杂分析思维的领域。尽管QVQ-72B-Preview表现出色,但团队也指出了模型存在的一些局限性,包括语言混合和代码切换问题、可能陷入循环逻辑模式、安全和伦理考虑以及性能和基准限制。团队强调,尽管模型在视觉推理方面有所改善,但它无法完全替代Qwen2-VL-72B的能力,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。
Qwen团队在四个数据集上对QVQ-72B-Preview进行了评估,包括MMMU、MathVista、MathVision和OlympiadBench,这些数据集旨在考察模型在视觉相关的综合理解和推理能力。QVQ-72B-Preview在这些基准测试中表现出色,有效缩小了与领先模型之间的差距。
为了进一步展示QVQ模型在视觉推理任务中的应用,Qwen团队提供了几个示例,并分享了技术博客的链接。此外,团队还提供了模型推理的代码示例,以及如何使用魔搭API-Inference直接调用QVQ-72B-Preview模型的方法。魔搭平台的API-Inference为QVQ-72B-Preview模型提供了支持,用户可以通过API调用的方式直接使用该模型。
文明上网,理性发言,共同做网络文明传播者