当前位置：首页 > 资讯 > 科技 > 智源发布Video-XL大模型：实现小时级超长视频理解

智源发布Video-XL大模型：实现小时级超长视频理解

智源研究院 2024-10-29 09:59:59 爱吃爆米花

近日消息，北京智源人工智能研究院携手上海交通大学、中国人民大学、北京大学以及北京邮电大学等多所高校，共同研发并推出了一款名为Video-XL的大规模超长视频理解模型。这一成果标志着在视频分析与理解领域取得了新的进展。

这款模型是多模态大模型核心能力的重要展示，也是向通用人工智能（AGI）迈进的关键步骤。与现有多模态大模型相比，Video-XL在处理超过10分钟的长视频时，展现了更优的性能和效率。

Video-XL利用语言模型（LLM）的原生能力，对长视觉序列进行压缩，保留了短视频理解的能力，并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡，仅需一块80G显存的显卡即可处理2048帧输入，对小时级长度视频进行采样，并在视频“海中捞针”任务中取得了接近95%的准确率。

Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值，成为长视频理解的得力助手。该模型的推出，标志着长视频理解技术在效率和准确性上迈出了重要一步，为未来长视频内容的自动化处理和分析提供了强有力的技术支持。

目前，Video-XL的模型代码已经开源，以促进全球多模态视频理解研究社区的合作和技术共享。

扩展阅读