当前位置：首页 > 资讯 > 科技 > Meta发布Apollo开源模型：赋予AI视频理解能力

Meta发布Apollo开源模型：赋予AI视频理解能力

Meta 2024-12-19 10:05:46 爱吃爆米花

近日消息，Meta 与斯坦福大学联合推出了全新的 AI 模型系列 Apollo，这一创新举措显著增强了机器对视频内容的理解能力。

注：尽管人工智能在处理图像和文本方面取得了巨大进步，但让机器真正理解视频仍然是一个重大挑战。

视频包含复杂的动态信息，人工智能更难处理这些信息，不仅需要更多的计算能力，而且如何设计最佳 AI 视频解读系统，也存在诸多困难。

在视频处理方面，研究人员发现，保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件，一个处理单独的视频帧，而另一个跟踪对象和场景如何随时间变化。

此外，在处理后的视频片段之间添加时间戳，有助于模型理解视觉信息与文本描述之间的关系，保持时间感知。

在模型训练方面，团队研究表明训练方法比模型大小更重要。Apollo 模型采用分阶段训练，按顺序激活模型的不同部分，比一次性训练所有部分效果更好。

此外 Meta 公司还不断优化数据组合，发现 10~14% 的文本数据，其余部分略微偏向视频内容，可以更好地平衡语言理解和视频处理能力。

Apollo 模型在不同规模上均表现出色，较小的 Apollo-3B 超越了 Qwen2-VL 等同等规模的模型，而 Apollo-7B 超过更大参数的同类模型，Meta 已开源 Apollo 的代码和模型权重，并在 Hugging Face 平台提供公开演示。

扩展阅读

Meta开源AI试衣新模型Leffa：细节展现更卓越

Meta 3天前

来源：it之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/106027.html

文章标签