当前位置：首页 > 资讯 > 科技 > 智谱AI解锁视频智慧之门：开源新型时间感知模型CogVLM2-Video

智谱AI解锁视频智慧之门：开源新型时间感知模型CogVLM2-Video

智谱AI 2024-07-14 09:09:03 爱吃爆米花

近日消息，智谱AI最近宣布了其在视频理解领域的重大突破，通过开源升级了CogVLM2-Video模型。这一升级标志着在处理复杂视频数据方面的重要进展，特别是针对时间信息的精准捕捉和理解。

模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色，为视频生成和摘要等任务提供了强大工具。

CogVLM2-Video通过从输入视频中提取帧并注释时间戳信息，使语言模型能准确知道每一帧的对应时间，从而实现时间定位和相关问答。

为了大规模训练，开发了自动化的视频问答数据生成流程，通过图像理解模型和大型语言模型的结合使用，减少了标注成本并提高了数据质量。最终构造的Temporal Grounding Question and Answer （TQA）数据集包含3万条记录，为模型训练提供了丰富的时间定位数据。

在多个公开评测集上，CogVLM2-Video展现了卓越的性能，包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。

扩展阅读

智谱AI发布CogVideoX v1.5开源版本，新增支持5秒和10秒视频生成功能

智谱AI 12天前

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/65822.html

文章标签

智谱AI

文明上网，理性发言，共同做网络文明传播者

提交