近日,视频技术研究领域传来新进展,字节跳动携手中国科学院自动化研究所共同应对视频分析中的增量学习挑战。据悉,双方合作已完成了针对美食视频场景的专用数据集LiveFood的精细标注工作,该数据集专为解决域内增量学习问题而设计。
在此基础上,字节跳动与中科院自动化所联合研发团队创新性地提出了基于原型学习的方法论,并构建了一套名为Global Prototype Encoding(GPE)的基准解决方案。
这一方案旨在有效克服现有技术在处理不断增长、内容变化丰富的视频数据时所面临的难题,通过利用原型学习机制,实现对美食视频“高能时刻”的自动识别与定位,从而推动视频智能分析技术在增量学习领域的应用深度和广度。
该方法使用高光原型学习的方案,在视频帧级别上做二分类任务,判断视频帧属于高光还是非高光,并取得了良好的高光检测性能。通过这些努力,AI技术在视频领域应用的前景更加广阔。
通过AI快速检测视频中的高光片段,观众可以直接空降到精彩时刻,主播也可以复盘自己的表现。针对视频域增量学习困境,字节跳动联合中科院自动化研究所标注了美食视频数据集LiveFood,并提出基于原型学习的解决方案。
字节跳动联合中科院自动化所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。同时,标注了用于域增量学习的美食视频数据集LiveFood,并提出了基于原型学习的解决方案。AI技术在视频领域的应用前景更加广阔。
字节跳动联合中科院自动化所提出新方法,用AI快速检测视频中的高光片段,实现对输入视频长度和高光长度的灵活提取。该方法取得了良好的高光检测性能,并对视频领域增量学习问题有重要意义,为AI技术在视频领域的应用打开了新的局面。
文明上网,理性发言,共同做网络文明传播者