当前位置: 首页 > 资讯 > 科技 > 视觉大模型成本革命!南大与旷视研究院合作,无需人力或GPT-4,高效解决对齐挑战
  • 0
  • 0
  • 分享

视觉大模型成本革命!南大与旷视研究院合作,无需人力或GPT-4,高效解决对齐挑战

南京大学 2024-06-24 13:47:03 爱吃爆米花

近日消息,南京大学与旷视研究院的科研团队联袂出击,为视觉大模型领域注入了创新活力。他们所研发的SeVa无监督学习框架,巧妙地破解了视觉语言模型在偏好对齐上的技术瓶颈。

最值得一提的是,这一成果的实现完全摆脱了人工标注或依赖GPT-4等高级语言模型的限制,显著减少了模型训练的成本和复杂度,为视觉AI技术的普及和深化应用开辟了全新路径。

这项技术的核心在于自动化构造偏好数据的pipeline,通过对比偏好对齐前后的模型输出,可以明显看出变化。研究人员们发现,即使是微小的图像增广,也可能让VLM对同一问题产生不同的回答。因此,他们将原始图像的回答作为正样本,增广后的图像回答作为负样本,用于训练。

SeVa的实验结果令人瞩目。仅使用8k构造的无监督数据,就显著提升了VLM的指令遵循能力,降低了幻觉,并在多模态等benchmark上取得了明显提升。更重要的是,这种方法简单易行,成本低廉,不需要任何人类或GPT-4的标注。

在多个benchmark上的测试结果表明,SeVa在提升视觉模型的人类偏好对齐方面具有显著优势。特别是在GPT-4评估的MMVet和LLaVA-bench上,SeVa的表现尤为突出。此外,SeVa还能产生更长、更详细的回答,且每次回答的一致性更高,对不同temperature的扰动具有更强的鲁棒性。

这项研究不仅为视觉大模型的对齐问题提供了一种有效的解决方案,也为AI领域的发展开辟了新的可能性。随着SeVa的开源,我们可以预见,未来将有更多的研究者和开发者利用这一范式,推动AI技术的进一步发展。在这个充满无限可能的时代,让我们共同期待AI技术带来的更多惊喜。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/58778.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换