当前位置: 首页 > 资讯 > 科技 > 革命性突破:苹果开源4M-21多模态视觉模型,解锁视觉AI新纪元
  • 0
  • 0
  • 分享

革命性突破:苹果开源4M-21多模态视觉模型,解锁视觉AI新纪元

苹果公司(Apple Inc) 2024-07-08 09:24:46 爱吃爆米花

近日消息,苹果公司与瑞士洛桑联邦理工学院(EPFL)携手,近期公开了一项令人瞩目的科研成果——4M-21,一款集大成者于一身的多模态视觉模型。这款模型打破了传统视觉模型的局限,以其独特的通用性和灵活性,在众多专业领域展现出了卓越的表现力。

该模型的关键核心技术是 “离散 tokens” 转换技术,它可以将各种模态的数据转换为统一格式的 tokens 序列数据。无论是图像类数据、神经网络特征图、向量、结构化数据还是以文本形式表示的数据,都可以转换成模型可以理解的同一数据格式。这种转换不仅简化了模型的训练,还为多模态学习和处理奠定了基础。

在训练阶段,4M-21通过掩码建模的方法来完成多模态学习。它会随机遮盖输入序列中的部分 tokens,然后基于剩余未遮盖的 tokens 预测被遮盖的部分。这种方法迫使模型学习输入数据的统计结构和潜在关系,从而捕捉到不同模态间的信息共通性和交互性。掩码建模不仅提升了模型的泛化能力,还提升了生成任务的准确性。

研究人员对4M-21在图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计以及3D 人体姿态估计等任务中进行了综合评测。结果显示,4M-21的多模态处理能力可以媲美当前最先进的模型,在各项任务中表现出色。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/63489.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换