当前位置: 首页 > 资讯 > 科技 > 香港中文大学创新发布MiCo全模态预训练模型,模拟人脑认知机制解锁智能新维度
  • 0
  • 0
  • 分享

香港中文大学创新发布MiCo全模态预训练模型,模拟人脑认知机制解锁智能新维度

香港中文大学 2024-06-17 13:32:40 爱吃爆米花

6月17日消息,香港中文大学携手中国科学院等顶尖科研机构,共同宣布了一项人工智能领域的重大突破——MiCo(多模态情境)全模态预训练框架的诞生。

这项创新技术深刻模拟了人类大脑处理复杂信息的认知过程,通过整合不同感官输入的数据,实现了前所未有的学习效能。

在多模态学习这一前沿科技分支中,MiCo方法已经展现出了其强大潜力,一举刷新了37项行业内的最先进技术指标,标志着向更高效、更全面的人工智能理解与生成能力迈出的关键一步。

核心特点:

全模态理解:MiCo旨在构建能够理解任何模态并学习通用表示的全模态智能。

大规模预训练:通过引入更多模态、数据量和模型参数,MiCo在预训练过程中模拟了人脑的多模态认知过程。

神经网络结构设计:MiCo将不同模态分为“知识模态”和“接口模态”,并设计了相应的全模态学习架构,通过生成推理方法进行对齐。

多模态上下文与尺度定律:MiCo利用多模态上下文来强化模态间的相互增强,构建了跨模态的上下文关系。

实验结果显示:

在10种不同模态的单模态感知基准测试中,MiCo取得了7项SOTA成绩。

在25种跨模态理解任务中,包括检索、问答、描述等,MiCo获得了20项SOTA成绩。

在18种多模态大型语言模型基准测试中,MiCo共取得了10项SOTA成绩。

MiCo的预训练方法:

团队采用了视频与相配对的音频、文字描述、深度和法线进行联合预训练,模拟人脑的视觉、听觉和时空感知能力。

通过全模态编码器(如ViT)提取多模态特征,并使用文本编码器提取文本特征,构建了多模态上下文关系。

结论与未来工作:

MiCo项目是人工智能模拟人脑多模态认知的重要尝试,团队期待它能够启发未来的研究,开发更强大的全模态基础模型。

未来的工作计划包括结合更多模态,如光流、IMU数据和事件文件等,以继续增强全模态联合预训练

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/55863.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换