当前位置：首页 > 资讯 > 科技 > 香港中文大学创新发布MiCo全模态预训练模型，模拟人脑认知机制解锁智能新维度

香港中文大学创新发布MiCo全模态预训练模型，模拟人脑认知机制解锁智能新维度

香港中文大学 2024-06-17 13:32:40 爱吃爆米花

6月17日消息，香港中文大学携手中国科学院等顶尖科研机构，共同宣布了一项人工智能领域的重大突破——MiCo（多模态情境）全模态预训练框架的诞生。

这项创新技术深刻模拟了人类大脑处理复杂信息的认知过程，通过整合不同感官输入的数据，实现了前所未有的学习效能。

在多模态学习这一前沿科技分支中，MiCo方法已经展现出了其强大潜力，一举刷新了37项行业内的最先进技术指标，标志着向更高效、更全面的人工智能理解与生成能力迈出的关键一步。

核心特点：

全模态理解：MiCo旨在构建能够理解任何模态并学习通用表示的全模态智能。

大规模预训练：通过引入更多模态、数据量和模型参数，MiCo在预训练过程中模拟了人脑的多模态认知过程。

神经网络结构设计：MiCo将不同模态分为“知识模态”和“接口模态”，并设计了相应的全模态学习架构，通过生成推理方法进行对齐。

多模态上下文与尺度定律：MiCo利用多模态上下文来强化模态间的相互增强，构建了跨模态的上下文关系。

实验结果显示：

在10种不同模态的单模态感知基准测试中，MiCo取得了7项SOTA成绩。

在25种跨模态理解任务中，包括检索、问答、描述等，MiCo获得了20项SOTA成绩。

在18种多模态大型语言模型基准测试中，MiCo共取得了10项SOTA成绩。

MiCo的预训练方法：

团队采用了视频与相配对的音频、文字描述、深度和法线进行联合预训练，模拟人脑的视觉、听觉和时空感知能力。

通过全模态编码器（如ViT）提取多模态特征，并使用文本编码器提取文本特征，构建了多模态上下文关系。

结论与未来工作：

MiCo项目是人工智能模拟人脑多模态认知的重要尝试，团队期待它能够启发未来的研究，开发更强大的全模态基础模型。

未来的工作计划包括结合更多模态，如光流、IMU数据和事件文件等，以继续增强全模态联合预训练

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/55863.html

文章标签

香港中文大学

文明上网，理性发言，共同做网络文明传播者

提交