6月17日消息,香港中文大学携手中国科学院等顶尖科研机构,共同宣布了一项人工智能领域的重大突破——MiCo(多模态情境)全模态预训练框架的诞生。
这项创新技术深刻模拟了人类大脑处理复杂信息的认知过程,通过整合不同感官输入的数据,实现了前所未有的学习效能。
在多模态学习这一前沿科技分支中,MiCo方法已经展现出了其强大潜力,一举刷新了37项行业内的最先进技术指标,标志着向更高效、更全面的人工智能理解与生成能力迈出的关键一步。
核心特点:
全模态理解:MiCo旨在构建能够理解任何模态并学习通用表示的全模态智能。
大规模预训练:通过引入更多模态、数据量和模型参数,MiCo在预训练过程中模拟了人脑的多模态认知过程。
神经网络结构设计:MiCo将不同模态分为“知识模态”和“接口模态”,并设计了相应的全模态学习架构,通过生成推理方法进行对齐。
多模态上下文与尺度定律:MiCo利用多模态上下文来强化模态间的相互增强,构建了跨模态的上下文关系。
实验结果显示:
在10种不同模态的单模态感知基准测试中,MiCo取得了7项SOTA成绩。
在25种跨模态理解任务中,包括检索、问答、描述等,MiCo获得了20项SOTA成绩。
在18种多模态大型语言模型基准测试中,MiCo共取得了10项SOTA成绩。
MiCo的预训练方法:
团队采用了视频与相配对的音频、文字描述、深度和法线进行联合预训练,模拟人脑的视觉、听觉和时空感知能力。
通过全模态编码器(如ViT)提取多模态特征,并使用文本编码器提取文本特征,构建了多模态上下文关系。
结论与未来工作:
MiCo项目是人工智能模拟人脑多模态认知的重要尝试,团队期待它能够启发未来的研究,开发更强大的全模态基础模型。
未来的工作计划包括结合更多模态,如光流、IMU数据和事件文件等,以继续增强全模态联合预训练
文明上网,理性发言,共同做网络文明传播者