当前位置: 首页 > 资讯 > 科技 > 字节豆包模型双升级:语音视觉齐飞跃,综合性能增强20.3%
  • 0
  • 0
  • 分享

字节豆包模型双升级:语音视觉齐飞跃,综合性能增强20.3%

字节跳动 2024-08-23 17:30:12 爱吃爆米花

近日,火山引擎在2024年8月21日于上海举办的AI创新巡展上,隆重介绍了豆包大模型的全面升级情况,此次升级旨在进一步提升模型性能与应用场景的广泛性。

同时,火山引擎也展示了其对话式AI实时交互解决方案的最新进展,强调了在用户体验与交互效率上的显著优化,彰显了其在AI技术创新与应用落地方面的强劲实力。

豆包大模型自5月15日发布以来,日均tokens使用量已超5000亿,企业客户使用量增长22倍。新版豆包大语言模型的综合能力提升了20.3%,其中角色扮演能力提升38.3%,语言理解能力提升33.3%。

其中,豆包·文生图模型对长文本有更精准的图文匹配能力,多主体、多位置、手部结构等复杂场景的生图能力更强,更善于理解中国特色元素,创造更具美感的中国风图片。豆包·语音识别模型基于大语言模型丰富的知识和推理能力,通过上下文感知,提升语音识别准确性,在多个公开测试集中,与国内公开发布的语音识别大模型相比,错误率最高降低40%;支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等方言。豆包·语音合成模型升级了流式语音合成能力,能够实时响应、精准断句,支持“边想边说”。

此外,火山引擎发布对话式 AI 实时交互解决方案,该方案整合了豆包大模型和实时音视频(RTC)技术,提供端到端的大模型实时对话方案。企业可以轻松地在自己 AI 应用中嵌入该实时语音功能,用户不仅能用语音与 AI 进行交谈,还能像平时说话一样,在对话过程中适时打断或插话,经过升级后的 AI 声音具备较好表现力和感情色彩,对话更自然、更真实、更流畅,让大模型交互体验更强。

火山引擎还宣布与多点DMALL联合成立零售大模型生态联盟,旨在推动零售行业智能化升级,加速行业创新步伐。首批18家成员单位参与了启动仪式。此外,汽车大模型生态联盟也迎来了新成员,火山引擎正与联盟成员在AI汽车行业定义、评测标准发布等方面进行协作。

来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/80721.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换