当前位置：首页 > 资讯 > 软件 > 《通义》App迎来数字诗人李白，古今对话尽在指尖，吟诗谈史两相宜

《通义》App迎来数字诗人李白，古今对话尽在指尖，吟诗谈史两相宜

通义千问 2024-09-11 10:55:21 爱吃爆米花

近日消息，通义近期发布了数字人李白，该数字人依托于通义大模型及先进的多模态技术，不仅外形传神地复现了唐代伟大诗人李白的中年时期样貌，更通过细腻的眼神交流与举止动作，深度诠释了李白诗词独有的意境美。

数字人李白刚上线，便于近期进入杭州刀茅巷小学，化身新学期一位特别的“语文老师”上了一堂公开课。“您写过的*长的诗是哪一首？”“《蜀道难》背后有什么故事？”……面对一个个的好奇提问，李白不仅有问必答，而且引经据典，与学生们诗词接龙。

这种寓教于乐的方式使语文课变得更加有趣且高效。杭州市刀茅巷小学语文老师王敏蕾表示，“平时的语文课堂中就是课本，还有多媒体教学，像数字人一起参与，我觉得小孩子不仅从数字人身上感受到不一样的课堂以外，还能学到课本以外的知识。”

和需要大量视频作为训练数据，对真实人物进行复刻的传统数字人不同，通义推出的李白数字人，只需要一张图就可以生成具有全身动态的数字人，在这背后，是阿里通义大模型能力的“六剑客”。

大脑来自通义的模型Qwen，其语⾔理解、知识、代码、数学及多语⾔等多项能⼒显著领先。表情跟自然呼吸态来自EMO模型，*大化地保留模型创造力，使人脸表现力大大提升。肢体动作上，通义采用了强控制方法AnimateAnyone，用针对人体建模的骨架图片来驱动人物动作，也是曾爆火全网的“全民舞王”背后的技术。

语言模型来自通义语音实验室的CosyVoice技术，基于海量数据训练的生成式语音大模型，能够实现1-3句话声音克隆。为了让数字人有更好的实时对话能力，数字人李白还采用了VideoReTalking技术，它可以根据音频自动匹配嘴型。

未来，视觉语言大模型VL（Vision-Language）也将被应用在数字人交互领域，在情感识别、虚拟现实交互上提供更优质的互动体验。未来打开摄像头，用户便能与李白打破时空结界、体验身处一世的实时视频通话。

“李白是中国传统文化的一张名片，数字人李白让这位跨越千年的文学巨匠以全新的形态‘活’在当下，与全球观众互动，激发更多人对古典文学的兴趣与热爱。”通义数字人产品经理龙慧表示，未来，从线上教学到虚拟旅游，数字人将在教育、文化旅游、数字娱乐等多个领域展开*应用的计划。

扩展阅读