近日消息,阿里云宣布了一项振奋人心的技术突破——推出了名为Qwen-Audio的大规模音频语言模型。这款前沿模型的独特之处在于其强大的多模态处理能力,能够无缝接收并解析各种音频信号,无论是环境声、音乐片段还是人类语言,都能被Qwen-Audio精准捕捉和理解。
在此次发布中,Qwen2udio 提供了两种独特的音交互模式:音聊天和音频分析。用户无需输入文字即与 Qwen2-Audio 进行语音交,同时还可以交互中提供音频和文本令进行分析为用户带来更便捷的体验。
Qwen2-Audio能够智能地理解音频中的内容,并按照语音命令做出适当的响应。例如,在同时包含声音、多扬声器对话和语音命令的音频段中,Qwen2-Audio 可以直接理解该命令并提供对音频的解释和响应。
此外,DPO 还优化了模型在事实性和对期望行为的遵守方面的性能。根据AIR-Bench的评估结果,Qwen2-Audio在专注于以音频为中心的指令跟踪功能的测试中,优于以前的SOTA,如Gemini-1.5-pro。Qwen2-Audio是开源的,旨在促进多模态语言社区的进步。
据了解,Qwen2-Audio 系列将推出两款型号:Qwen2-Audio 和 Qwen-Audio-Chat,为用户提供更丰富的音频互体验。
研究人员将对 Qwen2-Audio 模型进行全面评估,评估其在各种任务中的性能,而无需进行任何特定于任务的微调。英语自动语音识别(ASR)结果方面,其中Qwen2-Audio与以前的多任务学习模型相比表现出更高的性能。
Qwen2-Audio的聊天能力方面,研究人员在AIR-Bench的聊天基准上测量了其性能(Yang et al.,2024),Qwen2-Audio 展示了跨语音、声音音乐和混合音频子集的最先进的 (SOTA) 指令跟踪功能。与 Qwen-Audio 相比,它显示出实质性的改进,并且显着优于其他 LALM。
文明上网,理性发言,共同做网络文明传播者