近日消息,阿里通义千问宣布开源其Qwen2-Audio系列的两项最新成果:Qwen2-Audio-7B与Qwen2-Audio-7B-Instruct模型。
这标志着在音频理解和生成技术领域的重要进展,两个模型分别针对基础的音频处理任务和指令导向的音频生成任务进行了优化,旨在为研究人员和开发者提供强大的工具,促进语音技术的创新与应用落地。
作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:
语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入
音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析
官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。
文明上网,理性发言,共同做网络文明传播者