当前位置: 首页 > 资讯 > 科技 > 武汉大学携手中国移动九天AI团队:VoxBlink2音视频辨认数据集开源问世
  • 0
  • 0
  • 分享

武汉大学携手中国移动九天AI团队:VoxBlink2音视频辨认数据集开源问世

中国移动 2024-07-28 09:01:25 爱吃爆米花

近日消息,武汉大学携手中国移动九天人工智能团队及昆山杜克大学,震撼公布了一项重大资源——VoxBlink2音视频说话人识别数据集。

该数据集突破性地涵盖了超过11万小时的珍贵音视频材料,收集自YouTube平台上的11万余名用户,涉及990万个高质音频与对应视频片段,问鼎当前最大公开音视频说话人识别数据库。此举意在拓宽开源领域,为声纹识别大模型的研究与训练注入强大动能。

VoxBlink2数据集通过以下步骤进行数据挖掘:

候选人准备:收集多语种关键词列表,检索用户视频,选取前一分钟视频用于处理。

人脸提取&检测:高帧率抽取视频帧,使用MobileNet检测人脸,确保视频轨仅含单个说话人。

人脸识别:预训练人脸识别器逐帧识别,确保音视频片段来源于同一人。

活动说话人检测:利用唇动序列和音频,通过多模态活动说话人检测器输出发声片段,混叠检测去除多说话人片段。

为提高数据准确率,还引入了集内人脸识别器的旁路步骤,通过粗略人脸提取、人脸验证、人脸采样和训练,将准确率从72%提高到92%。

VoxBlink2还开源了不同大小的声纹模型,包括基于ResNet的2D卷积模型和基于ECAPA-TDNN的时序模型,以及基于Simple Attention Module的超大模型ResNet293。这些模型在Vox1-O数据集上经过后处理后可达0.17%的EER和0.006%的minDCF。

所 属 资 源
中国移动
中国移动
应用 / 生活 /
更有趣的线上服务与移动“心”体验
去下载
来源:站长之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/70701.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交