当前位置：首页 > 资讯 > 科技 > 武汉大学携手中国移动九天AI团队：VoxBlink2音视频辨认数据集开源问世

武汉大学携手中国移动九天AI团队：VoxBlink2音视频辨认数据集开源问世

中国移动 2024-07-28 09:01:25 爱吃爆米花

近日消息，武汉大学携手中国移动九天人工智能团队及昆山杜克大学，震撼公布了一项重大资源——VoxBlink2音视频说话人识别数据集。

该数据集突破性地涵盖了超过11万小时的珍贵音视频材料，收集自YouTube平台上的11万余名用户，涉及990万个高质音频与对应视频片段，问鼎当前最大公开音视频说话人识别数据库。此举意在拓宽开源领域，为声纹识别大模型的研究与训练注入强大动能。

VoxBlink2数据集通过以下步骤进行数据挖掘：

候选人准备：收集多语种关键词列表，检索用户视频，选取前一分钟视频用于处理。

人脸提取&检测：高帧率抽取视频帧，使用MobileNet检测人脸，确保视频轨仅含单个说话人。

人脸识别：预训练人脸识别器逐帧识别，确保音视频片段来源于同一人。

活动说话人检测：利用唇动序列和音频，通过多模态活动说话人检测器输出发声片段，混叠检测去除多说话人片段。

为提高数据准确率，还引入了集内人脸识别器的旁路步骤，通过粗略人脸提取、人脸验证、人脸采样和训练，将准确率从72%提高到92%。

VoxBlink2还开源了不同大小的声纹模型，包括基于ResNet的2D卷积模型和基于ECAPA-TDNN的时序模型，以及基于Simple Attention Module的超大模型ResNet293。这些模型在Vox1-O数据集上经过后处理后可达0.17%的EER和0.006%的minDCF。

扩展阅读

网盘行业首次适配，《中国移动云盘》推出纯血鸿蒙版本

中国移动 10-25 10:03

所属资源

中国移动

应用 / 生活 /

更有趣的线上服务与移动“心”体验

去下载

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/70701.html

文章标签

中国移动

文明上网，理性发言，共同做网络文明传播者

提交