7月17日消息,非盈利新闻机构昨日报道,科技巨头诸如苹果、英伟达、Salesforce以及Anthropic等,在推进其人工智能模型训练的过程中,广泛采纳了源自YouTube平台的丰富视频数据作为重要训练素材,揭示了行业内外对开源资源的深度依赖与创新应用。
报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。
该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容,其中还包含 12000 多个平台已删除视频的字幕内容。
YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,附上相关信息如下:
MrBeast(2.89 亿订阅者,其中有 2 段视频用于训练)
Marques Brownlee(1900 万订阅者,有 7 段视频)
Jacksepticeye(近 3100 万订阅者,有 377 段视频)
PewDiePie(1.11 亿订阅者,有 337 段视频)
YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集,其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。
文明上网,理性发言,共同做网络文明传播者