当前位置：首页 > 资讯 > 科技 > 苹果、英伟达被指借力5.7GB YouTube数据，涵盖4.8万个频道17.4万条字幕训练AI模型

苹果、英伟达被指借力5.7GB YouTube数据，涵盖4.8万个频道17.4万条字幕训练AI模型

苹果公司（Apple Inc） 2024-07-17 11:03:49 爱吃爆米花

7月17日消息，非盈利新闻机构昨日报道，科技巨头诸如苹果、英伟达、Salesforce以及Anthropic等，在推进其人工智能模型训练的过程中，广泛采纳了源自YouTube平台的丰富视频数据作为重要训练素材，揭示了行业内外对开源资源的深度依赖与创新应用。

报道称这些科技公司在训练其 AI 模型过程中，使用了名为 YouTube Subtitles 的数据集，大小为 5.7GB（4.89 亿个单词）。

该数据集由 EleutherAI 创建，最早发布于 2020 年，涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容，其中还包含 12000 多个平台已删除视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源，附上相关信息如下：

MrBeast（2.89 亿订阅者，其中有 2 段视频用于训练）

Marques Brownlee（1900 万订阅者，有 7 段视频）

Jacksepticeye（近 3100 万订阅者，有 377 段视频）

PewDiePie（1.11 亿订阅者，有 337 段视频）

YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集，其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。

扩展阅读

苹果公司（Apple Inc）昨天

来源：it之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/67033.html

文章标签

iPhone苹果英伟达

文明上网，理性发言，共同做网络文明传播者

提交