当前位置：首页 > 资讯 > 科技 > OpenAI破纪录：逾百万小时YouTube视频驱动GPT-4进化之路

OpenAI破纪录：逾百万小时YouTube视频驱动GPT-4进化之路

OpenAI 2024-04-07 09:36:44 爱吃爆米花

4月7日消息，日前有消息指出，众多AI企业正面临一项严峻挑战，即在获取高品质训练数据集的过程中遭遇瓶颈。针对这一普遍现象，一系列应对策略浮出水面，而这些举措在实施过程中不可避免地触及到AI版权法规尚存争议的灰色地带。

报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。

报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

据报道，OpenAI 公司知道这在法律上存在问题，但认为这是合理使用。OpenAI 总裁 Greg Brockman 亲自参与了所使用视频的收集。

OpenAI 发言人 Lindsay Held 在一封电子邮件中告诉 The Verge，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。Held 补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

谷歌发言人 Matt Bryant 在一封电子邮件中表示，该公司“看到了有关 OpenAI 活动的未经证实的报告”，并补充说“我们的 robots.txt 文件（网站与爬虫间的君子协定）和服务条款都禁止未经授权的抓取或下载 YouTube 内容”。

YouTube 首席执行官 Neal Mohan 近日在采访中公开表示，尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora（文本生成视频的 AI 模型），但警告称这种行为违反了 YouTube 现行的平台服务条款。

扩展阅读

OpenAI 8天前

来源：it之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/31954.html

文章标签

OpenAI YouTube

文明上网，理性发言，共同做网络文明传播者

提交