当前位置: 首页 > 资讯 > 科技 > OpenAI破纪录:逾百万小时YouTube视频驱动GPT-4进化之路
  • 0
  • 0
  • 分享

OpenAI破纪录:逾百万小时YouTube视频驱动GPT-4进化之路

OpenAI 2024-04-07 09:36:44 爱吃爆米花

4月7日消息,日前有消息指出,众多AI企业正面临一项严峻挑战,即在获取高品质训练数据集的过程中遭遇瓶颈。针对这一普遍现象,一系列应对策略浮出水面,而这些举措在实施过程中不可避免地触及到AI版权法规尚存争议的灰色地带。

报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。

报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

据报道,OpenAI 公司知道这在法律上存在问题,但认为这是合理使用。OpenAI 总裁 Greg Brockman 亲自参与了所使用视频的收集。

OpenAI 发言人 Lindsay Held 在一封电子邮件中告诉 The Verge,该公司为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。Held 补充说,该公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。

谷歌发言人 Matt Bryant 在一封电子邮件中表示,该公司“看到了有关 OpenAI 活动的未经证实的报告”,并补充说“我们的 robots.txt 文件(网站与爬虫间的君子协定)和服务条款都禁止未经授权的抓取或下载 YouTube 内容”。

YouTube 首席执行官 Neal Mohan 近日在采访中公开表示,尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora(文本生成视频的 AI 模型),但警告称这种行为违反了 YouTube 现行的平台服务条款。

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/31954.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交