当前位置：首页 > 资讯 > 科技 > Meta被指版权侵权：用LibGen数据集训练AI还删版权信息

Meta被指版权侵权：用LibGen数据集训练AI还删版权信息

Meta 2025-01-10 09:46:23 爱吃爆米花

近日，Meta陷入了一场有关版权侵权的诉讼风波之中。原告方的律师宣称，Meta的首席执行官马克·扎克伯格已经批准公司运用包含盗版电子书与文章的数据集来对其Llama AI模型展开训练。

在周三晚间提交给美国加利福尼亚北区地方法院的文件中，原告重申了 Meta 去年年底的证词，证词中透露扎克伯格批准使用名为 LibGen 的数据集来进行与 Llama 相关的训练。LibGen 被视为一个“链接聚合器”，提供大量受版权保护的学术出版物。尽管该网站因侵犯版权而多次遭到起诉和勒令关闭，但它依然持续提供来自 Cengage Learning、McGraw Hill 等大型出版商的作品。

文件中提到，Meta 内部有员工承认，LibGen 是一个“我们知道是盗版的数据集”，并表示其使用可能会对公司与监管机构的谈判地位产生负面影响。尤其令人关注的是，Meta 工程师 Nikolay Bashlykov 被指控编写脚本，删除 LibGen 电子书中的版权信息，包括“版权”和“致谢”字样。Meta 还据称从科学期刊文章中删除了版权标记和源元数据，以掩盖其侵权行为。

更具争议的是，Meta 被指控通过 torrenting 方式下载 LibGen 内容，并帮助传播这些被盗版权的文件。torrenting 是一种在网络上分发文件的方式，其中下载者在同时上传文件的同时共享内容。原告律师表示，Meta 通过参与 torrenting 实际上实施了另一种形式的版权侵权行为。尽管 Meta 工程师对此提出保留意见，认为这一行为不合法，Meta 依然在生成 AI 负责人 Ahmad Al-Dahle 的支持下继续进行这一行为。

这些指控显然与去年4月的报道相符，后者曾暗示 Meta 在收集人工智能数据时采取了偷工减料的做法。据报道，Meta 曾雇佣非洲承包商汇总书籍摘要，并曾考虑收购出版商西蒙舒斯特。然而，Meta 高管认为谈判版权许可需要过长时间，合理使用原则成为了他们的主要辩护理由。

目前，案件的审理尚未有定论，且仅涉及 Meta 早期的 Llama 模型。尽管法院曾在2023年驳回了与 AI 相关的几项版权诉讼，认为原告未能证明侵权行为，但本案中的指控仍然可能对 Meta 产生不利影响。主审法官文斯·查布里亚在周三的命令中指出，他驳回了 Meta 请求删除大部分文件的请求，表示这些文件的删除显然是为了避免负面宣传，而非保护敏感商业信息。

此次案件将继续引发关于科技公司如何使用版权作品训练 AI 模型的广泛讨论，特别是在合理使用与版权保护之间的界限问题上。

扩展阅读