近日,Meta陷入了一场有关版权侵权的诉讼风波之中。原告方的律师宣称,Meta的首席执行官马克·扎克伯格已经批准公司运用包含盗版电子书与文章的数据集来对其Llama AI模型展开训练。
在周三晚间提交给美国加利福尼亚北区地方法院的文件中,原告重申了 Meta 去年年底的证词,证词中透露扎克伯格批准使用名为 LibGen 的数据集来进行与 Llama 相关的训练。LibGen 被视为一个“链接聚合器”,提供大量受版权保护的学术出版物。尽管该网站因侵犯版权而多次遭到起诉和勒令关闭,但它依然持续提供来自 Cengage Learning、McGraw Hill 等大型出版商的作品。
文件中提到,Meta 内部有员工承认,LibGen 是一个“我们知道是盗版的数据集”,并表示其使用可能会对公司与监管机构的谈判地位产生负面影响。尤其令人关注的是,Meta 工程师 Nikolay Bashlykov 被指控编写脚本,删除 LibGen 电子书中的版权信息,包括“版权”和“致谢”字样。Meta 还据称从科学期刊文章中删除了版权标记和源元数据,以掩盖其侵权行为。
更具争议的是,Meta 被指控通过 torrenting 方式下载 LibGen 内容,并帮助传播这些被盗版权的文件。torrenting 是一种在网络上分发文件的方式,其中下载者在同时上传文件的同时共享内容。原告律师表示,Meta 通过参与 torrenting 实际上实施了另一种形式的版权侵权行为。尽管 Meta 工程师对此提出保留意见,认为这一行为不合法,Meta 依然在生成 AI 负责人 Ahmad Al-Dahle 的支持下继续进行这一行为。
这些指控显然与去年4月的报道相符,后者曾暗示 Meta 在收集人工智能数据时采取了偷工减料的做法。据报道,Meta 曾雇佣非洲承包商汇总书籍摘要,并曾考虑收购出版商西蒙舒斯特。然而,Meta 高管认为谈判版权许可需要过长时间,合理使用原则成为了他们的主要辩护理由。
目前,案件的审理尚未有定论,且仅涉及 Meta 早期的 Llama 模型。尽管法院曾在2023年驳回了与 AI 相关的几项版权诉讼,认为原告未能证明侵权行为,但本案中的指控仍然可能对 Meta 产生不利影响。主审法官文斯·查布里亚在周三的命令中指出,他驳回了 Meta 请求删除大部分文件的请求,表示这些文件的删除显然是为了避免负面宣传,而非保护敏感商业信息。
此次案件将继续引发关于科技公司如何使用版权作品训练 AI 模型的广泛讨论,特别是在合理使用与版权保护之间的界限问题上。
文明上网,理性发言,共同做网络文明传播者