近日,Patronus AI 发布的最新研究报告指出,OpenAI 开发的 GPT-4 模型所使用的训练数据中含有相当程度的版权内容,比例高达44%。
Patronus AI 是一家专门评估大型语言模型(LLMs)的公司,本周三发布的报告中测试了四款主流 AI 模型:OpenAI 的 GPT-4、Anthropic 的 Claude 2、Meta 的 Llama 2 以及 Mistral AI 的 Mixtral,意外的是没有谷歌的 Gemini。
Patronus AI 使用 CopyrightCatcher 分析 4 款 AI 模型对主流版权书籍相关的提示的反应。挑战很简单:向 AI 模型发出提示词,要求输出各种不同版权书籍中指定段落或者第一段。
OpenAI 的 GPT-4 生成的带有版权文字的提示数量最多(44%)。Anthropic 的 Claude 2 是最谨慎的,仅在 16% 的完成提示中生成了受版权保护的内容。它还以无法获得版权材料为由,拒绝回答所有第一段提示。Meta's Llama 2 在 10% 的提示中提供了受版权保护的内容。Mixtral 提供了 6% 的版权内容,更倾向于完成首段(38%)。
文明上网,理性发言,共同做网络文明传播者