当前位置：首页 > 资讯 > 科技 > Anthropic启动新举措：助力开发新一代AI基准测评，推动技术边界拓展

Anthropic启动新举措：助力开发新一代AI基准测评，推动技术边界拓展

Anthropic 2024-07-02 11:19:48 爱吃爆米花

近日，人工智能研究公司Anthropic宣布启动了一项创新性计划，旨在推动AI领域的发展。该计划聚焦于资助新型基准测试的研发，这些测试将用于全面评估AI模型的效能与影响力，特别涵盖了如Anthropic自家的Claude等生成式模型的表现。

Anthropic 在周一发布了这个计划，将向第三方组织发放款项，这些组织可以 “有效地衡量 AI 模型的高级能力”，正如该公司在一篇博客文章中所说的那样。有兴趣的人可以提交申请，进行滚动评估。

“我们对这些评估的投资旨在提升整个 AI 安全领域，提供有价值的工具，使整个生态系统受益，”Anthropic 在其官方博客上写道。“开发高质量、与安全相关的评估仍然具有挑战性，需求正在超过供应。”

正如我们之前所强调的，AI 存在基准测试问题。今天 AI 最常引用的基准测试往往不能很好地捕捉到普通人实际使用被测试系统的方式。此外，一些基准测试，特别是在现代生成 AI 出现之前发布的基准测试，甚至可能无法测量它们所声称测量的内容，因为它们的年代过于久远。

Anthropic 提出的非常高层次、听起来比较困难的解决方案是，通过新的工具、基础设施和方法，创建具有挑战性的基准测试，重点关注 AI 安全和社会影响。

该公司特别呼吁进行测试，评估模型完成诸如实施网络攻击、“增强” 大规模杀伤性武器（例如核武器）和操纵或欺骗人们(例如通过 Deepfakes 或虚假信息)等任务的能力。对于涉及国家安全和国防的 AI 风险，Anthropic 表示致力于开发一种 “预警系统”，以识别和评估风险，尽管在博客文章中没有透露这样的系统可能包含什么。

Anthropic 还表示，它打算通过新计划支持基准测试和 “端到端” 任务的研究，探索 AI 在科学研究、多语言交流和减少根深蒂固的偏见以及自我审查毒性方面的潜力。

为了实现这一目标，Anthropic 设想了新的平台，允许学科专家开发自己的评估，并涉及 “数千” 用户的模型大规模试验。该公司表示，已经为该计划聘请了一名全职协调员，并可能购买或扩大具有潜力的项目。

Anthropic 支持新的 AI 基准测试的努力是值得称赞的 —— 当然，前提是有足够的资金和人力支持。但考虑到该公司在 AI 竞赛中的商业野心，完全信任它可能是困难的。

Anthropic 还表示，它希望其计划将成为 “推动进展的催化剂，实现全面 AI 评估成为行业标准的未来。” 这是许多开放的、不隶属于公司的努力所能认同的使命。但是，这些努力是否愿意与其忠诚度最终归属于股东的 AI 供应商合作，尚有待观察。

扩展阅读

Anthropic预览Claude AI：革新桌面应用，重塑工作未来界面

Anthropic 3天前

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/61629.html

文章标签

Anthropic

文明上网，理性发言，共同做网络文明传播者

提交