当前位置：首页 > 资讯 > 科技 > 昆仑万维揭晓Skywork-Reward模型：革新大模型激励机制，重塑AI奖励策略领域

昆仑万维揭晓Skywork-Reward模型：革新大模型激励机制，重塑AI奖励策略领域

昆仑万维 2024-09-17 09:03:20 爱吃爆米花

近日消息，昆仑万维科技股份有限公司骄傲宣布，其推出的Skywork-Reward-Gemma-2-27B与Skywork-Reward-Llama-3.1-8B两款奖励模型，在国际顶级评估平台RewardBench上展现出色性能，尤其Skywork-Reward-Gemma-2-27B荣登榜首，赢得RewardBench官方的极大赞誉，标志着中国企业在AI奖励模型领域的重大突破。

奖励模型在强化学习中占据核心地位，对智能体在不同状态下的表现进行评估，并提供奖励信号指导智能体的学习过程，使其能够在特定环境下做出最优选择。在大语言模型的训练中，奖励模型的作用尤为关键，有助于模型更准确地理解和生成符合人类偏好的内容。

RewardBench是一个专门评估大语言模型中奖励模型有效性的基准测试榜单，通过多项任务对模型进行综合评估，包括对话、推理和安全性等领域。该榜单的测试数据集由提示词、被选响应和被拒绝响应组成的三元组构成，用以测试奖励模型是否能够在给定提示词的情况下，将被选响应正确地排在被拒绝响应之前。

昆仑万维的Skywork-Reward模型通过精心挑选的偏序数据集和相对较小的基座模型进行开发，与现有奖励模型相比，其偏序数据仅来源于网络公开数据，并通过特定筛选策略获得高质量的偏好数据集。这些数据涵盖了广泛的主题，包括安全性、数学与代码等，并经过人工验证，确保数据的客观性和奖励差距的显著性。

经过测试，昆仑万维的奖励模型在对话、安全性等领域展现了出色的表现，尤其在面对困难样本时，只有Skywork-Reward-Gemma-2-27B模型给出了正确的预测。这一成就标志着昆仑万维在全球AI领域的技术实力和创新能力，同时也为AI技术的发展和应用提供了新的可能性。

扩展阅读

昆仑万维发布“天工大模型4.0”4o版及实时语音助手Skyo：宣称能克服大模型幻觉

昆仑万维 2024-11-23 09:02

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/87893.html

文章标签

昆仑万维

文明上网，理性发言，共同做网络文明传播者

提交

暂无评论内容

微信扫一扫：分享

昆仑万维揭晓Skywork-Reward模型：革新大模型激励机制，重塑AI奖励策略领域