生成式语言模型从其训练阶段迈向实际应用之际,遭遇了重重挑战。其中,在推理阶段达成最佳效果这一问题格外突出。
当下所采用的一些办法,像是凭借人类反馈的强化学习(RLHF),主要着眼于提高模型获胜的概率。然而,这种方式大多忽略了推理阶段的解码策略,诸如Best - of - N采样以及控制解码等情况。这种训练时的目标和实际运用时的情况存在脱节现象,极有可能造成效率不高,并且对输出的质地和可靠性产生不良影响。
为了化解这些问题,谷歌DeepMind和谷歌的研究团队精心开发出了InfAlign这一机器学习框架。InfAlign致力于与推理策略相融合,其目的在于填补训练和应用之间存在的差距。它运用一种经过校准的强化学习手段,来对依据特定推理策略的奖励函数进行调整。InfAlign对于Best - of - N采样(通过生成多个响应然后挑选其中最优的)以及Worst - of - N(这常常用于安全评估)之类的技术有着特殊的功效,能够保证已经实现良好对齐的模型不管是在受控的环境里,还是在现实的场景当中都能够有出色的表现。
目前的对策,如通过人类反馈的强化学习(RLHF),主要集中在提高模型的胜率上,但往往忽视了推理时的解码策略,例如 Best-of-N 采样和控制解码。这种训练目标与实际使用之间的差距,可能导致效率低下,影响输出的质量和可靠性。
为了解决这些问题,谷歌 DeepMind 和谷歌研究团队开发了 InfAlign,这是一个旨在与推理策略相结合的机器学习框架。InfAlign 将推理时的方法纳入对齐过程,力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样(生成多个响应并选择最佳者)和 Worst-of-N(常用于安全评估)等技术特别有效,确保对齐的模型在控制环境和现实场景中都能表现良好。
InfAlign 的核心是校准与变换强化学习(CTRL)算法,该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景,InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率,还保持了计算效率。此外,InfAlign 增强了模型的鲁棒性,使其能够有效应对各种解码策略,并产生一致的高质量输出。
在使用 Anthropic 的有用性和无害性数据集进行的实验中,InfAlign 的有效性得到了验证。与现有方法相比,InfAlign 在 Best-of-N 采样的推理胜率上提高了8%-12%,在 Worst-of-N 安全评估中则提高了4%-9%。这些改进得益于其校准的奖励变换,有效解决了奖励模型的误校准问题,确保了在不同推理场景下的一致表现。
InfAlign 在生成语言模型的对齐方面代表了一项重要的进展。通过结合推理感知的策略,InfAlign 解决了训练与部署之间的关键差异。它扎实的理论基础和实证结果凸显了其在全面改善 AI 系统对齐方面的潜力。
文明上网,理性发言,共同做网络文明传播者