文章	评论	标签
241	12	1

论文原文

论文摘要

生成式奖励模型（也称为 LLM-as-Judge ），即使用大语言模型（LLMs）来评估答案质量的模型，正越来越多地被应用于具有可验证奖励的强化学习（RLVR）。相比僵化的基于规则的指标，尤其是在涉及自由形式输出的复杂推理任务中，这类模型通常更受青睐。在这一范式下，通常会提示一个 LLM 将候选答案与真实参考答案进行对比，并分配一个表示正确性的二元奖励。
尽管这项比较任务看似简单，但我们发现，生成式奖励模型对表面性操纵表现出惊人的脆弱性：非文字符号（例如“:”或“.”）或诸如“Thought process:”和“Let’s solve this problem step by step.”之类的推理引导语，往往会导致错误的正向奖励。我们证明，这种弱点广泛存在于不同的 LLM、数据集和提示格式中，对依赖于生成式奖励模型的核心算法范式构成了严重威胁，如拒绝采样（rejection sampling）、偏好优化（preference optimization）和 RLVR。
为缓解这一问题，我们提出了一种简单而有效的数据增强策略，并训练了一个具有显著提升鲁棒性的新生成式奖励模型。我们的研究结果突显了开发更可靠的基于 LLM 的评估方法的紧迫性。我们在以下地址发布了鲁棒且适用于通用领域的奖励模型及其合成训练数据：
https://huggingface.co/sarosavo/Master-RM 和
https://huggingface.co/datasets/sarosavo/Master-RM 。

论文首先描述了 一种导致错误正向评判的现象 ，然后提供了一个可以克服此现象的模型：Master-RM。

由图可见， 此现象在不同的数据集、不同的大模型上均存在 ，而Master-RM对误导性的“Master Key”具有良好的抵抗效果。

研究背景

许多后训练方法中一个广受认可的原则是：评估一个回答通常比生成一个回答更容易。随着大语言模型（LLMs）作为“裁判”（judges）的兴起，这一理念得到了进一步推动。这些方法利用 LLM 强大的生成能力和泛化能力来执行评估任务，例如对候选答案进行排序或打分，其结果与人类判断的一致性常常超过 80%。
在此趋势基础上，近期研究提出将 LLM 用作生成式奖励模型（generative reward models），应用于具有可验证奖励的强化学习（RLVR），旨在取代传统基于规则的奖励函数——后者往往缺乏灵活性。在该方法中，提示一个 LLM 将策略模型生成的答案与参考答案进行比较，并输出一个表示两者是否一致的奖励信号。该奖励随后指导策略模型的后续更新。
通过利用 LLM 的生成能力，这种方法使 RLVR 能够突破传统依赖结构化答案的领域限制，扩展到更广泛的推理任务中，包括那些涉及开放式或非结构化输出的任务。

这段文字表明，在RLVR中，LLM被指示将模型生成的答案与参考答案比较，然后判定它们之间的相似度或者匹配度如何，之后，用这个结论来指导模型的训练。这应该是一个广泛应用的方法，而 文章后续指出其潜在问题 ：

然而，在我们使用 Qwen2.5-72B-Instruct 作为生成式奖励模型的一项 RLVR 实验中，我们观察到了一种失败模式：在训练初期，策略模型（actor policy）的响应长度急剧下降至不到 30 个词元，并在此后一直维持在这一水平（见图 2），这是训练崩溃的一个明显信号。
为了调查这种失败模式，我们在推理阶段分析了模型的行为，发现它频繁生成简短、表面化的推理引导语，例如“Solution”、“Thought process:” 或 “Let’s solve this problem step by step.”。这些内容总是被生成式奖励模型赋予正向奖励。一个示例展示在图 3 中。
这表明，RLVR 系统受到了奖励模型欺骗（reward model hacking）的影响，导致其强化了一些无意义的模式，从而无法进行有效的学习。
更令人惊讶的是，这种欺骗现象并不仅限于我们的特定 RLVR 设置。在后续对多个数据集和大语言模型（LLM）的测试中，我们发现即使是极其简短的回复，包括非文字符号如“:”，也常常足以引发奖励模型的错误正向反馈。

这段文字详细地描述了RLVR系统发生“Collapse”的现象，即 RLVR训练到一定程度后，输出会发生急剧缩短 。

主要贡献

我们的主要贡献总结如下：
我们发现了 LLM 裁判（即生成式奖励模型）在 RLVR 中使用的关键漏洞。当与参考答案进行对比时，仅包含非文字符号或推理引导语（如 “Thought process:”）的回复，也能持续获得正向奖励。我们将这类对抗性回复称为本工作中所指的“成功密码（master keys）”。
我们在多种模型和数据集上进行了系统性评估，使用了十种不同的“成功密码”回复，展示了这一现象的广泛性和普遍性。我们的分析进一步探讨了该现象的模型规模扩展行为以及生成新型“成功密码”的技术。此外，我们还证明，使用推理阶段的防御策略并不能可靠地缓解此类攻击。
为了解决这一问题，我们提出了一种简单但有效的应对策略：使用合成的负样本扩充奖励模型的训练数据。基于该方法，我们训练了一个新的通用领域奖励模型——Master Reward Model （Master-RM），它在多个数据集上对“成功密码”攻击展现了最先进的鲁棒性。
我们公开了增强鲁棒性的奖励模型 Master-RM 及其合成训练数据，以推动未来在该方向上的研究。

团队发现了问题、分析了问题的成因、提出了解决问题的方案。

方法论

在本节中，我们介绍 RLVR 框架中的奖励建模设置，以及利用 LLM 裁判漏洞的“成功密码攻击（master key attacks）”概念。随后，我们将提出我们的方法——训练一个鲁棒的奖励模型，以抵御此类攻击。

文章首先指出，RLVR可被理解为一个函数：

一个LLM裁判的作用，就如同这样一个函数，给到一个问题 q 、一个由策略模型生成的回答 r ，以及一个参考答案 a，输出一个二元信号 y ∈ {YES, NO} ，用于判断在给定问题 q 的情况下，回答 r 是否与参考答案 a 一致。该判断的准确性和可靠性直接影响策略模型所接收到的训练信号。任何系统性的判断错误都可能对策略学习过程产生负面影响。

在本研究中，我们识别出一类具有对抗性质的模式，并将其称为“成功密码 ”（master keys）。令人惊讶的是，当这些模式作为回答 r 使用时，即使它们在语义上对解决问题毫无意义，也能从多种 LLM 裁判中触发正向判断。

文章接下来指出，有一些被称为“成功密码”的文本，即便毫无意义，也可以引发正向判断。这些模式可以分为两类：

非文字符号： 包括标点符号，如 “.”、“:” 等；
推理引导语： 涉及一些自然语言表达，用于表示推理过程的开始或结构，但尚未提供实质内容，例如 “Thought process:”、“Solution”、“Let’s solve this problem step by step.” 等。

这一发现揭示了奖励建模机制中的一个关键且未被充分关注的漏洞：原本用于筛选无效或错误答案的验证器（verifier），却可能被极其简单、表面性的内容所操纵，从而产生错误的正向反馈。这严重削弱了依赖此类验证器提供反馈的所有 RLVR 流水线的可靠性与有效性。
为缓解由“成功密码”（master keys）引发的攻击问题，我们构建了一个新的奖励模型（RM），命名为 Master Reward Model （Master-RM），该模型被专门设计用于抵御此类攻击，同时保留良好的通用领域验证能力。
我们的方法基于 Su 等人（2025）提出的训练框架。他们发布了一个包含 160,000 条数据的训练集，每条数据由一个四元组 (q, a, r, y) 组成。在这个数据集中，对于每个问题 q ，回答 r 是由策略模型生成的，而标签 y 则是由一个更大的模型（即 Qwen2.5-72B-Instruct）提供的，作为“教师评分员”来判断在给定问题 q 和参考答案 a 的情况下，回答 r 是否正确。
利用这个数据集，Su 等人（2025）通过监督微调训练得到了 Multi-sub RM。相比 GPT-4o 或 LLaMA3-70B-Instruct 等通用大语言模型，该模型更不容易被“成功密码”误导。然而，在一个复杂的通用推理基准测试中，它仍然对某些表达（如 “Thought process:”）存在超过 10% 的假阳性率。

文章在训练时，不再采用传统的RLVR模式，而是引入一个新的参数y，作为“评分员的评分员”，检查评分是否合理，由此训练出可以抵御“成功密码”的Master-RM。

文章给出如下示例：

我们将这些示例标记为“NO”，表示无效或无意义的回复。然后，我们将这20k个负样本与原始的160k数据集合并，构建了一个包含180k示例的新训练语料库。这个增强后的数据集既包含了完全有效的带标注实例，也包含了明显无效的推理开头干扰项。基于该数据集，我们对Qwen2.5-7B-Instruct（与多子RM所使用的相同基础模型）进行监督微调，从而得到了我们的Master-RM。

文章所述训练过程，目标是最小化标准交叉熵损失函数：

其中，Dorig表示原始的160k数据集，而 Daug代表20k的反欺骗增强样本集。Pθ表示奖励模型对标签 y∈{YES, NO} 的预测概率。有关奖励模型训练的更多细节，请参见附录A.2。
实验结果表明，该模型具有出色的泛化能力：尽管仅在一小部分有针对性的负样本上进行训练，它在所有五个大规模、多领域基准测试中，针对所有测试的“成功密码”（master keys）均实现了接近零（甚至为零）的误报率（false positive rate）。这表明，通过对训练数据的一个子集进行有针对性的增强，可以显著提升奖励模型的鲁棒性，并且这种鲁棒性可以泛化到未见过的数据集和攻击手段中。
虽然本研究主要关注的是推理开头中的引导性线索，但在推理过程的中间或结尾也可能出现类似的推理提示，例如反映反思、自我验证或回溯行为的语句。我们鼓励未来的研究在更广泛的推理与认知行为模式背景下，进一步探索生成式奖励模型（generative RMs）的表现与应用。

文章结论

奖励模型间的易受攻击性比较

文章发现，奖励模型易受攻击的现象普遍存在：

表1展示了十个“成功密码”在不同模型和数据集下引发的误报率（FPR）。显然，通用大语言模型（LLMs），包括如GPT-4o、Claude-4和GPT-o1等广受信任的模型，对极简响应表现出令人惊讶的脆弱性。具体而言，仅由标点组成的回复（例如“:”）即可在GPT-4o中引发高达35%的误报率。而当回复为“Thought process:”时，在LLaMA3-70B-Instruct和Qwen2.5-72B-Instruct等先进的开源LLMs中，所有基准测试下的误报率甚至高达60%-90%。此外，我们还观察到多语言标记（例如中文“解”）也经常触发误报，这可能是因为它们外观无害且在多种问答数据集中频繁出现。
虽然专用的奖励模型（RMs）通常比通用LLMs具有更强的抗攻击能力，但它们对于“成功密码”攻击仍表现出不可忽视的漏洞。例如，General Verifier（Ma et al., 2025a）在MATH数据集上使用一个简单的空格作为提示时，显示出高达66.8%的误报率。相比之下，我们的Master-RM在所有攻击下均保持近乎零误报率（即接近0% FPR），验证了其出色的鲁棒性。
综上所述，我们的结果突显了当前LLM作为评判器系统中普遍存在的“被破解”现象及其安全性漏洞，即使是最先进的商业模型也不例外。

LLM评判器性能评估

文章进一步确认，其训练的Master-RM 在抵抗“成功密码”攻击的情况下，可以保证评判能力不受影响 。

在表2中，我们评估了我们的模型在提升鲁棒性的同时是否牺牲了其基本的推理判断能力。为了确保测试数据的覆盖范围，我们构建了一个包含2,500个混合推理示例的基准测试集（从五个基准数据集中均匀采样），并使用Qwen2.5-7B-Instruct生成回答。我们将每个奖励模型的输出与GPT-4o进行对比，以衡量一致性。
结果显示，我们的Master-RM实现了100%的解析成功率，并与GPT-4o达到了0.96的一致性率，在所有被评估的LLMs中表现最佳。尽管GPT-4o自身也存在“成功密码”攻击的漏洞（见表1），它仍然是社区中广泛使用的RM评估黄金标准。因此，与GPT-4o的高度一致表明，我们的模型在减少因提示词攻击导致的误奖励的同时，仍然保持了作为生成式奖励模型的优秀性能。

一个 Token 就能欺骗 LLM 裁判

MikeWu597

论文原文

论文摘要

研究背景

主要贡献

相关研究

RLVR 中的基于规则的奖励机制

生成式奖励（LLM 作为裁判）

LLM 作为裁判的漏洞

方法论

文章结论

奖励模型间的易受攻击性比较

LLM评判器性能评估

文章目录