ucb哪个大学

2025年9月10日上午10:50 • 出国留学 • 阅读 108

最近几个月来，可验证奖励强化学习（RLVR，Reinforcement Learning with Verifiable Rewards）愈发受到学界关注。相比起传统的基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback,）带来的高昂成本和人类偏见，RLVR 通过引入可自动验证的奖励信号（如数学问题的标准答案、代码测试用例的通过情况）在一定程度上降低了对人工标注的依赖，但是，其应用范围又受限于那些能够提供清晰、可验证奖励的特定领域，因此限制了模型在更广泛、更开放场景中的应用。

近日，来自美国加州大学伯克利分校（UCB，University of California，Berkeley）的一支研究团队给这个问题带来了新的解法，他们提出了一种名为 INTUITOR 的方法，使大模型能够仅凭其“内在信心”进行学习和推理，无需外部奖励或真值答案的指引。相关论文以《无需外部奖励的学习推理》（Learning to Reason without External Rewards）为题发表在预印本网站arXiv 上，迅速引发了广泛关注。

图丨相关论文（来源：arXiv）

挣脱外部奖励的枷锁——RLIF 与 INTUITOR 的诞生

我们知道，尽管 RLHF 在提升模型表现方面卓有成效，但由于它需要大量的人工标注，就导致其成本高昂且可能引入偏见。最近这段时间以来，研究者们转向了基于可验证奖励的强化学习，这种方法在数学问题解决和代码生成等任务中，使用可自动验证的信号（如精确答案匹配）作为奖励。RLVR 避免了学习奖励模型的复杂性，并在 DeepSeek-R1 等模型上展现了强大的推理能力。

然而，RLVR 同样也有一定的局限，它需要领域特定的验证器和“黄金标准”解决方案，例如数学问题需要专家标注答案，代码生成则需要全面的测试用例和执行环境。这些要求将 RLVR 的应用限制在精心策划的领域内，并且其以结果为导向的奖励机制也限制了模型向其他领域的迁移能力。

那么，有没有可能大模型在没有外部验证器或领域特定真值的情况下，仅仅依靠其内在信号来提升推理能力呢？

正是基于这一问题，UCB 的研究团队提出了“基于内部反馈的强化学习”（RLIF，Reinforcement Learning from Internal Feedback）这一全新框架。RLIF 的核心思想是，模型可以通过优化其自身产生的内在信号来提升性能，而无需依赖外部奖励或监督信息。这为模型在未来可能发展出超越人类评估能力的场景提供了自洽的改进机制。

在 RLIF 框架下，团队进一步提出了具体的实现方法——INTUITOR。INTUITOR 巧妙地将模型自身的“信心”（confidence），更准确地说是“自我确定性”（self-certainty），作为唯一的奖励信号。这一想法源于一个直观的观察：无论是人类还是大模型，在面对难题或缺乏相关知识时，通常会表现出较低的信心；反之，当其对某个答案或推理过程更有把握时，信心水平会更高，并且这种高信心往往与正确性相关联。

那么，如何量化模型的“自我确定性”呢？研究团队借鉴了他们在 2025 年 2 月发表的另一篇重要工作《通过自我确定性为大型语言模型提供可扩展的 N 次最佳选择》（Scalable Best-of-N Selection for Large Language Models via Self-Certainty）。在该工作中，他们提出使用模型输出 Token 的概率分布与均匀分布之间的平均 KL 散度（Kullback-Leibler divergence）来度量自我确定性。

图丨相关论文（来源：arXiv）

简单来说，如果模型对其预测的下一个 Token 非常确定（即概率高度集中在少数几个 Token 上），那么其输出分布会远离均匀分布，KL 散度值会较大，代表自我确定性高。这种度量方式被证明在从多个候选答案中挑选高质量答案时非常有效，并且相比于困惑度（perplexity）或熵（entropy）等其他启发式方法，更不容易受到输出长度等因素的干扰，也更能随着候选答案数量的增加而提升其效用。

INTUITOR 将这种自我确定性评分直接作为强化学习过程中的奖励信号，并结合了现有成熟的强化学习算法，如“组相对策略优化”（Group Relative Policy Optimization, GRPO），来指导模型的策略更新。在 GRPO 算法中，通常需要外部奖励来评估一组候选输出的优劣；而在 INTUITOR 中，外部奖励被完全替换为模型自身计算出的自我确定性分数。通过这种方式，模型被激励去生成那些能让自己“更自信”的输出序列，从而在没有外部监督的情况下实现学习和推理能力的提升。

“自信”就能学会复杂推理

为了验证 INTUITOR 的有效性，研究团队进行了一系列实验。他们使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作为基础模型，在 MATH 数据集上进行训练。实验结果发现，在领域内的数学基准测试（如 GSM8K 和 MATH500）中，INTUITOR 的表现与使用外部奖励的 GRPO 相当，甚至在某些情况下（如使用 Qwen2.5-3B 模型），INTUITOR 在 GSM8K 上的准确率达到了 79.2%，略低于 GRPO 的 82.6%，但在 MATH500 上达到了 61.2%，也略低于 GRPO 的 63.6%。

（来源：arXiv）

研究团队还对比了一种称为 GRPO-PV 的变体方法，该方法使用多数投票（plurality voting）作为一种弱监督信号，模拟了不依赖真值答案的场景。结果显示，INTUITOR 的表现与 GRPO-PV 相当，进一步证明了其在无监督环境下的学习能力。

INTUITOR 最大的优势在于其跨任务泛化能力。当将在 MATH 数据集上训练的 Qwen2.5-3B 模型应用于代码生成任务 LiveCodeBench 时，INTUITOR 展现出了高达 65% 的相对性能提升；而在 CRUXEval-O 代码任务上，INTUITOR 也取得了 76% 的增益，显著优于仅获得 44% 增益的 GRPO 方法，后者在代码生成任务上甚至没有表现出明显提升。这或许表明，通过优化内在的自我确定性信号，模型不仅能在训练领域内取得进步，还能将学到的“元认知”能力迁移到全新的、结构迥异的任务上。

图丨在 MATH 上训练的模型在 MATH500（同域）和 LiveCodeBench（迁移）上的性能演变（来源：arXiv）

除了在具体任务上的性能提升，研究还揭示了 INTUITOR 对模型行为的一些深层影响。例如，INTUITOR 能够显著提升模型的指令遵循能力，在 AlpacaEval 这类评估指令遵循度的基准上取得了比 GRPO 更好的成绩。这意味着模型不仅学会了如何“自信地”解决问题，还学会了如何更好地理解和执行指令。

更有意思的是，研究团队观察到，经过 INTUITOR 训练的模型，即使在没有明确要求的情况下，也会自发地生成更长的、更具结构化的推理链条。例如，在处理 CRUXEval-O 任务时，模型会先进行一番自然语言形式的“自由思考”，然后才将最终答案组织成指令所要求的 JSON 格式。

在代码生成任务中，也观察到了类似的“代码前自然语言推理”现象。这种行为表明，为了提升自身的“确定感”，模型倾向于将复杂问题分解，并进行更详尽的思考，这恰恰是复杂推理能力的重要体现。此外，INTUITOR 训练的模型在学习初期就展现出比 GRPO 更快的学习速度，这可能得益于自我确定性这种连续且过程感知的内在奖励信号，它能引导模型探索更有效的学习轨迹。

另一个重要的发现是，INTUITOR 所采用的在线自我确定性机制（即奖励信号随着模型策略的进化而动态调整）能够有效防止“奖励利用”（reward hacking）问题。在强化学习中，如果奖励模型是静态的，策略模型很容易找到奖励模型的漏洞，并生成一些表面上得分很高但实际质量很差的输出。实验对比显示，如果使用一个固定的（离线的）自我确定性打分器，模型很快就会学会通过生成冗余内容等方式来“欺骗”打分器，导致性能崩溃。而 INTUITOR 的在线机制则避免了这一问题，保证了训练的稳定性和鲁棒性。

迈向更自主的 AI

论文作者之一、UCB 博士后研究员 Xuandong Zhao 在其社交媒体上分享了这项研究的历程。

Zhao 在其推文中提到，这项研究的种子始于去年秋天，当时本科生 Zhewei Kang 主动联系他希望合作开展研究。他们从两个关键观察出发：一是在考试中，人们对自己有信心的题目往往回答得更准确；二是大模型是否也能展现出这种“信心约等于正确性”的模式？这启发了他们对“自我确定性”这一概念的探索。

图丨相关推文（来源：X）

他们发现，现有的启发式方法如熵和困惑度在衡量模型信心方面存在输出长度敏感、存在偏见以及随样本量增加扩展性差等问题。于是，他们提出了一个关键洞见：衡量每个 Token 的输出分布与均匀分布的距离，即前述的 KL 散度，这构成了“自我确定性”度量的基础，并催生了他们 2 月份关于“通过自我确定性实现可扩展的 Best-of-N 选择”的论文。INTUITOR 正是这一系列研究思路的自然延伸和深化，将自我确定性从答案选择标准提升为驱动整个强化学习过程的内在奖励。

如果这一方法确实有效，它或将为训练更自主、更通用的 AI 系统提供一条极具潜力的新路径。通过摆脱对外部奖励和人类监督的强依赖，INTUITOR 有望大幅降低训练成本，并使 AI 能够在缺乏先验知识或难以获得反馈的新领域中进行探索和学习。有网友就评论道：“如果这行得通，我们将在其他领域看到与编程和数学中相同类型的进步。”

图丨相关评论（来源：X）

其次，INTUITOR 的成功表明，预训练的大模型可能拥有比我们先前认知中更为丰富的隐性行为先验。这些先验知识和能力可以通过恰当的内在激励机制被“解锁”和“塑造”，从而展现出惊人的推理和泛化能力。

再者，该研究提出的 RLIF 框架和自我确定性作为内在奖励的思路，也可能对于未来构建能够进行自我改进、甚至可能超越人类能力的 AI 系统具有重要启示。当 AI 系统发展到其能力边界超出人类评估范围时，基于内在一致性和自我确定性的学习机制将变得至关重要。

不过，目前的实验主要集中在相对较小的模型和数据集上，未来需要将 INTUITOR 扩展到更大规模的基础模型和更多样化的真实世界数据上进行验证。例如，有研究者担心“奖励利用”和“模型崩溃”或许会在更大规模模型上可能成为潜在的障碍。

图丨相关评论（来源：X）

事实上，团队在研究中就发现了将 INTUITOR 扩展到更大模型（Qwen2.5-7B 和 Qwen2.5-14B）时会遇到新的问题。他们提到，最初的训练方案在较大模型上会引发严重的行为崩溃。通过简化系统提示、调整学习率和增加采样响应数量等方式，学习过程方得到了初步的稳定（团队强调这些设置是“首次的、未经调整的尝试”，而非全面的超参数优化）。

但如果为了防止更大模型的奖励利用，最终仍需依赖带有真值验证的复杂超参数调整，那么 INTUITOR 方法在“无需外部奖励”方面的核心优势就可能会被削弱。

因此，如何在扩展到更大模型时，继续保持这种内在奖励机制的有效性和免监督特性，将是未来研究中一个值得关注的重要方向。

参考资料：

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

运营/排版：何晨龙

声明：壹贝网所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流，版权归原作者wangteng@admin所有，原文出处。若您的权利被侵害，请联系 756005163@qq.com 删除。

本文链接：https://www.ebaa.cn/56871.html

斯洛文尼亚有哪些大学

上一篇 2025年9月10日

复旦大学附属中学学费

下一篇 2025年9月10日

出国留学

马来西亚留学硕士读几年

虽然现在随着社会不断发展，各国之间不断深入地交接，出国留学早已不是一件新鲜的事情。不过对于很多人来说，出国留学是既兴奋又恐惧的，但人总要踏出自己的舒适圈，才会发现无限可能。在决定出国留学前太多东西需要考虑，例如如何择校、专业选择、学业规划、怎么毕业等。这时就不得需要有留学咨询平台的帮助。而现在英美澳加等往年留学地因为政治、疫情等诸多因素导致留学生数量申请人…

2025年10月30日
出国留学

湖南的大学有哪些学校

2025年ABC中国大学排行榜（湖南）的发布，再次展现了湖南省高等教育的蓬勃发展格局。中南大学、湖南大学、湖南师范大学稳居前三甲，分别以全国第25、32、88位的成绩，持续领跑省内高等教育。值得关注的是，在头部阵营之外，湖南农业大学（农林类全国137位）、长沙理工大学（理工类141位）、南华大学（综合类192位）等特色院校在细分领域持续深耕，形成了错位发展…

2025年6月23日
出国留学

兰卡斯特大学学费

上海外国语大学与英国兰卡斯特大学的 2+2 本科留学项目中，2025 年学生在兰卡斯特大学一年的学费约为24700 英镑。需要注意的是，该学费标准并非固定不变，学校每年会对学费做适当调整，最终费用还需以兰卡斯特大学官网公布的最新学费标准为准。此外，该项目还提及英国移民局规定的生活费约 9840 英镑 / 年，这部分费用也需学生另行承担。

2026年1月9日
出国留学

美国哥伦比亚大学和宾夕法尼亚

砍经费、下“国际禁招令”、威胁剥夺免税地位、发起多项调查……对顶尖学府哈佛大学连番打压后，美国总统特朗普意欲再下狠手。据新华社报道，特朗普26日威胁称，如果哈佛不提交外国学生名单，联邦政府将考虑削减该校30亿美元拨款，并将其划拨给全美各地的职业学校。迄今为止，面对联邦政府的“霸凌”，哈佛没有像其他大学那样屈服，而是选择“硬刚”。一边是权力金字塔的塔尖，…

2025年7月24日
出国留学

香港留学本科申请条件

近些年来，众多内地高中生已然开始把前往港澳地区攻读本科当作自身未来的升学规划。正是由于申请人数与日俱增，香港本科留学的申请竞争也日渐激烈起来！想知道去香港读本科的内地学生的申请条件有哪些？达到怎样的要求和成绩才能够在众多申请者中脱颖而出呢？今天，无忧留学就带大家详细了解，照着这些要求来准备，港校追着录取你！一、香港本科留学申请条件要求是什么？ 1、学术成…

2025年10月27日
出国留学

上海纽约大学招生_上海纽约大学招生官网

上海纽约大学2024年计划在全国招收251名本科生（不含港澳台地区），招生计划不做分省安排。今日（10月1日），上海纽约大学发布该校2024年本科招生简章。所有申请报考上海纽约大学的学生，都必须登录「上海纽约大学本科申请系统」进行实名注册，根据系统提示填写相关个人基本信息、上传相应资料并完成一篇文书，于2024年1月1日前在线提交，并使用A4规格纸张打印…

2024年3月18日
出国留学

莱佛士大学在中国认可吗

1、英文（或者源语言）校名：Universitiy Islam Antarabangsa Malaysia 院校中文校名：马来西亚国际伊斯兰大学院校性质：公立大学 2、英文（或者源语言）校名：Universiti Kebangsaan Malaysia 院校中文校名：马来西亚国民大学院校性质：公立大学 3、英文（或者源语言）校名：Universitiy …

2025年9月16日
出国留学

美国公立大学研究生学费_美国公立大学研究生学费一览表

#美国留学# 美国留学一直处于热门阶段，申请人数也是不断呈现上浮趋势，去美国留学费用构成一般为学费、学杂费、住宿费、饮食出行费、留学申请费用及其他费用等。美国留学费用也是众多学生和家长比较关注的，去美国留学的这些费用也会根据所选院校、专业、所处地理位置不同而有所差别。小编从公立、私立、学费、以及不同城市生活费等各方面为大家详列的一个美国留学费用清单，希望能对…

2024年3月29日
出国留学

马来西亚理科大学博士专业目录

恭喜汇书教育的刘同学获得理科大学体育博士录取通知书！那么借这个机会，我们来了解一下马来西亚理科大学和它的体育博士吧！学校介绍：马来西亚理科大学（Universiti Sains Malaysia, USM），简称“理大”“USM”，成立于1969年。马来西亚理科大学位于马来西亚槟城，槟城州是一个岛州（还包括大陆上狭长的一部分），坐落在马来…

2026年1月9日
出国留学

送孩子去日本留学好吗

各位读者好，我是留学找学长网的追梦学姐。很多父母在考虑是否送孩子出国留学时，常常反复思考一个问题：“我们投入这么多，到底希望孩子得到什么？只是为了一个听起来不错的工作吗？” 从短期来看，确实如此。然而放眼更长远的未来，当不少孩子仍在国内高考中面临激烈竞争时，选择日本留学或许为他们提供了另一种成长的路径。在这条路上，孩子所获得的远不止一纸毕业证书，更包括诸多影…

2025年11月12日

ucb哪个大学

联系我们

400-800-8888

ucb哪个大学

相关推荐

联系我们

400-800-8888