ucb哪个大学

最近几个月来,可验证奖励强化学习(RLVR,Reinforcement Learning with Verifiable Rewards)愈发受到学界关注。相比起传统的基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback,)带来的高昂成本和人类偏见,RLVR 通过引入可自动验证的奖励信号(如数学问题的标准答案、代码测试用例的通过情况)在一定程度上降低了对人工标注的依赖,但是,其应用范围又受限于那些能够提供清晰、可验证奖励的特定领域,因此限制了模型在更广泛、更开放场景中的应用。

近日,来自美国加州大学伯克利分校(UCB,University of California,Berkeley)的一支研究团队给这个问题带来了新的解法,他们提出了一种名为 INTUITOR 的方法,使大模型能够仅凭其“内在信心”进行学习和推理,无需外部奖励或真值答案的指引。相关论文以《无需外部奖励的学习推理》(Learning to Reason without External Rewards)为题发表在预印本网站arXiv 上,迅速引发了广泛关注。

图丨相关论文(来源:arXiv)

挣脱外部奖励的枷锁——RLIF 与 INTUITOR 的诞生

我们知道,尽管 RLHF 在提升模型表现方面卓有成效,但由于它需要大量的人工标注,就导致其成本高昂且可能引入偏见。最近这段时间以来,研究者们转向了基于可验证奖励的强化学习,这种方法在数学问题解决和代码生成等任务中,使用可自动验证的信号(如精确答案匹配)作为奖励。RLVR 避免了学习奖励模型的复杂性,并在 DeepSeek-R1 等模型上展现了强大的推理能力。

然而,RLVR 同样也有一定的局限,它需要领域特定的验证器和“黄金标准”解决方案,例如数学问题需要专家标注答案,代码生成则需要全面的测试用例和执行环境。这些要求将 RLVR 的应用限制在精心策划的领域内,并且其以结果为导向的奖励机制也限制了模型向其他领域的迁移能力。

那么,有没有可能大模型在没有外部验证器或领域特定真值的情况下,仅仅依靠其内在信号来提升推理能力呢?

正是基于这一问题,UCB 的研究团队提出了“基于内部反馈的强化学习”(RLIF,Reinforcement Learning from Internal Feedback)这一全新框架。RLIF 的核心思想是,模型可以通过优化其自身产生的内在信号来提升性能,而无需依赖外部奖励或监督信息。这为模型在未来可能发展出超越人类评估能力的场景提供了自洽的改进机制。

在 RLIF 框架下,团队进一步提出了具体的实现方法——INTUITOR。INTUITOR 巧妙地将模型自身的“信心”(confidence),更准确地说是“自我确定性”(self-certainty),作为唯一的奖励信号。这一想法源于一个直观的观察:无论是人类还是大模型,在面对难题或缺乏相关知识时,通常会表现出较低的信心;反之,当其对某个答案或推理过程更有把握时,信心水平会更高,并且这种高信心往往与正确性相关联。

那么,如何量化模型的“自我确定性”呢?研究团队借鉴了他们在 2025 年 2 月发表的另一篇重要工作《通过自我确定性为大型语言模型提供可扩展的 N 次最佳选择》(Scalable Best-of-N Selection for Large Language Models via Self-Certainty)。在该工作中,他们提出使用模型输出 Token 的概率分布与均匀分布之间的平均 KL 散度(Kullback-Leibler divergence)来度量自我确定性。

图丨相关论文(来源:arXiv)

简单来说,如果模型对其预测的下一个 Token 非常确定(即概率高度集中在少数几个 Token 上),那么其输出分布会远离均匀分布,KL 散度值会较大,代表自我确定性高。这种度量方式被证明在从多个候选答案中挑选高质量答案时非常有效,并且相比于困惑度(perplexity)或熵(entropy)等其他启发式方法,更不容易受到输出长度等因素的干扰,也更能随着候选答案数量的增加而提升其效用。

INTUITOR 将这种自我确定性评分直接作为强化学习过程中的奖励信号,并结合了现有成熟的强化学习算法,如“组相对策略优化”(Group Relative Policy Optimization, GRPO),来指导模型的策略更新。在 GRPO 算法中,通常需要外部奖励来评估一组候选输出的优劣;而在 INTUITOR 中,外部奖励被完全替换为模型自身计算出的自我确定性分数。通过这种方式,模型被激励去生成那些能让自己“更自信”的输出序列,从而在没有外部监督的情况下实现学习和推理能力的提升。

“自信”就能学会复杂推理

为了验证 INTUITOR 的有效性,研究团队进行了一系列实验。他们使用 Qwen2.5-1.5B 和 Qwen2.5-3B 作为基础模型,在 MATH 数据集上进行训练。实验结果发现,在领域内的数学基准测试(如 GSM8K 和 MATH500)中,INTUITOR 的表现与使用外部奖励的 GRPO 相当,甚至在某些情况下(如使用 Qwen2.5-3B 模型),INTUITOR 在 GSM8K 上的准确率达到了 79.2%,略低于 GRPO 的 82.6%,但在 MATH500 上达到了 61.2%,也略低于 GRPO 的 63.6%。

(来源:arXiv)

研究团队还对比了一种称为 GRPO-PV 的变体方法,该方法使用多数投票(plurality voting)作为一种弱监督信号,模拟了不依赖真值答案的场景。结果显示,INTUITOR 的表现与 GRPO-PV 相当,进一步证明了其在无监督环境下的学习能力。

INTUITOR 最大的优势在于其跨任务泛化能力。当将在 MATH 数据集上训练的 Qwen2.5-3B 模型应用于代码生成任务 LiveCodeBench 时,INTUITOR 展现出了高达 65% 的相对性能提升;而在 CRUXEval-O 代码任务上,INTUITOR 也取得了 76% 的增益,显著优于仅获得 44% 增益的 GRPO 方法,后者在代码生成任务上甚至没有表现出明显提升。这或许表明,通过优化内在的自我确定性信号,模型不仅能在训练领域内取得进步,还能将学到的“元认知”能力迁移到全新的、结构迥异的任务上。

图丨在 MATH 上训练的模型在 MATH500(同域)和 LiveCodeBench(迁移)上的性能演变(来源:arXiv)

除了在具体任务上的性能提升,研究还揭示了 INTUITOR 对模型行为的一些深层影响。例如,INTUITOR 能够显著提升模型的指令遵循能力,在 AlpacaEval 这类评估指令遵循度的基准上取得了比 GRPO 更好的成绩。这意味着模型不仅学会了如何“自信地”解决问题,还学会了如何更好地理解和执行指令。

更有意思的是,研究团队观察到,经过 INTUITOR 训练的模型,即使在没有明确要求的情况下,也会自发地生成更长的、更具结构化的推理链条。例如,在处理 CRUXEval-O 任务时,模型会先进行一番自然语言形式的“自由思考”,然后才将最终答案组织成指令所要求的 JSON 格式。

在代码生成任务中,也观察到了类似的“代码前自然语言推理”现象。这种行为表明,为了提升自身的“确定感”,模型倾向于将复杂问题分解,并进行更详尽的思考,这恰恰是复杂推理能力的重要体现。此外,INTUITOR 训练的模型在学习初期就展现出比 GRPO 更快的学习速度,这可能得益于自我确定性这种连续且过程感知的内在奖励信号,它能引导模型探索更有效的学习轨迹。

另一个重要的发现是,INTUITOR 所采用的在线自我确定性机制(即奖励信号随着模型策略的进化而动态调整)能够有效防止“奖励利用”(reward hacking)问题。在强化学习中,如果奖励模型是静态的,策略模型很容易找到奖励模型的漏洞,并生成一些表面上得分很高但实际质量很差的输出。实验对比显示,如果使用一个固定的(离线的)自我确定性打分器,模型很快就会学会通过生成冗余内容等方式来“欺骗”打分器,导致性能崩溃。而 INTUITOR 的在线机制则避免了这一问题,保证了训练的稳定性和鲁棒性。

迈向更自主的 AI

论文作者之一、UCB 博士后研究员 Xuandong Zhao 在其社交媒体上分享了这项研究的历程。

Zhao 在其推文中提到,这项研究的种子始于去年秋天,当时本科生 Zhewei Kang 主动联系他希望合作开展研究。他们从两个关键观察出发:一是在考试中,人们对自己有信心的题目往往回答得更准确;二是大模型是否也能展现出这种“信心约等于正确性”的模式?这启发了他们对“自我确定性”这一概念的探索。

图丨相关推文(来源:X)

他们发现,现有的启发式方法如熵和困惑度在衡量模型信心方面存在输出长度敏感、存在偏见以及随样本量增加扩展性差等问题。于是,他们提出了一个关键洞见:衡量每个 Token 的输出分布与均匀分布的距离,即前述的 KL 散度,这构成了“自我确定性”度量的基础,并催生了他们 2 月份关于“通过自我确定性实现可扩展的 Best-of-N 选择”的论文。INTUITOR 正是这一系列研究思路的自然延伸和深化,将自我确定性从答案选择标准提升为驱动整个强化学习过程的内在奖励。

如果这一方法确实有效,它或将为训练更自主、更通用的 AI 系统提供一条极具潜力的新路径。通过摆脱对外部奖励和人类监督的强依赖,INTUITOR 有望大幅降低训练成本,并使 AI 能够在缺乏先验知识或难以获得反馈的新领域中进行探索和学习。有网友就评论道:“如果这行得通,我们将在其他领域看到与编程和数学中相同类型的进步。”

图丨相关评论(来源:X)

其次,INTUITOR 的成功表明,预训练的大模型可能拥有比我们先前认知中更为丰富的隐性行为先验。这些先验知识和能力可以通过恰当的内在激励机制被“解锁”和“塑造”,从而展现出惊人的推理和泛化能力。

再者,该研究提出的 RLIF 框架和自我确定性作为内在奖励的思路,也可能对于未来构建能够进行自我改进、甚至可能超越人类能力的 AI 系统具有重要启示。当 AI 系统发展到其能力边界超出人类评估范围时,基于内在一致性和自我确定性的学习机制将变得至关重要。

不过,目前的实验主要集中在相对较小的模型和数据集上,未来需要将 INTUITOR 扩展到更大规模的基础模型和更多样化的真实世界数据上进行验证。例如,有研究者担心“奖励利用”和“模型崩溃”或许会在更大规模模型上可能成为潜在的障碍。

图丨相关评论(来源:X)

事实上,团队在研究中就发现了将 INTUITOR 扩展到更大模型(Qwen2.5-7B 和 Qwen2.5-14B)时会遇到新的问题。他们提到,最初的训练方案在较大模型上会引发严重的行为崩溃。通过简化系统提示、调整学习率和增加采样响应数量等方式,学习过程方得到了初步的稳定(团队强调这些设置是“首次的、未经调整的尝试”,而非全面的超参数优化)。

但如果为了防止更大模型的奖励利用,最终仍需依赖带有真值验证的复杂超参数调整,那么 INTUITOR 方法在“无需外部奖励”方面的核心优势就可能会被削弱。

因此,如何在扩展到更大模型时,继续保持这种内在奖励机制的有效性和免监督特性,将是未来研究中一个值得关注的重要方向。

参考资料:

1.https://www.arxiv.org/pdf/2505.19590

2.https://x.com/xuandongzhao/status/1927270931874910259

3.https://arxiv.org/pdf/2502.18581

运营/排版:何晨龙

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/56871.html

(0)
上一篇 2025年9月10日
下一篇 2025年9月10日

相关推荐

  • 伦敦诺丁汉特伦特大学

    在全球化深入发展的时代背景下,学生对于国际化教育和优质教育资源的需求日益增长。厦门大学国际学院作为厦门大学直属的公办学院,为有志于海外深造的学子提供了多元化、高层次的升学路径。特别是在2025年国家高考招生政策持续优化的新形势下,该学院国际本科项目的特色优势得到进一步彰显,致力于助力学生进入世界知名学府深造。 活动链接 为了让更多学生和家长深入了解厦门大学国…

    2025年8月25日
  • 南洋理工大学qs排名

    就在上周,QS2026亚洲大学排名重磅发布! 图源:QS世界大学排名官微 今年的亚洲大学排名覆盖25个高等教育体系的1529所院校,其中558所为首次上榜,榜单规模再次刷新。 2026亚洲大学排名有哪些黑马院校?一起了解下~ 01 排名指标 QS 亚洲大学排名并非单纯的 “实力排序”,其 11 项评价指标全面覆盖学术地位、毕业生就业能力、研究质量与生产力、校…

    2025年11月17日
  • 大学有些什么专业

    医生一时间长,老来香 医生,这个职业常被赋予救死扶伤的神圣使命。虽然学医之路漫长且艰辛,需要投入大量的时间和精力,但正是这份长时间的积累和沉淀,使得医生在职业生涯的后期越发受到社会的尊敬和认可。他们凭借丰富的经验和精湛的技术,成为医疗领域的佼佼者,赢得了“老来香”的美誉。 老师一卷学历,受尊敬 老师,作为知识的传播者和灵魂的工程师,他们的工作需要扎实的专业基…

    2024年5月26日
  • 北欧留学申请条件

    近年来,北欧以其众多的优势吸引了留学生的到来。下面就为大家介绍一下北欧留学的申请条件及北欧留学的优势吧! 北欧本科申请条件: 1.良好的语言基础:托福550或雅思6分。 2.高中毕业证书和成绩单 北欧硕士申请条件: 1.良好的语言基础:托福550或雅思6分以上,部分学校需要托福575或雅思6.5分以上。 2.申请研究生课程需要提供相关专业的大学毕业证书、成绩…

    2025年11月11日
  • 哈佛大学20条校训_哈佛大学20条校训,每一条都很震撼

    哈佛大学是美国本土历史最悠久的高等学府,世界顶级名校。截止至2019年10月,哈佛大学共培养了包括富兰克林·罗斯福、贝拉克·奥巴马在内的8位美利坚合众国总统,而哈佛的校友、教授及研究人员中共产生了160位诺贝尔奖得主(世界第一)。 哈佛大学培养出数以万计的企业精英,并不是偶然,除了和哈佛大学的培养理念和方式息息相关以外,学生本身的坚持和努力更是关键。 让我印…

    2024年3月19日
  • 211南方大学

    一觉醒来,有一所大学赢麻了,其校友频频冲上热搜。 几天前,继DeepSeek之后,又一款国产AI——Manus刷屏网络,其背后创始人肖弘毕业于这所大学的软件工程专业。 也是最近几天,海尔老总周云杰因为一个拘谨的笑容意外走红,被迫“出道”,而他也毕业于这所大学,就读于焊接专业。 这所风头正盛的大学就是华中科技大学。 01 沉默的绿色巨人 华中科技大学在官方笔下…

    2025年4月14日
  • 广州华立学院2023年学费

    这学费,一年就要35000块!说的是华南农业大学珠江学院,这可不是个小数目。 为啥这么贵?人家说了,环境设计这个专业,用的都是VR虚拟设计实验室,一套设备就得8万块。学生一个星期能用上15个小时。 而且教课的老师,十个里有九个是从外国艺术学校回来的,一年工资平均就是30万。这钱,花得明明白白。这个学费和中央美术学院比,贵了差不多两倍多,因为学校转成了民办,以…

    2025年7月10日
  • 上海:推进张江高新区改革创新发展 建设世界领先科技园区

    上海市人民政府办公厅印发《关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见》的通知 沪府办规〔2023〕23号 各区人民政府,市政府各委、办、局: 《关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见》已经市政府同意,现印发给你们,请认真按照执行。 上海市人民政府办公厅 2023年11月22日 关于推进张江高新区改革创新发展建设世界领先…

    2023年12月6日
  • 拉筹伯大学世界排名多少

    澳大利亚墨尔本大学在QS全球大学排名中取得了澳洲高等教育机构历史上高排名,同时还有三所澳洲大学首次跻身世界前20名! 这一上升是由于排名公式的变化,增加了可持续性和就业结果等因素,并降低了学术声誉和师生比重的重要性。 2024年的QS世界大学排名显示,墨尔本大学排名继续上升——去年是全球排名前50名中的澳洲大学——今年又上升了19个名次,从第33位升至第14…

    2023年12月15日
  • 鲁东大学录取查询入口

    齐鲁网·闪电新闻8月12日讯 截止到8月12日,山东已有多所高校开启2020年高考录取查询通道。以下是闪电新闻记者整理的部分山东高校录取查询通道,包括中国海洋大学、中国石油大学(华东)、临沂大学、泰山学院等21所高校。其他高校亦可通过学校官网、公众号和省教育招生考试院查询。(山东省教育招生考试院http://www.sdzk.cn/) 山东省2020普通高考…

    2025年8月15日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信