约翰斯霍普金斯大学跨学科

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

论文标题:Play to Generalize: Learning to Reason Through Game Play论文链接:https://arxiv.org/abs/2506.08011项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

成本极低:无需人工标注,可无限扩展效果显著:零数学样本超越数学专训模型拓展性强:可以组合多个任务进一步提升性能通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/50107.html

(0)
上一篇 2025年8月11日
下一篇 2025年8月11日

相关推荐

  • 奥克兰大学世界qs排名

    许多人都是带着配偶和子女一起移民新西兰,未来子女需在新西兰读书。 那么新西兰有哪些大学世界有名,世界排名如何,新西兰的大学世界认可度高吗? 新西兰大学世界排名 以下数据来自国际高等教育研究机构QS发布的2025年世界大学排名,从这个排名可以看出新西兰大学的质量如何。 1、奥克兰大学:QS排名65 新西兰综合实力最强的大学,长期位列世界百强大学之列。 优势学科…

    2025年6月3日
  • 卡尔加里大学和阿尔伯塔大学哪个好

    2025 年 QS 世界大学排名 前 50 名:多伦多大学(第 25 位)、麦吉尔大学(第 29 位)、不列颠哥伦比亚大学(第 38 位)。 51-200 名:阿尔伯塔大学(第 96 位)、滑铁卢大学(第 115 位)、韦仕敦大学(西安大略大学,第 120 位)、蒙特利尔大学(第 159 位)、麦克马斯特大学(第 176 位)、渥太华大学(第 189 位)、…

    2025年9月16日
  • 清华大学留学桥(清华大学留学桥国际班)

    又是一年七夕至,金风玉露相逢时。天上有“鹊桥仙缘”,清华园中亦有形态各异的桥。 我们遍走园中,寻得石、铁、木桥二十五座。桥上人来人往,桥下静水流深。霞漫星散,日月其中;春夏秋冬,朝朝暮暮…… 01 校河周边 清华校河属于万泉河水系 从清华西门入校后分为两支 一支向北拐去 经过绿园 绕过校医院 流过大礼堂、西大操场后向北转弯 形成倒过来的“之”字形 沿这一支流…

    2023年10月8日
  • 德州学院学报是几级报刊

    风靡全国的东路大鼓 作者 台见新 “东路大鼓”是一个地域概念,她是在山东东部广为流行的民间小调的基础上,经过历代民间演唱艺人的不断艺术加工,至明清时期广泛流传的一种曲艺演唱形式。主要流行于山东东部的青州府、莱州府、登州府以及武定府(现今惠民一带)部分地区。为区别流行于山东西部的济南府、兖州府、东昌府(现今聊城一带)的“西路大鼓”,称“东路大鼓”。 (1) “…

    2025年6月19日
  • 吉隆坡湖滨公园(吉隆坡湖滨公园酒店)

    吉隆坡的 秘密花园 Secret spots 带 您 跳 出 旅 游 指 南 当境外游重新开放时, 吉隆坡会触动你的旅游小达人上线吗? 那唐人街隐蔽的小巷、 市中心郁郁葱葱的花园, 足够你在吉隆坡 隐秘的角落度过欢快的一天。 吉隆坡各处深藏着众多吃喝玩乐的好去处。 值得一提的是, 某些有意思的地方 隐藏在城市的各个角落,鲜为人知。 如果你觉得你对这座城市已经…

    2023年10月29日
  • 阿拉马州大学排名

    巴基斯坦,被誉为“圣洁的土地”、“清真之国”。95%以上的居民信奉伊斯兰教,是一个多民族伊斯兰国家。国语为乌尔都语。巴基斯坦位于南亚次大陆西北部,南濒阿拉伯海,东接印度,东北邻中国,西北与阿富汗交界,西邻伊朗。 巴基斯坦全境五分之三的国土为山区和丘陵地。其中喜马拉雅山、喀喇昆仑山和兴都库什山这三条世界上著名的大山脉在巴基斯坦西北部汇聚。巴基斯坦全国领土为88…

    2025年3月14日
  • 泰晤士高等教育排名_

    昨天和前天我们大概介绍了一下国内目前各大高校在世界范围内的排名,其中一家很有名的国际性的世界大学排名机构就是泰晤士高等教育世界大学排名,又译为THE世界大学排名。是由英国《泰晤士高等教育》发布的世界大学排名。该排名每年更新一次,以教学、研究、论文引用、国际化、产业收入等5个范畴共计13个指标,为全世界最好的1000余所大学排列名次 。为保证排名的公正和透明,…

    2024年3月16日
  • 广州市最好的国际学校

    近日 大学第三方评价课题组的 《世界大学第三方指数研究报告(2024)》 正式出炉! 注:世界大学第三方指数(Third-party University Ranking Indexes,简称TUI),呈现的是全球范围内的大学被第三方评价机构进行评价排名的综合情况,大学第三方指数并不直接评价大学的质量和水平,而是通过指数得分间接反映大学在当前主要的第三方评价…

    2024年12月26日
  • 美国加州州立理工大学波莫纳分校

    很多时候说到加州大学波莫纳分校同学都会以为这是美国公立大学系统的一个校区,但是其实这两所院校并不是同一所,加州大大学波莫纳分校应该指的是加州州立理工大学波莫纳分校,是美国加州一所比较知名的公立大学,今天就一起来了解一下加州大学波莫纳分校的相关情况。 加州大学波莫纳分校介绍 加州大学波莫纳分校位于美国加州波莫纳市,是一所公立研究型大学,建立于1938年,学校历…

    2024年9月5日
  • 范德堡大学咖啡研究所

    学校简历 范德堡大学(Vanderbilt University),又名范德比尔特大学,是位于美国田纳西州纳什维尔市的一所私立研究型大学。学校创立于1873年,是闻名全美的名牌大学,也是位于美国南方的少数的顶级名校之一(其他南方名校有Duke、Emory、Rice等),属于25所新常春藤盟校列,2023 U.S. News美国最佳大学排名第13名。 以其出色…

    2025年9月2日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信