约翰斯霍普金斯大学跨学科

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

论文标题:Play to Generalize: Learning to Reason Through Game Play论文链接:https://arxiv.org/abs/2506.08011项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

成本极低:无需人工标注,可无限扩展效果显著:零数学样本超越数学专训模型拓展性强:可以组合多个任务进一步提升性能通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/50107.html

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • 麻省大学农学研究生学费

    前言:这是一篇来自公众号达恩留学的文章,能够有效帮助想要留学美国的同学了解更多院校信息,值得一看! 麻省理工学院成立于1861年,是一所享誉全球的顶尖学府。在2025年QS世界大学排名中,麻省理工学院再次蝉联榜首,连续13年稳居第一,彰显了其在全球高等教育领域的卓越地位。MIT以其卓越的工程、科学、技术、管理及艺术等领域的学术研究和教学质量闻名于世,培养了众…

    2025年1月8日
  • 哥伦比亚城市排名_哥伦比亚城市排名前十

    【南美侨报网编译门凌霄报道】治安是哥伦比亚政府最注重的公共问题之一。然而,墨西哥非政府组织“公共安全和刑事司法公民委员会”最近的一份报告指出,哥伦比亚有8个城市被列入2023年“全球最暴力50座城市”。 哥伦比亚《哥伦比亚人报》2月28日报道,“公共安全和刑事司法公民委员会”是墨西哥一个民间组织,目前由多个商业、学术、大学和工会组织组成。该组织每年都会发布报…

    2024年4月11日
  • 师范专业就业前景排名

    这些年来,就业形势不容乐观,大家在选大学挑专业的时候纷纷选择好就业的、热门的。近几年,师范类大学的报考热度是不断上升,是人们心目中理想的工作。成为一名人民教师,相当于是拥有了一个“铁饭碗”,不仅工作轻松,薪资待遇也非常好,还有暑假和寒假这种特别的待遇。 随着国家对教师政策的扶持,改善教师的社会地位,提高教师的收入,无数的好消息说明了教师的春天要来了。选择教师…

    2024年1月3日
  • 一天一价!NAND晶圆价格涨势正猛 明年缺货潮要来了?

    据台湾电子时报消息,业内消息人士称,存储厂商近期严格控制出货,下游内存模块厂几乎抢不到货,NAND晶圆的报价频率从此前的逐季报价,缩短至如今的逐日报价。 在过去的3-4年间,内存行业报价模式基本稳定,合约价均以季度为单位来敲定价格,但之后行业景气急转直下,市场价格从高点下跌超过70%。在预期跌价的心态下,各家模块厂改为逐月向原厂议价。但随着原厂集体减产,NA…

    2023年11月10日
  • 广西艺术学院是几本_广西艺术学院是几本院校

    建国后的广西艺术学院由满谦子、陈烟桥、陈良等艺术家恢复创建。 目前,广西艺术学院有36个本科专业和11个高职专业。学院的知名校友有弦子、黄觉、乔振宇、雷滢、廖彬曲、贾剑龙、艾菲、高峻等。 广西艺术学院属于二本院校,录取分数在二本分数线。如果你的分数在二本线100分以上可以选择大部分专业。 广西艺术学院的毕业生一般的就业去向有四个,分别是:设计公司、培训机构、…

    2024年3月8日
  • 加州大学洛杉矶分校硕士申请条件

    每年美国名校都会紧贴时代脉搏与就业市场趋势,推出新的硕士项目,这些新兴项目为渴望逆袭名校的申请者开辟了宝贵机遇! 为何关注新设硕士项目? 竞争相对缓和:新项目知名度尚在建立中,通常申请人数少于成熟项目。录取标准可能更具弹性:为吸引多元化的优质生源并提升项目影响力,学校在项目设立初期有时会展现出更大的灵活性,在学术背景、标化成绩(如GRE/GMAT)或工作经验…

    6天前
  • 华北协和女子大学

    张姗(中国社会科学院民族学与人类学研究所副研究员) 早在19世纪30年代,教会学校就已经在中国的土地上出现,但教会学校的快速发展是在鸦片战争特别是第二次鸦片战争之后,因为此时清政府和西方列强签订的众多条约为其提供了合法保障。 北京地区的教会学校多为第二次鸦片战争之后建立。1861年美国公理会(The American Board of Commissione…

    2024年12月8日
  • 东方财富财经早餐 8月5日周二

    每日精选 境外收入监管: 近期有纳税人收到了税务部门通知,告知其需要依法办理境外所得申报并缴纳相应税款。有的纳税人表示,自己在境外投资股票,并且单笔交易有赚有亏,不知是否应该缴纳税款。专家表示,根据我国个人所得税法,个人股票交易所得属于财产转让所得,应当适用20%的税率按次征收,在境外直接进行股票交易所得没有免税规定,需要在取得所得的次年申报纳税。 军工: …

    2025年8月5日
  • 世界排名前十的大学印度

    点蓝字关注,不迷路~ 今年以来,有关制造业外移东南亚、印度的的争论甚嚣尘上,参照中国的发展路径,其实制造业的承接是一个复杂问题,涉及人口红利与用工成本、产业配套、工程师红利等,或许我们也可以从中印高校排名和国内高等教育现状得出一些启示。印度顶级高校相当于国内什么水平?6月9日,国际高等教育研究机构QS Quacquarelli Symonds发布了第十九版全…

    2024年9月29日
  • 世界书籍最多的学校

    6月17日,U.S. News官网发布的2025-2026年度全球最佳院校排名显示,中国高校共有15所进入百强,较去年13所高校有所增加。其中,清华大学位列全球大学第11、亚洲第一,是唯一进入前20名的中国高校。北京大学位列全球第25。 U.S.News 2025-2026年度全球最佳院校排名前20名。澎湃新闻据U.S.News官方信息制图 进入全球最佳院校…

    2025年6月26日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信