约翰斯霍普金斯大学跨学科

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

论文标题:Play to Generalize: Learning to Reason Through Game Play论文链接:https://arxiv.org/abs/2506.08011项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

成本极低:无需人工标注,可无限扩展效果显著:零数学样本超越数学专训模型拓展性强:可以组合多个任务进一步提升性能通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/50107.html

(0)
上一篇 2025年8月11日
下一篇 2025年8月11日

相关推荐

  • 日本最容易上的大学

    国内就业卷成麻花,35岁就被扫地出门? 看看隔壁日本,大把岗位空缺还搞终身雇佣制! 今年七月最新数据,68.7%中国留学生选择留日工作。 但别天真,以为是个大学就能进丰田索尼——选错学校照样吃闭门羹。 东大京大名气响? 丰田工业笑了。 全校就500人,挤进世界400强企业的比例吊打所有名校。 人家玩的就是精准狙击,教授带着做三菱商事实战项目,作业直送上市公司…

    2025年9月9日
  • 纽约大学水牛城分校春季入学时间

    2025年高考大幕即将拉开,今年高考形势严峻,选择高考&留学双保险的学生及家长也越来越多。 美国拥有全球一流的高等教育质量,世界级名校众多,而且学制灵活,全球影响力大,吸引了大量学生前往留学,那么,高考后还来得及去美国留学吗?高考后美国留学有什么途径呢? 前面成都太古留学分享过2025年高考后英国本科留学方案,高考后也来得及去美国留学,今天就给大家分…

    2025年6月24日
  • 莱斯大学相当于什么档次

    莱斯大学世界大学排名在2020年《美国新闻与世界报道》世界大学500强排名108,2020年QS世界大学排名85,2020年《泰晤士高等教育》世界大学排名105,2020年CWUR世界大学排名TOP1000109,2020年世界大学学术表现排名(URAP)TOP1000336。 莱斯大学特色 莱斯大学采用小班制教学,校园不大,确是美丽、和谐的,师生之间的互动…

    2025年6月23日
  • 莫纳什大学怎么申请

    莫纳什大学申请流程如下,一、开学时间,学在每年的2月和7月开学。二、申请周期,申请周期一般在4-6周,如果是申请高峰会慢一点4-8周。三、准备周期:大三的下半学期是申请硕士课程的最佳时间,可以赶上7月毕业无缝本硕连读的末班车。申请本科课程的学生,可在高二上半学期或大一上半学期着手准备。四、签证周期,电子签证周期目前在4-8周,普通签证周期在12周左右。五、申…

    2024年8月9日
  • 国家c9大学名单排名

    #此生必驾G318城野生活新选择# 距离今年的高考已经过去了整整一个月的时间,今年高考各省市的出分阶段已经结束,现阶段各位考生和家长在等待的就是各大高校的录取情况了。各个高校在各省市录取分数线将会在后续时间公布,这其实关系到了很多考生的命运,毕竟能否被心仪的高校录取,将会决定这个考生后续的发展。而今天我们就一起来看看我国大陆的31座省市,在今年高考各个档次院…

    2024年8月4日
  • 荷兰留学一年费用

    荷兰,位于欧洲西北部,是一个风景优美、制度完善、社会高度发达的国家。作为欧盟、申根区、北约和联合国等多个国际组织的重要成员,荷兰在国际事务中具有较强的话语权。它虽然国土面积不大,仅相当于中国重庆市的面积,但经济发展高度集中,拥有众多世界级跨国公司,如壳牌(Shell)、飞利浦(Philips)、联合利华(Unilever)、ING集团等。 根据世界银行公布的…

    2025年11月4日
  • 中金公司:海尔金盈拟减持不超2.1964%公司股份

    【中金公司:海尔金盈拟减持不超2.1964%公司股份】中金公司8月9日公告,股东海尔金盈计划自公告披露之日起3个交易日结束后的3个月内(即2024年8月15日至2024年11月14日期间),通过大宗交易方式或集中竞价交易方式,减持合计不超过106,026,300股公司A股股份,占不超过公司总股本的2.1964%。

    2024年8月12日
  • 美国高中排名前50名名单

    这些学校在学术和发展方面都有着出色表现,为学子们提供了丰富的学习资源和成长机会。无论你是优秀学子还是家长,都值得关注这份备受认可的名单,或许会成为你未来教育选择的灵感之一! 2023-2024 US.news 美国最佳高中TOP15 The Early College at Guilford 排名:1 吉尔福德早期大学(The Early College a…

    2023年12月12日
  • 韩国最好的大学排名

    在全球大学排名中,亚洲地区(韩国、中国、日本、新加坡等)的大学表现强劲,而美国和西欧大学则呈下滑趋势。 泰晤士高等教育于9日发布了2026年世界大学排名。 韩国首次有四所大学进入前100名,创下历史纪录。首尔大学(第58位)、韩国科学技术院(第70位)、延世大学(第86位)和成均馆大学(第87位)均榜上有名。首尔大学自2023年版排名以来,首次进入前60名。…

    2025年11月5日
  • 保加利亚首都(保加利亚首都索菲亚)

    索非亚有大约100多万人口,是保加利亚的首都,也是该国主要的文化和经济中心。这座城市非常古老,历史悠久,是一座有着古老历史和人文气息的城市。因此,索非亚保留了许多历史上的纪念碑和地标,例如东门、圣索非亚大教堂、总统府和圣乔治圆形大厅。 在欧洲范围看,索非亚是一个相当有活力并且舒适国际化的欧洲城市,这座城市有充满活力的夜生活,这里有许多酒吧、购物中心、城市海滩…

    2023年11月5日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信