约翰斯霍普金斯大学跨学科

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

论文标题:Play to Generalize: Learning to Reason Through Game Play论文链接:https://arxiv.org/abs/2506.08011项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

成本极低:无需人工标注,可无限扩展效果显著:零数学样本超越数学专训模型拓展性强:可以组合多个任务进一步提升性能通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/50107.html

(0)
上一篇 2025年8月11日
下一篇 2025年8月11日

相关推荐

  • 全国985有多少学校

    时值2024高考志愿填报季,学校和专业,哪个更重要?实际上并没有统一的标准。但就分数有优势的孩子来说,一般学校优先,不必过度纠结专业。 为什么呢? 首先,著名高校所提供的资源与软环境是一般高校难以企及的,包含学习与发展机会,周围同学与老师的间接影响等等。 其次,不可否认的是,本科出身是很多企业招聘初筛的第一道门槛。本科学校无法改变,但专业上却有广泛的调整机会…

    2024年11月8日
  • 出国留学的大学生如何申请

    有人总结说: 大一迷茫:向上看,学长在做什么? 大二彷徨:左右看,室友在做什么? 大三反思:向后看,我将来做什么? 大四恐慌:向内看,我究竟要什么? 如何做好开学准备,怎样度过大学四年,你想好了吗? 来听听大家的意见和建议吧,关于入学准备、学习、军训等各个方面,一定会对你有启发的。 01 准大学生开学之入学报到必备清单 准大学生们即将步入大学,你们的行李物品…

    2024年12月15日
  • 湖北经济学院网大排名

    根据 2024 年校友会中国大学最新排名数据显示,湖北经济学院在全国大学排名中位列第 198 位,而在全国财经类高校中名列第 20 位。这个排名不仅展示了湖北经济学院的学术水平,也突显了它在财经学科领域的深厚底蕴。 湖北经济学院的全国排名及其学科优势 湖北经济学院在全国大学的排名中名列第 198 位,虽然这一排名看似并不显赫,但它背后承载的是学校在教学质量、…

    2025年8月12日
  • 温莎大学硕士申请条件

    温莎大学 www.uwindsor.ca 2021年麦考林杂志综合类大学排名第十四位 院校简介 温莎大学是加拿大最南端的公立大学,有着加拿大最温和的气候。位于加拿大安大略省温莎市的温莎大学,早从1857年大学就开始了她对高质量高等教育的求索。温莎大学坐落在美加边境的五大湖区,北美洲的工业心脏。温莎市交通便利,人口20万,是加国旅游及工业重镇,戴姆拉-克莱斯勒…

    2024年12月20日
  • 英国留学申请季

    想要24年9月入学的同学们,你们的申请季已经开始了,你们准备得怎么样了?部分院校已经开放了网申通道,还没有做好留学规划和申请准备的同学可要抓紧时间了哦! 当然,很多同学只是产生了留学的想法,对于要做的准备并不算了解,很容易陷入茫然: “我是谁?我在哪?我要干什么?” “留学要去哪?要提前做什么准备?什么时候开始提交?” 小编见到过很多这样茫然不知所措的同学,…

    2024年1月28日
  • 热那亚音乐学院招生

    Genova Conservatorio Statale di Musica "Niccolò Paganini" – Genova 热那亚音乐学院也被称为热那亚“帕格尼尼”音乐学院,位于意大利最大的港口城市、利古里亚大区的首府–热那亚市,是一所成立于1829年的高等音乐学院。热那亚音乐学院开设了多层次的专业与课程…

    2024年1月3日
  • 中国前20位大学排行榜

    中国各大学的排名变化受到许多因素的影响,包括学术研究、师资力量、教学质量和国际声誉等。以下是根据2024年的数据和相关资料整理的一份中国大学排行榜。为了更准确地反映当前的情况,所列数据结合了多种排名和评估标准,如《QS世界大学排名》、《Times Higher Education(THE)世界大学排名》、《ARWU世界大学学术排名》等。 1. 清华大学 位置…

    2024年8月28日
  • 泰国留学真实情况_泰国留学真实情况怎么样

    我叫黄舒雅,2015年高考失败后,在留学中介的忽悠下,花了32万头脑发热的跑去泰国留学。在泰国留学回来后,如今过了7年,肠子都悔青了。今天跟大家分享一下我的留学、求职经历,希望对大家有所帮助。 1997年,我出生在湖北恩施。当年因为计划生育,我成了家里的独生子女。从小到大,我就成了家里的唯一希望。父母长年在深圳打工,我在老家上学,跟着爷爷奶奶一起生活,成了典…

    2024年2月16日
  • 智利大学vs科布雷索

    智利大学全队身价1727万英镑,4连胜,得失球6-1; 科布雷索全队身价937万英镑,1平3负,得失球4-7; 智利大学实力强于科布雷索,新赛季表现更是差距巨大,不过交锋不占优势; 近8次交手智利大学1胜2平5负; 主场交锋:智利大学2胜1平2负; 智利大学:近10轮各项赛事,7胜1平2负,联赛处于4连胜中,其中3次零封对手,表现极好; 科布雷索:近10轮各…

    2025年2月24日
  • 澳大利亚专业排名雅思_澳大利亚专业排名雅思多少分

    无论是澳洲本地学生,还是国际留学生,都一定听过澳大利亚的八校联盟(简称‘八大’),也就是相当于澳洲的“985院校”。这八校除了拥有毋庸置疑的强大学术研究实力外,更有下面不可不知的重要事实: *所有曾就读于澳大利亚大学的诺贝尔奖得主都来自八校联盟成员大学。83%的现任澳大利亚国家政府部长均是毕业于八校联盟大学的校友 *八校联盟成员大学的师生比例远远高于一般大学…

    2024年3月1日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信