约翰斯霍普金斯大学跨学科

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

论文标题:Play to Generalize: Learning to Reason Through Game Play论文链接:https://arxiv.org/abs/2506.08011项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

成本极低:无需人工标注,可无限扩展效果显著:零数学样本超越数学专训模型拓展性强:可以组合多个任务进一步提升性能通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/50107.html

(0)
上一篇 2025年8月11日
下一篇 2025年8月11日

相关推荐

  • 美国休斯敦大学博士全额奖学金

    电子科技大学学生袁鹏宇 有一种心酸叫上班还没上学有钱。电子科技大学一名大四学生一年拿了奖学金五万七,并成功申请美国休斯顿大学直博项目全额奖学金,未来五年的读书奖励金额超过百万! 今年获得的奖学金项目: 唐立新奖学金一万 国家奖学金 八千 成电杰出学生一万五 国家留学基金委出国项目资助二万四 共五万七千元 即将得到的: 获得美国休斯顿大学直博项目全额奖学金 包…

    2025年9月12日
  • 学校代码是什么意思

    高校代号和高校代码有什么区别?报考时应该如何区分? 每个人从出生开始,父母都会为他们起一个名字,并且将这个名字登记在户口本上,从此这个名字将会一直跟随终生。因此,名字就是你的代号,是你的一个称呼而已,只要说到这个名字,大家都知道是你。这样做就不会搞错了,每个人都有自己的名字,这样社会秩序才能够井井有条。那么对于高校来说,在志愿填报以及招生的过程当中,每所高校…

    2024年8月29日
  • 曼彻斯特大学申请要求

    想必同学们在准备英国留学的时候都有考虑过曼彻斯特大学吧,⛳️曼彻斯特大学作为英国一直很热门的院校,受到很多留学生的偏爱.▶️本篇就给大家一起分享一下有关英国留学之曼彻斯特大学各专业申请条件、一年费用还有学制时长吧.▶️曼彻斯特大学,简称“曼大”,是英国著名的六所“红砖大学”之一,⛳️英国“常春藤联盟”罗素大学集团的创始成员之一,2024年QS排名位列32。….

    2025年1月4日
  • 科廷大学相当于国内哪个大学

    科廷新加坡非常重视学生的就业问题,除了定期举办职业发展的辅导学生必要的求职技能之外,每年9月会举办大型的名企招聘会,数十家本地及国际知名企业在科廷新加坡现场招聘。 科廷大学新加坡校区的入学要求 科廷大学提供了桥梁课程——文凭阶段,帮助未达到本科正式入学条件的学生顺利过渡。 大一文凭阶段一(等同于预科) 时长:8个月 入学要求: 完成中国高二年级的学业,成绩达…

    2025年7月30日
  • 英国雷丁大学白骑士校区

    雷丁大学(University of Reading)位于英国 -英格兰南部伯克郡首府雷丁,始建于1892年, 曾是牛津大学基督教会学院所创立的分院,后于 1926年得到英国皇家宪章授权,成为一所独立大学,是英国著名的红砖大学之一。 雷丁大学已成为世界领先的研究型大学,被誉为 推动学术边界拓展和引领社会变革的创新者和先 行者,大学距离伦敦市中心很近,交通便利…

    2024年11月10日
  • 博特拉大学和宁波诺丁汉哪个好

    千军万马过独木桥的2022年高考已经结束了,又到了一年一度选择高校的日子,最近QS也发布了2023年全球世界大学排名。 世界大学排名金像奖 QS世界大学排名,由研究机构Quacquarelli Symonds荣誉出品,成为了世界大学排名的“奥斯卡”金像奖。今年共有1422所高校参评,国内共有71所高校入围。 虽然QS是目前全球查阅量最大,参考最广的世界大学排…

    2024年10月31日
  • 留学艺术培训课程

    对于怀揣艺术梦想的学生而言,英美两国凭借顶尖的艺术教育资源、多元的创作氛围和广阔的就业前景,成为艺术留学的首选目的地。但面对繁杂的院校选择、差异化的申请要求和热门专业的激烈竞争,“上岸” 之路往往充满迷茫。本文将为艺术生整理一份超实用的英美艺术留学上岸攻略,同时盘点那些值得冲的 “王炸艺术专业”,助力大家精准定位、高效申请! 一、英美艺术留学核心差异:选对赛…

    2026年1月16日
  • 宾夕法尼亚大学一年留学费用

    宾夕法尼亚大学(简称“宾大”)作为常春藤盟校,商科(沃顿商学院)与文科实力顶尖,是众多留学生的目标。但申请前需理清不同专业学费、费城生活成本及隐藏开支,才能做好预算。下面全面拆解宾大留学花费。 1.学费:商科与文科差异明显 宾大商科与文科专业学费差距较大。商科(如沃顿商学院本科)每年学费约7.2万-7.8万美元,MBA项目年均学费更是高达8万-8.5万美元;…

    2025年10月22日
  • 北卡罗莱纳州立大学值得读吗

    北卡罗来纳州立大学认可度 北卡罗来纳州立大学(North Carolina State University)是一所享有全球声誉的公立研究型大学,成立于1887年,位于美国北卡罗来纳州的首府罗利市。其认可度可以从以下几个方面进行评估: 国际排名 根据QS世界大学排名、USNEWS世界大学排名和TIMES世界大学排名,北卡罗来纳州立大学的全球排名分别为300、…

    2024年8月31日
  • 广东南华工商职业学院粤西分校_广东南华工商职业学校在哪

    好消息! 好消息! 好消息! 在千呼万唤的期待中 广东南华工商职业学院增城校区来咯 据了解 南华职院增城校区 地理位置优越 其东面5公里是正在建设的 广州第三大教育城广州科教城 内有16所广州中高等院校 东南面6公里是 中国最具现代化和经济活力的 广州中新知识城 内有5000多家现代化的高新企业 其中有世界五百强企业进驻100多家 每年为数以万计的青年学子 …

    2024年2月28日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信