约翰斯霍普金斯大学跨学科

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

论文标题:Play to Generalize: Learning to Reason Through Game Play论文链接:https://arxiv.org/abs/2506.08011项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

成本极低:无需人工标注,可无限扩展效果显著:零数学样本超越数学专训模型拓展性强:可以组合多个任务进一步提升性能通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/50107.html

(0)
上一篇 2025年8月11日
下一篇 2025年8月11日

相关推荐

  • 广东理工类大学排名

    广东也是高等教育大省,省内高校数量众多,理工类院校也不在少数。本文以软科中国的做出的综合实力评估为基础,为广东省理工类大学排名。 第一名,华南理工大学 全国排名:第30位 特色专业:机械、建筑、高分子、计算机、核工程、数学、自动化等 建国初期的“八大工学院”之一,985工程大学,建筑老八校之一,华南地区实力最强的理工类大学。 第二名,南方科技大学 全国排名:…

    2024年11月1日
  • 日本大学sgu大二大三(日本大学艺术留学)

    SGU项目,全称英文即 Super Global University。直译超级国际化大学。 是2014年日本政府启动,为了吸引优秀的外国留学生赴日留学而开设的大学英文授课项目。 日本政府从全国大学中选出37所大学,并拨款7.7亿日元以支持此项计划的实施。 SGU项目的大学院专业多姿多彩,既有情报理工(CS)、电子电气工程(EE)、人工智能(AI)、机器人、…

    2023年11月17日
  • 北京第二外国语学院姚莹

    @北京第二外国语学院 @北京第二外国语学院 4月29日发布《情况通报》: (原题为《情况通报》) 责任编辑:姚俊俊

    2025年8月11日
  • 圣约翰大学qs排名

    美国一直被人认为是没有什么历史底蕴的国家,确实,总共建国才248年,再古老能古老到哪里去呢? 但是美国有一些大学,历史比建国时间还长!1492年哥伦布抵达美洲大陆后,也把欧洲的教育带了过来。下面这10所大学的历史,比美国建国还要早哦,快一起来看看吧! 01 哈佛大学Harvard University 成立时间:1636年(1650年特许) 哈佛大学位于马萨…

    2025年10月20日
  • 奥克兰大学计算机博士

    奥克兰理工大学(AUT)是新西兰最大、最具活力的现代化大学之一,致力于培养具有全球视野的优秀毕业生。凭借其领先的学术研究、创新精神和强大的行业合作,AUT不仅为学生提供多元化的课程和实践机会,还为他们的职业成功铺就坚实的基础。学校的课程覆盖广泛的学科领域,强调技术创新、创业精神与跨学科合作,确保学生能够在全球化职场中脱颖而出。此外,AUT的教学设施和学习环境…

    2025年7月9日
  • 新航道培训学校怎么样

    如果不是真心想学英语,请不要报名正课的优势: 正课的优势: 1. 规模大:新航道培训学校遍布全国40多个城市,开设了超过300个学习中心。近几年,每年招生16000余人,营业额高达3亿,业绩全国第一。 2. 费用高 : 到新航道学习英语,学费真不便宜。如果是“一对一”的英语教学,每小时的收费标准是500—800元。如果是小班教学,学费则是每个月2万元。如此不…

    2024年5月7日
  • 上国际学校需要什么条件

    普高学生转学读国际高中需要满足一定的录取条件,并按照规定的申请流程进行操作。家长和学生需要提前了解并准备相应的手续和材料,以确保顺利完成转学申请。   一、报名/转学流程 1、了解目标国际学校: 家长和学生可以通过参加国际高中的开放日、咨询会等活动,了解学校的课程设置、师资力量、教学设施、升学情况等信息。 2、准备申请材料: 可能包括学生身份证明(户口簿、身…

    2025年12月31日
  • 海德堡大学申请条件

    海德堡大学介绍 海德堡大学始建于1386年,作为德国境内最古老的大学,常年排在德国综合类大学第一名的位置,近年来一直蝉联入选德国精英大学,同时也是欧洲研究型大学联盟、科英布拉集团、德国顶尖大学U15大学联盟、欧洲大学协会中的成员。 历经600余年,历史悠久,传统深厚,海德堡大学依然靠严谨的学风和浓厚的社会人文气息,吸引着众多外国学子来此求学。 专业设置 海德…

    2025年11月19日
  • UTA是哪个大学

    德克萨斯大学阿灵顿分校(University of Texas,Arlington,简称UT Arlington,非正式场合也常缩写为UTA)是德州大学系统下的一所大型公立综合性全国大学,美藤国际教育介绍,成立于1895年,位于美国西部大型城市阿灵顿,提供本科、硕士、博士,三种学位类型。 德克萨斯大学阿灵顿分校排名 2018-2019年CWUR(The Ce…

    2024年5月22日
  • 日本に留学する(“日本留学”)

    表示方向:用于表示动作的方向或目的地。通常接在动词的连用形或名词后,示例:学校へ行く(前往学校)、友達の家へ行く(前往朋友家)。 表示时间:用于表示某个时间点或一段时间的终点。通常接在时间名词、时间副词或时间状语后,示例:三時へ出発する(出发时间为三点)、十月へ向かう(前往十月)。 表示对象:用于表示某个对象或团体。通常接在名词或人名后,示例:上司への報告(…

    2023年9月12日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信