约翰斯霍普金斯大学跨学科

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和 MMMU 系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

论文标题:Play to Generalize: Learning to Reason Through Game Play论文链接:https://arxiv.org/abs/2506.08011项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励 ,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

成本极低:无需人工标注,可无限扩展效果显著:零数学样本超越数学专训模型拓展性强:可以组合多个任务进一步提升性能通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/50107.html

(0)
上一篇 2025年8月11日
下一篇 2025年8月11日

相关推荐

  • 韩国中源大学排名

    神州学人网讯 (通讯员 施惠文)据韩国主流媒体《中央日报》19日报道,在对2024年韩国国内主要的62所大学评估后发现,首尔大学综合评估蝉联第一,综合得分220分。排名第二的延世大学(首尔小区)与首尔大学的分差缩小至1分,综合得分是219分。排名第三的是成均馆大学,第四是高丽大学(首尔校区),第五是汉阳大学(首尔校区)。高丽大学较去年排名上升一位,与汉阳大学…

    2025年11月3日
  • 欧洲留学旅游费用

    欧洲,凭借其丰富的历史文化、卓越的教育体系和多元的社会环境,吸引着越来越多的中国学生前往深造。 欧洲汇聚了众多世界高等学府,如英国的牛津大学、剑桥大学,法国的巴黎高等师范学院,德国的柏林洪堡大学等。 欧洲是一个文化多元的大陆,拥有丰富的历史遗迹、艺术珍品和独特的风俗习惯。留学欧洲,学生可以亲身体验不同国家和地区的文化魅力,拓宽自己的国际视野。 欧洲的高校提供…

    2026年1月19日
  • 佐治亚州立大学在哪个州

    据美媒21日报道,美国佐治亚州当局称,当地时间19日晚,佐治亚州奥尔巴尼州立大学校园内发生枪击事件,造成1人死亡、多人受伤。 据报道,佐治亚州当局表示,这起事件发生在当地时间19日20时50分左右,地点是校园活动附近的一个拥挤区域。当天,这所大学正在举行音乐会,作为返校周庆祝活动的一部分。 报道称,枪击事件造成19岁的丹尼尔斯身亡,另有6人受伤。目前还没有人…

    2025年8月27日
  • 美国大学排名大全

    随着Common App的开启,2025-2026美本申请的序幕正式拉开。关于申请要求、招生政策,部分美国高校进行了调整,需要各位学生和家长朋友们及时关注。 具体情况,跟随托普仕留学小助手topsedu2019一起了解一下~ 留意这些美国大学申请新动态 斯坦福大学 斯坦福大学2026Fall开始恢复要求提交SAT/ACT考试成绩,本科学生和转学生都适用。 斯…

    2025年8月12日
  • 日本稻田大学世界排名第几位

    2017年3月,著名的QS发布了各大学的研究领域排行榜。其中早稻田大学专业排名世界100强的领域,从上一年的3个领域提升到了今年的9个领域,位列全日本第6位。 另外,早稻田大学总共有24个专业排进前世界大学前200强,该成绩则位列全国第4,仅次于东京大学、京都大学和大阪大学。 厉害了我的早大! 这一成绩不仅比“一生的敌人”庆应义塾大学要出色,连很多传统的帝国…

    2024年6月21日
  • 德国工业城市排名_德国工业城市排名前十

    导语:近期,德国最权威的经济商业类新闻杂志《德国经济周刊》公布了德国城市发展活力排行榜。前十名中德国首都柏林位列第一,南部之星慕尼黑排名第二。 最近,德国最权威、最具影响力的经济类杂志——《德国经济周刊》公布了最新的德国城市发展活力排名榜。这份榜单基于前五年城市发展状况进行综合考量,评价包括了就业率、失业率、人口增长率、高中毕业率等在内的36项详细指标。该榜…

    2024年4月7日
  • 中国36所重点大学

    而一些双一流建设高校,虽然当年无缘985、211,如今也已拥有不输一般985、211的出色表现。 2024年年初,CNUR编制并发布了2024年ABC中国大学排名榜,今天我们就通过这张榜单,来盘点一下我国最好的50所重点高校资源。 2024我国重点大学Top50名单!人大位列第八,北交大等也榜上有名 在2024年ABC中国大学排名榜单中,位列全国前10名的高…

    2024年10月21日
  • 香港理工大学占地面积

    21世纪经济报道记者 孙迟悦 香港报道 “我们将为全身或半身瘫痪患者带来希望”,4月22日,香港理工大学应用生物化学科技系系主任周铭翔在相关发布会中宣布,香港理工大学正计划生产针对脊髓损伤的细胞治疗制品,以先进疗法结合学校康复治疗科学系的专业知识,提供“一站式”康复方案。 周铭翔表示,香港理工大学拥有符合国际医药品稽查协约组织生产规范的先进疗法制品(ATP)…

    2025年9月17日
  • 金日成综合大学医学部

    金正恩开政治局会议讨论防疫,严斥平壤医大党委犯罪行为 朝中社11月16日消息,朝鲜劳动党举行第七届中央委员会第二十次政治局扩大会议,金正恩出席会议,会议涉及了防疫和反腐等议题。 韩联社称,这是10月22日,朝鲜媒体报道金正恩在平安南道桧仓郡参谒中国人民志愿军烈士陵园后,时隔25天再次公开活动。 朝中社报道称,会议强烈谴责了发生在平壤医科大学党委内部的职务犯罪…

    2025年8月26日
  • 纽约理工大学本科是几年制

    学 校 概 况 纽约理工大学(NewYork Institute of Technology,简称New York Tech)是成立于1955年的非盈利性私立大学,坐落于纽约全球金融、科技、艺术、设计之中心,注重本科和研究生教学及学生就业;是美国著名的理工学府之一。#纽约理工大学# New York Tech是纽约市中心仅有的三所同时拥有建筑、工程与计算机科…

    2025年3月13日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信