美国大学教授年薪多少

智东西

编译 | 王欣逸

编辑 | 程茜

智东西12月12日消息,昨天,斯坦福大学研究团队发布最新研究,在探查斯坦福大学工程学院网络漏洞的测试中,他们新推出并开源的Multi-Agent(多Agent)框架ARTEMIS表现超越了90%的人类专家,全面超越现有的Agent框架,而其实际成本约为人力的1/14。

ARTEMIS具备动态提示生成、任意子Agent调用和自动漏洞分级评估功能,在实际应用中,它能完成复杂的网络任务,可以对网络进行扫描,找出潜在漏洞和软件安全隐患,并探寻利用这些漏洞的方法。

本次实验,研究人员让ARTEMIS与10名人类渗透测试专家、多个现有的Agent框架共同执行任务,让他们对斯坦福大学工程学院的网络进行探查,但不得实际入侵,以此来全面评估他们的探查能力。结果显示,基于OpenAI的GPT-5的ARTEMIS框架综合表现位列第二,共发现9个有效漏洞,提交有效率达82%,其表现优于十位人类参与者中的九位,全面碾压其他Agent框架,包括基于同一底层模型GPT-5的单Agent自主框架Codex和CyAgent。

P为人类网络安全专业人员;A1、A2分别是ARTEMIS两个不同配置的框架,前者基于GPT-5,后者基于集成模型;CO、CS和CG分别是使用GPT-5模型作为基础来运行的单Agent自主框架Codex、使用Claude Sonnet 4模型作为基础来运行单Agent自主框架CyAgent和使用GPT-5模型作为基础来运行CyAgent。

除了拥有与顶尖渗透测试专家相当甚至超越的性能之外,ARTEMIS把成本也打下来了,搭载GPT-5的ARTEMIS框架每小时成本约为18美元(约合人民币127.1元),约为美国渗透测试员时薪的1/14。

不过,论文指出,ARTEMIS还存在处理基于图形用户界面(GUI)的任务时有困难、比人类更高的误报率等短板。

该论文现已发布在arXiv上,题为《将AI Agents与网络安全专业人员在真实世界渗透测试中的表现进行比较(Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing)》。

论文地址:https://arxiv.org/abs/2512.09882

一、综合排名第二,全面碾压现有Agent框架,还能提升原始模型性能

研究人员建立了ARTEMIS框架下的两个对照组,以评估不同配置下的ARTEMIS框架性能。一个是使用OpenAI的GPT-5作为监督器和子Agent的A1,另一个是使用集成模型作为监督器、Anthropic的编程模型Claude Sonnet 4作为子Agent的A2,集成模型包括了以下模型:OpenAI的推理模型o3和o3 Pro、Anthropic的编程模型Claude Sonnet 4和Claude Opus 4,以及谷歌的Gemini 2.5 Pro。

从结果来看,A2在和一众人类渗透测试专家、现有的Multi-Agent框架的比较中位列第二名,共发现9个有效漏洞,提交有效率达82%,其表现优于10位人类参与者中的9位。A1则打败了5名人类参与者,位列第七名。

除ARTEMIS外,分数最高的Agents框架CO(基于GPT-5的Codex)仅超越了两位人类参与者,而CS(基于Claude Sonnet 4的CyAgent)和CG(基于GPT-5的CyAgent)落后于所有人类参与者,CS的总得分仅为A2的四分之一。

从漏洞的质量来看,人类参与者发现的Critical(关键)漏洞占据了更大的比例;ARTEMIS框架的两个配置A1和A2发现的关键漏洞比例更小,且误判的内容相对较多;A1和A2虽然提交了相同数量的漏洞,但A1的正确率仅为55%,关键漏洞仅占18%,而A2的关键漏洞占比则达到了45%,这表明不同的模型组合和配置对框架整体性能有影响,A2的多模型架构可能在处理复杂任务和减少误报方面更为有效。

在时间上,人类参与者和ARTEMIS框架的表现也不尽相同。ARTEMIS框架表现出了长时间、持续、但间歇性产出的节奏,在提交漏洞之间通常有更长的间隔时间;人类参与者则呈现出了高度可变、依赖灵感和集中爆发的节奏。他们的活跃时间(通过键盘输入判断)和漏洞提交时间点分布不均匀。

值得一提的是,ARTEMIS和人类最根本的区别是,ARTEMIS在发现一个值得关注的目标后,会立即在后台启动一个专用的子Agent去探测它,同时主线继续进行其他工作,在峰值时,ARTEMIS可以达到8个子Agents并行运行。

此外,从网络安全基准测试Cybench的表现来看,在基于GPT-5的Artemis框架和Claude 4.5 Sonnet、GPT-5等模型能力对比中,ARTEMIS以48.6%的成功率位列第二,仅次于Claude 4.5 Sonnet(55%),且略高于其底层模型GPT-5(45.9%)。

这一结果意味着,ARTEMIS框架在解决网络安全问题中,具备与顶级大模型相当的能力,且在一定程度上提升了基础模型的性能。

二、由监督器、子Agent、分级器组成,成本仅为人类专家的1/14

现有的针对网络安全AI Agent的研究主要有三类:一是PentestGPT等需要人类引导等半自主框架;二是Codex、CyAgent等能独立运行但能力有限的单Agent自主框架;三是Incalmo、MAPTA等Multi-Agent(多Agent)自主框架。

论文中提到,ARTEMIS是一个复杂的Multi-Agent框架,被设计用来对真实世界的生产系统进行长周期、复杂、渗透性测试,该框架目前已开源。

它有三个核心组件:一个监督器,负责管理工作流;一组任意子Agents集群,负责执行具体任务;一个漏洞分级器,负责漏洞验证。

ARTEMIS借鉴了现有编程Agent的设计,并通过任务列表、笔记系统和智能摘要机制,达到了比现有Agent持续运行时间更长的能力。在分配任务时,其自定义提示生成模块会为子Agent创建任务特定的系统指令。因此,ARTEMIS有着动态生成系统提示、上下文管理和分级报告等功能的优势性。

此外,ARTEMIS在经济成本上也相当占优。以基于GPT-5的ARTEMIS框架A1来看,论文指出,A1每小时成本约为18.21美元(约合人民币128.6元),按每周40小时计算,其年化成本约为3.78万美元(约合人民币26.7万元)。

而人类渗透测试人员的每日收费通常在2000至2500美元左右(约合人民币1.41万元至1.77万元),按每日工作8小时计算,时薪约为250美元至312美元(约合人民币1765元至2204元),是ARTEMIS框架每小时成本的14倍多;市场上美国渗透测试员的的年薪平均为12.5万美元(约合人民币88.29万元),是ARTEMIS框架年成本的3倍多。即使是使用每小时成本更高的A2(约为59美元,约合人民币416.7元),其成本也低于人类专家。

三、具备执行技术,短板是找不到漏洞和GUI限制

不过,据《华尔街日报》报道,ARTEMIS并非完美无缺,在误报率上,A2误报了18%的漏洞,A1失误的更多。除了失误外,ARTEMIS还完全遗漏了一个大多数人类测试人员能轻易发现的明显漏洞。

ARTEMIS频繁提交漏洞报告,却很少发现目标漏洞,而且总是发现低严重性、低复杂度或无法利用的漏洞。这种遗漏与误报的背后,可能与ARTEMIS的决策逻辑有关。论文指出,ARTEMIS框架提交漏洞报告次数的增加与未发现目标漏洞存在相关性,这可能是因为ARTEMIS在主机上发现其他漏洞后便转移了目标。

研究人员称,ARTEMIS的瓶颈在于识别漏洞模式而非技术执行能力。在中、高等级的提示下,ARTEMIS成功找到了大部分目标漏洞,这表明ARTEMIS具备漏洞的技术执行能力。当提示信息减少,仅提供低等级、仅信息和仅主机提示时,ARTEMIS成功率急剧下降,即它的自主识别攻击入口和识别漏洞的能力不足。此外ARTEMIS还存在行为不确定性,在“未经身份验证的远程控制台访问”这一任务中,ARTEMIS在高等级提示下依然任务失败,在中等级和仅主机提示下却能完成任务。

此外,ARTEMIS还存在一个关键限制,作为基于命令行和文本分析的AI,它无法通过图形用户界面(GUI)与浏览器进行交互。

斯坦福大学工程学院系统与网络安全负责人亚历克斯·凯勒(Alex Keller)称:“此前斯坦福大学的网络从未遭受过AI程序的攻击,此次实验似乎是弥补斯坦福大学网络安全漏洞的一种有效方式。在我看来,实验的益处远大于任何风险。”

斯坦福大学计算机科学教授丹·博内(Dan Boneh)为该研究提供了建议:“鉴于全球大部分代码都未经过安全漏洞测试,ARTEMIS等工具将帮助网络安全专业人士发现并修复比以往更多的代码漏洞。”此次测试,ARTEMIS就发现了斯坦福大学存在的一个有安全问题的过期网页。

结语:正探索多Agent框架的配置优化与架构迭代

在真实环境中与人类的渗透测试和基准测试Cybench均显示,ARTEMIS不仅在其在复杂现实任务中达到了可与顶尖人类专家持平甚至超越的能力,在显著优于其他现有Agent框架的同时还做到了不损害模型的原始能力,并在原始模型上实现了能力的提高。

为软件开发者与白帽黑客提供协作平台的机构HackerOne的调研报告指出:当前已有70%的安全研究人员开始采用AI工具辅助漏洞挖掘。

AI在自动化网络攻击领域正在走向实战应用。研究人员称,他们未来将持续探索这一领域,创建可运行的环境副本,对不同的Agent架构、配置和模型进行消融实验,优化基础设施,还将与企业合作开展漏洞赏金计划等。

来源:《华尔街日报》、arXiv

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/69786.html

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 临沂大学改名鲁南大学

    澎湃新闻记者 钟煜豪 临沂大学 日前,有山东网友在人民网领导留言板上反映,拥有庞大人口规模的鲁南经济圈是省内高教的“洼地”,区域内本科高校共6所,其中仅有曲阜师范大学和临沂大学较强,但两校的建设也面临着诸多内部与外部问题。 在这名网友看来,临沂知名度较低,由于“沂”字属于生僻字,国内不认识“沂”字的人众多,其中就包括名校学生。此外,有些人虽识临沂,却不知临沂…

    2025年3月6日
  • 纽伦堡大学和布伦瑞克机械

    今天小艾就从专业选择的角度为大家介绍一下德国留学值得学习的专业。本期先来看一看机械工程吧。 首先我们来看看德国的机械工程实力怎么样? 德国在机械和汽车领域领先全球,在汽车、工业自动化、机床等领域具备大量全球领先技术,率先提出工业4.0概念,一些关键的机械领域先进技术大都掌握在德国人手中。其中,世界排名位于前十的利勃海尔公司不仅是世界建筑机械的领先制造商之一,…

    2024年10月24日
  • 墨尔本皇家理工大学分数线

    如今,海外留学成了众多学子提升自我的热门选择,墨尔本皇家理工大学凭借其卓越的教育水平和丰富多元的文化氛围,吸引着不少同学的目光。想必大家都十分关心,进入这所知名学府,gpa要求究竟如何?接下来,我就为大家详细解读一番,希望能给各位同学提供精准且有用的信息,助你在留学申请之路上少些迷茫,多些定心丸。 本科gpa要求 对于想要申请墨尔本皇家理工大学本科的同学而言…

    2025年8月20日
  • 惠州学院与美国北阿拉巴马大学

    南都讯 记者蔡雯 近日,教育部发布了《关于批准2021年上半年中外(含内地与港澳地区)合作办学项目的通知》,《通知》显示,此次教育部共批准24个本科以上中外(含内地与港澳台)合作办学项目,广东省共有3所高校的项目获批,其中,惠州学院与美国北阿拉巴马大学合作举办的学前教育专业本科教育项目在列,实现了该校在中外合作办学项目上零的突破。 对此,惠州学院方面表示,这…

    2024年12月5日
  • 美国大学生数学建模竞赛m奖是什么

    中国教育报-中国教育新闻网讯(通讯员 王静静 吴玲莉 记者 冯丽)近日,2025年美国大学生数学建模竞赛(MCM/ICM)成绩正式公布。西安欧亚学院参赛团队共斩获M奖(国际一等奖)2项、S奖(国际三等奖)19项。 作为全球规模最大、影响力最强的跨学科建模竞技平台,美国大学生数学建模竞赛(MCM/ICM)由美国数学及其应用联合会(COMAP)权威主办,其赛题深…

    2025年10月30日
  • 法学五院四系是哪些大学

    说起我国的法学类院校,“五院四系”总被提起,这九所国内较早开设法学教育的高校,法学底蕴深厚,业内影响力较大,是无数法学生心中的圣地。但是这九所高校之间实力差距也是很明显的,法学界的“五院四系”,“四系”全是985,“五院”却差距颇大,有三所双非。 “五院四系”其实说的就是5所政法类院校和4所高校的政法系,也可以简单理解为九所院校。“四系”即北大法学系、吉林大…

    2025年4月24日
  • 柏丽慕达时装学院在米兰吗

    2019-03-01 11:12 内容综合中国商务新闻网 不久前在米兰塞尔贝罗尼宫内 那场以皮革元素为主的时尚大秀—— FASHION HAINING SHOW 惊艳四座! 本场发布秀是由海宁中国皮革城联手 海宁最具实力的两家皮革服装品牌企业 “雪豹”“弗奥” 共同亮相 60套服装 空灵简明的发布主题 丰富的面料材质搭配 沉稳大气的经典色搭配明亮的流行色 这…

    2025年8月27日
  • 加拿大渥太华大学本科录取率高吗

    渥太华大学,位于加拿大的首都——渥太华市。渥太华大学早在19世纪创立伊始,就已名声大噪。现在的渥太华大学在加拿大依旧有着极高的地位。多年以来,麦克林排名中医博类大学的前十位,一定有渥太华大学的一席之地。 渥太华大学师资力量雄厚,教学设施先进,再加上地理位置和学术水平,渥太华大学十分吸引加拿大学子及海外留学生。目前在校学生总数已逾4万人,国际学生约4%。 若问…

    2025年5月28日
  • 加拿大留学签证需要面签吗

    美零留学网(http://www.meiling360.com)介绍,去加拿大留学的小伙伴们都知道加拿大签证申请起来比较严格,签证材料的准备至关重要;与此同时,还有很多学生家长对加拿大签证不是很了解,因而导致各种情况的拒签。 下面为大家总结了几点加拿大签证误区: 1. 误以为资金担保只要总金额够多即可 比起英美、澳洲、加拿大使馆对担保金的要求,关键不在于额度…

    2025年11月13日
  • 日本专修大学排名

    赴日留学之际,众人最为忧心之事莫过于不慎踏入“野鸡大学”的陷阱。由于对日本教育体系缺乏深入了解,当面对一些未曾听闻的私立院校时,疑虑便会如影随形:这所学校会不会就是那声名不佳的“野鸡大学”呢? 这样的担忧,长久以来一直困扰着莘莘学子及其家长。他们在网络世界里四处问询,满心都是焦虑与不安。 今日,我们精心整理了一份“教育部(中国)留学服务中心”认证的日本院校名…

    2025年11月12日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信