2026世界杯欧赔 GUI Agent「记与学」双修, 长程任务有了专属牵挂增强型自进化框架

本文团队耐久从事负背负的东说念主工智能与东说念主工智能赋能社会科学关勾通洽,围绕视觉生成大模子安全管制、智能体安全等场所开展系统性使命,关联限定发表于AAAI、ICML、TMM等海外期刊与会议。现驱动招收2027级博士接洽生与硕士接洽生,细目请参见王岚君本分主页:https://wanglanjun-academic.github.io/
跟着大模子时刻的马上发展,GUI(GraphicalUserInterface)智能体正在从「看得懂屏幕」迈向「能自主操作」的新阶段。但是,当咱们实在将这些智能体放入的确场景时,一个关节问题便突显出来:它们在多法子、长周期的复杂任务中,时常「翻车」。
现存的GUI智能体主要依赖现时屏幕截图和有限的崎岖文窗口作念决议,无法诊治无缺的交互历史。在多法子任务中,早期的关节信息可能跟着崎岖文滑动而丢失,导致「舛讹累积」,一个早期的小罪恶就可能激勉连锁失败。与此同期,现时的GUI智能体频繁使用在固定数据集上锤真金不怕火的静态政策,无法从过往见效劝诫中学习和移动,难以适宜动态变化的环境。
「记不住」和「学不会」恰是现时GUI智能体发展的中枢矛盾。而天津大学团队搭伙上海交通大学团队在ICML2026上提倡SE-GA框架,通过引入分层牵挂结构和迭代自我篡改机制,让GUI智能体从「静态实践器」进化为「动态学习者」,并在多个不同类型的基准上获取了邃密的证实。

论文标题:SE-GA:Memory-AugmentedSelf-EvolutionforGUIAgents
论文地址:https://arxiv.org/abs/2605.16883
代码皆集:https://github.com/jinshilong-dev/SE-GA
「记不住」又「学不会」,GUI智能体的两简短寿短板
团队将GUI导航任务体式化为部分可不雅察马尔可夫决议经过,这意味着智能体无法裕如不雅察环境情景,只可通过局部不雅察作念出决议。在这种部分可不雅察性下,两个结构性问题尤为杰出。
1.崎岖文窗口受限,关节信息「记不住」
GUI导航任务骨子上是历史依赖的。但是,大多数现存时势主要依赖现时屏幕截图和有限的崎岖文窗口,跟着交互法子的鼓吹,早期的关节信息很容易被「滑出」崎岖文窗口,导致智能体「健忘」起始的操作和不雅察,从而作念出罪恶决议。
2.政策静态固化,过往劝诫「学不会」
施行宇宙中的GUI任务很少是稳固的,它们时常是先前已完成任务的变体或组合,需要复用过往见效的政策。但现时的GUI智能体频繁在固定数据集上锤真金不怕火,使用静态政策,无法从交互经过中提真金不怕火和学习见效劝诫。
简而言之,现时GUI智能体艰难一个转圜的机制来将显式的历史劝诫编码为隐式的政策参数,导致它们只可进行静态实践,而无法扫尾捏续的自我进化。

图1.SE-GA的举座框架图
TTME:给智能体装上「分层牵挂」,让它「铭刻住」以前
为了处置「记不住」的问题,SE-GA提倡了测试时牵挂扩张(Test-TimeMemoryExtension,TTME)模块。该模块鉴戒了东说念主类领略架构的念念想,构建了一个分层牵挂库,包含三种互补的牵挂类型,从不同粒度为智能体的决议提供支捏。

图2.TTME的架构示例图
情景牵挂(EpisodicMemory):短期使命牵挂,追踪「刚才作念了什么」
在职求实践的每个时候步中,情景牵挂会纪录前一步的不雅察、采取的四肢以及四肢实践后的新不雅察。这种设想既幸免了保留通盘历史带来的商酌支拨,又能过滤掉可能误导决议的落后信息,让智能体耐久对「近期作念了什么」保捏显著的领略。
语义牵挂(SemanticMemory):通用门径库,存储「怎样作念才对」
语义牵挂存储的是概括的、跨任务通用的交互门径,举例「需要先登录才能探访受限页面」「搜索功能频繁在页面顶部」等,这些信息大要匡助智能体更好地意会现时情景背后的行动逻辑,从而作念出更合理的决议。
劝诫牵挂(ExperientialMemory):过往经验库,复用「见效的劝诫」
劝诫牵挂存储智能体过往见效完成的任务轨迹,包括原始轨迹和智能体我方生成的反念念追念。与纯文本检索不同,TTME招揽了一种搀和检索机制,同期商酌语义一致性和视觉相似性,2026世界杯技术统计这种文本-图像搀和检索大要更精确地找到与现时任务相似的历史劝诫,从而让智能体大要「站在以前的肩膀上」作念决议。
MASE:两阶段锤真金不怕火,让智能体「学得会」进化
要是说TTME处置的是「记不住」的问题,那么MASE(Memory-AugmentedSelf-Evolution)处置的即是「学不会」的问题。MASE是一个两阶段锤真金不怕火框架,旨在将TTME集中的劝诫数据转动为智能体的内在才智,扫尾实在的自我进化。
米兰体育(MilanSports)官网
图3.MASE的架构示例图
第一阶段:基础才智锤真金不怕火(GroundingTraining)
第一阶段通过监督微调对群众轨迹进行行动克隆,强化智能体的视觉定位和四肢推理才智。这一阶段的中枢想法是让智能体学会「看懂屏幕、找对位置、作念对四肢」。
第二阶段:自我进化锤真金不怕火(Self-EvolutionTraining)
第二阶段基于GRPO(GroupRelativePolicyOptimization)算法,引入了多个针对GUI任务的关节篡改,让智能体大要从我方与环境交互产生的数据中捏续学习。
「失败也能变废为宝」:HindsightGoal-Shifting的好意思妙设想
在GUI智能体的锤真金不怕火中,失败轨迹是不行幸免的,尤其是在长序列任务中,一个中间法子的不实就可能导致后续通盘失败。传统作念法是径直丢弃这些失败样本,但这意味着多数的交互数据被阔绰。

图4.失败样本的案例

图5.HindsightGoal-Shifting的相似案例
SE-GA提倡了一种好意思妙的数据精熟时势—HindsightGoal-Shifting。其中枢念念想是:要是一条失败轨迹的前缀子序列一经见效完成了某个灵验的子想法(举例见效翻开了应用,但后续搜索操作失败),那么就将这条轨迹再行标注为对该子想法的见效实例。这么,蓝本的「失败样本」就转动为了「有价值的监督信号」,极地面擢升了锤真金不怕火数据的诓骗率。这种「变废为宝」的设想,是SE-GA大要在有限交互数据下扫尾存效自我进化的关节。
实验限定
SE-GA以Qwen2.5-VL-7B为基座模子,使用4K条交互轨迹进行锤真金不怕火,在多个规范基准测试上获取了令东说念主把稳的成绩。这些限定不仅卓绝了同参数目的通盘基线模子,更在多个想法上卓绝了72B参数目的大模子。
1.ScreenSpot:GUI定位精度全面跳跃

图6.ScreenSpot上的性能对比
在评估GUI元素定位才智的ScreenSpot基准上,SE-GA以89.0%的平均得分卓绝了包括UI-TARS-72B(88.4%)和Qwen2.5-VL-72B在内的通盘基线模子。这收成于MASE框架平分层奖励设想对视觉定位精度的权贵擢升,特等是点定位奖励和包围框奖励将视觉感知与精确的空间反馈绑定,灵验克服了密集GUI布局中的像素级偏差问题。
2.AndroidControl&GUIOdyssey:长周期缱绻才智的贬抑

图7.AndroidControl和GUIOdyssey上的性能对比
在评估高层缱绻才智的AndroidControl-High和GUIOdyssey上,SE-GA不仅卓绝了通盘同参数目的基线时势,还与UI-TARS-72B的举座证实特别。更进犯的是,在跨应用导航任务GUIOdyssey上,SE-GA达到了83.9%的法子见效力和96.5%的四肢类型准确率,后者以致卓绝了UI-TARS-72B。这讲明SE-GA不仅能更准确地实践单个四肢,还能在复杂的多应用使命流中保捏更可靠的长周期决议才智。
3.AndroidWorld:动态环境中的强泛化才智

图8.AndroidWorld上的性能对比
在的确动态环境的AndroidWorld基准上,SE-GA以39.0%的见效力权贵跳跃于其他7B模子,包括UI-TARS-7B(33.0%)和GPT-4o(23.7%)。这一限定充分讲授了SE-GA的自我进化机制大要匡助智能体捏续探索和适宜动态环境变化,而不是像传统时势那样依赖静态预锤真金不怕火的零样本泛化。
消融实验
为了考证TTME和MASE各自的孝敬,论文进行了详备的消融实验,限定揭示了两个组件的不行替代性。

图9.消融实验
追念与商讨
SE-GA提供了一个转圜的框架,将「牵挂」和「进化」两个意见邃密结合。TTME处置了「记不住」的问题,让智能体大要诊治和检索丰富的交互历史;MASE处置了「学不会」的问题,将非参数化的劝诫编码为参数化的政策,扫尾阐明的自我进化。两者的结合,让GUI智能体从依赖固定数据集的「静态敕令实践器」,盘曲为大要通过交互捏续学习和篡改的「动态学习者」。
虽然,SE-GA也存在一些局限性。跟着TTME模块束缚蕴蓄交互数据,劝诫牵挂库的边界捏续增长,基于镶嵌相似度和视觉特征的检索操作可能带来权贵的商酌支拨,影响及时推理的反馈速率。尽管如斯,论文也指出了畴昔的三个进犯场所:一是扩大锤真金不怕火数据集以粉饰更多任务类型,二是探索分层任务分解以应酬超长使命流,三是接洽跨平台移动学习,让进化后的政策和牵挂结构能适宜不同平台的各异。
在GUI智能体快速发展确当下,SE-GA提供了一个显著的信号:畴昔的GUI智能体不应该仅仅更大的模子2026世界杯欧赔,而应该是大要记着以前、学习劝诫、捏续进化的智能系统。只好从语义底层开垦起机制化的牵挂与学习体系,畴昔的GUI智能体才能实在扫尾矜重实在。