2B 参数“四两拨千斤”,智元自研世界模型 GE 2.0 登顶 WorldArena 榜单
智元自研世界模型GE 2.0登顶WorldArena榜单,仅用2B参数“四两拨千斤”,超越英伟达、微软等超大模型!长时序生成、多视角覆盖,机器人AI新标杆,点击揭秘轻量化模型如何击败巨头。
5 月 30 日消息,“智元 AGIBOT”官方公众号 29 日发文宣布:具身领域热门榜单 WorldArena Track1(世界模型感知与动作响应赛道)最新评测结果揭晓,智元自研的世界模型 Genie Envisioner-Sim 2.0(注:以下简称 GE 2.0)登顶榜单。
所谓“世界模型”,简单来说就是能理解物理世界规律的 AI 大模型。机器人若具备“世界模型”能力,就能知道杯子掉地上会碎、水往低处流、积木搭太高会倒等常识。
在该赛道评测中,智元团队使用了原生的世界模型 GE 2.0,并未针对赛题进行特殊设计优化,仅基于榜单数据进行了基础微调(Finetune)。

根据介绍,GE 2.0 在功能上首次全面覆盖了长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别等核心环节,构建了世界模拟器完整的技术能力闭环。

在长时序推理任务中,GE 2.0 表现出极强的稳定性,画面质量随推理时长的衰减显著弱于行业基线方案。即使在连续推演 40-50 秒的长视频片段时,其生成质量依然超越了基线模型前 10 秒内的表现。

团队验证了大量闭环评测结果,证明 GE 2.0 在多项任务上均与真实世界保持着强相关性。这种相关性不止步于宏观统计意义上的“成功率一致”,团队还进行了逐案(Case-by-case)的 rollout 结果对比分析,并通过混淆矩阵(Confusion Matrix)提供了严谨的量化佐证,进一步证明了 GE 2.0 作为策略评测器的可靠性。

在奖励模型(Reward Model)的加持下,GE 2.0 能够对闭环评测的 rollout 过程进行自动化筛选,将世界模型中产出的有效高质量数据精准回流给策略模型(Policy Model)。实验证明,这一机制在多项任务上均助力策略模型实现了显著的性能涨点。

此外,据上观新闻报道,智元 GE 2.0 此次与英伟达最新模型 DreamDojo、清华联合斯坦福的 Ctrl-World 团队等国内外 AI 顶尖团队直接竞争,并最终夺冠。GE 2.0 仅用 20 亿(2B)参数的模型,结果比英伟达、微软等超大参数的旗舰模型效果更优秀,也验证了在人形机器人应用方面,轻量化模型的适配性不逊于超大参数模型。
- 1《龙之剑:觉醒》公开预告视频 首个冒险地区曝光
- 2又一款经典童年网游!《飘流幻境》复刻重置,Q版画风超高自由度
- 3最近大家都在玩什么?盘点五款近期在Steam热度霸榜的网游,两款即将上国服!
- 4《仙境传说RO》IP新作MMO美服测试将于6月4日开启
- 5《剑灵》韩服直播爆料总结,NEO巅峰服武功体系改版究竟是什么?
- 6《洛奇英雄传:反抗命运》公开全景欣赏功能和成就系统
- 7魔兽故事:魔兽最虚伪的守护者!篡改史书洗白自己,亲手玩崩英灵殿
- 8《流放之路2》国服与国际服分道扬镳?游戏就不该服务于玩家?
- 9坚持11年帮助其它玩家打高难boss!如今宣布引退:再也没人召唤我了
- 10回忆录:以为白捡一个号,结果免费当“代练”一年多,这口气实在咽不下!

