1.开源模型百度百科
VLA模型性能暴涨300%,背后训练数据还首次实现90%由世界模型生成。这是来自国产世界模型玩家的最新突破,相关模型代码和训练框架还全都开源了。

2.开源模型是什么
具身智能迈向开放世界落地的最大瓶颈,长期以来并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了VLA大模型的规模化训练与泛化能力。
3.模型开源是啥意思
而传统仿真虽能快速生成数据,却受限于显著的Sim-to-Real gap,难以支撑真实世界的鲁棒部署世界模型(World Model)被认为是破解这一困境的关键:通过学习真实世界的规律,世界模型可以生成高保真、可控、多样化的具身交互数据,突破真机数据不足的限制。
4.开源模型训练平台
在此背景下,刚刚获得华为投资的国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,成功将世界模型生成数据在VLA训练中的占比提升至90%所训练的VLA模型在新纹理(训练中未见材质表面)、新视角(训练中未见的观测角度)、新物体位置(训练中未见的空间布局)三大泛化维度上均实现近300%的性能提升,标志着具身智能正式迈入“数据高效、高泛化、低成本”的新阶段。

5.开源3d模型
作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真具身操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建、可微分物理引擎,确保生成数据在几何结构与物理动力学的准确性。

6.开源模拟
高效的世界模型架构针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力,在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据。

7.开源的世界
稀疏注意力机制:高效建模长程时空依赖GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer(DiT)作为生成主干,摒弃传统全注意力带来的平方级计算复杂度该机制仅在局部时空邻域与关键语义区域间建立注意力连接,从而在生成高帧率、长序列视频时,显著降低内存占用与推理延迟。
8.开源mod
MoE架构:提升生成多样性与可控性在DiT的前馈网络模块中,GigaWorld-0-Video参考DeepSeek V3集成混合专家(Mixture-of-Experts,MoE)架构每个视频Token动态路由至多个专家网络。
9.开源模块是什么意思
确保不同语义区域由专属专家处理,实现细粒度的内容控制几何一致、物理准确的世界模型建模GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力,并结合可微分物理引擎,实现了对机械臂操作过程的高保真物理仿真。
10.开源模块
该系统不仅生成几何一致、视觉逼真的静态背景资产,还精准复现了机械臂与物体交互中的动力学行为,为具身智能体提供兼具几何一致性与物理准确性的训练数据生成式重建:几何一致性与视觉保真度的协同优化在几何一致性渲染方面,GigaWorld-0-3D融合极佳视界积淀的生成式重建技术,有效突破稀疏观测下的建模瓶颈。
系统首先基于稀疏输入视图,初始化高斯场景表示随后引入专用的视图修复生成模型,显著缓解因视角缺失导致的几何扭曲最终,将修复后稠密、一致的多视角图像作为增强输入,驱动第二阶段的高精度3DGS重建,从而在新视角合成中同时保障几何一致性与视觉保真度。

可微分物理引擎:高效精准的物理建模在物理准确性建模方面,GigaWorld-0-3D引入基于物理信息神经网络(PINNs)的可微分物理引擎,实现对机械臂动力学的自动参数辨识通过三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,高效生成物理合理、交互可信的数据。

高效世界模型训练框架GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。
为这一突破提供基础的,是极佳视界自研的GigaTrain高效训练框架GigaTrain是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在8×H20等常规硬件上高效完成微调。
GigaTrain现已全面开源(GitHub:https://github.com/open-gigaai/giga-train),极佳视界还同步开放了详细的资源消耗基准与配置模板,助力社区开发者快速复现、迁移并定制GigaWorld-0,推动具身智能数据生成的普惠化与标准化。

可泛化具身数据引擎在PBench(Robot Set)基准上,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比,包括Cosmos-Predict2-14B、Cosmos-Predict2.5-2B、Wan2.2-5B和Wan2.2-14B。
尽管GigaWorld-0模型仅激活20亿参数(2B),为所有对比模型中最小,却在整体评分上显著领先,取得最高性能这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。

GigaWorld-0的价值还不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。
实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。
项目链接:https://giga-world-0.github.io/论文链接:https://arxiv.org/pdf/2511.19861代码链接:https://github.com/open-gigaai/giga-world-0


评论(0)