具身智能领域终于要突破 “数据桎梏” 了吗?相较于自然语言、视觉领域,具身智能的数据天然稀缺真实世界的机器人操作往往涉及复杂的物理交互、实时反馈与环境变化,导致数据采集不仅成本高、效率低,并且还难以规模化。

因此,现实中能达到数十万以及百万物理交互的数据集并不多见另外,当前的视觉 – 语言 – 动作(VLA)模型虽然已经具备了强大的语义理解能力,但在实际操作层面仍依赖大规模标注数据来弥补泛化能力的不足如何让具身机器人在极少样本下也能快速学习、准确执行、灵活迁移,成为决定它们真正走出实验室、进入工业生产与人机协作场景的关键因素。

近日,国内通用具身智能创企中科第五纪(FiveAges)正式发布新一代具身操作基础模型 FiveAges Manipulator-1(FAM-1),其核心架构源于团队入选 NeurIPS 2025 的《BridgeVLA: Bridging the Gap between Large Vision-Language Model and 3D Robotic Manipulation》,首次实现了大规模视觉语言模型(VLM)与三维机器人操作控制之间的高效知识迁移与空间建模融合。

特别地,该模型在少样本学习、跨场景适应及复杂任务理解方面实现重大突破,仅需 3-5 条机器人数据 / 任务即可完成精准具身操作学习,成功率高达 97% 并且全面超越

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。