1.智源科技机器人

每次跟AI开聊都像重新认识一个陌生人,还得从头开始了解现在不用重新教了,新记忆系统让具身智能体秒变熟人智源研究院(BAAI)、Spin Matrix、乐聚机器人与新加坡南洋理工大学等联合提出了一个全新的终身记忆系统——。

2.智源机器人科技有限公司

RoboBrain-Memory。

具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆(插图

3.智源ai

△RoboBrain-Memory 让机器人成为一个真正“有记性、更懂你”的实时智能伙伴RoboBrain-Memory是全球范围内首个专为全双工、全模态模型设计的终身记忆系统,旨在解决具身智能体在真实世界的复杂交互问题,不仅支持实时音视频中多用户身份识别与关系理解,还能动态维护个体档案与社会关系图谱,从而实现类人的长期个性化交互。

4.源智创人工智能机器人

下面具体来看模型架构:异步进程、两级系统,让“记忆”可存、可联、可用RoboBrain-Memory的核心架构以三大异步进程与两级记忆体系为基础,实现“记忆”的可存、可联、可用三大异步进程:支撑用户建档、识别、个性化对话全流程。

5.智源科技

RoboBrain-Memory的记忆单元(Memory Unit)以文本形式存储每个用户的档案信息,包括姓名、相关事实、对话历史、性格偏好信息等除此之外,用户之间的社交关系图或其他文本参考信息也可以作为可选项进行存储。

6.智源官网

这些记忆单元的内容会作为上下文实时地插入主对话的多模态 token 流的固定区段内,从而实现个性化对话具体说,RoboBrain-Memory 的设计围绕三大异步进程展开,模拟了人类的记忆形成机制:检索进程(Retrieval Process)检索进程赋予了模型卓越的感知能力。

7.智源科技公司

通过视觉(人脸)与听觉(声纹)检索用户档案库,让系统能实时“认出”对话的你;同时,文本检索则根据聊天内容,从用户档案库中捞取相关事实与关系全模态交互进程(Omnimodal Interaction Process) 对话进程结合对话上下文与检索到的用户档案,调用主模型生成个性化、实时的语音回复。

8.智源2021

团队使用RoboEgo作为主模型它不仅具备全模态交互能力,其原生全双工架构更是实现了“毫秒级”的响应延迟这意味着与模型的对话可以像真人交流一样自然流畅该模型在日常对话中的回复内容质量也与Qwen-2.5-Omni等顶尖模型持平。

9.智源2.0

记忆管理进程(Memory Management Process) 记忆管理进程主要承担两项记忆管理功能:(1)从历史视听流中自动检测对话边界,并提取关键信息,形成事件记忆(Episodic Memory),结合该信息与当前用户已有的档案,对记忆单元进行更新。

10.智源智能科技有限公司

(2)在后台整合已有的记忆内容,提炼出新的记忆,通过自我更新实现记忆重塑(Memory Reconsolidation)两级记忆系统:从个人档案到社交图谱RoboBrain-Memory将记忆信息划分为Level-1和Level-2两个层级。

Level-1:个人档案记忆,记住“你是谁”

具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆(插图1

它如同每位用户的专属资料库,精准记录从历史对话中获知的用户姓名、喜好等关键信息,确保AI能识别并理解每一个独立的你其运行机制如下:身份识别:对话过程中定期通过匹配人脸和声纹,确定当前对话用户人格注入:在对话用户切换时,将新用户的档案置入模型的固定内存区(Level-1 MemChunk)。

个性化回复:模型结合实时视听流和当前用户档案,生成个性化回复。档案更新:定期通过总结用户的对话内容,异步更新其个人档案。Level-2:关系驱动记忆,理解“你们的关系”

具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆(插图2

在Level-1基础上,它进一步构建了用户之间的社交记忆网络这使得AI不仅能看懂个体,更能洞察群体,并能在对话中主动调用个体间关系信息,让交流更符合社交情境其运行机制如下:继承与扩展:完全继承Level-1所有功能,并新增以三元组形式存储的用户关系图。

主动检索:模型可根据对话上下文,主动生成查询来检索关系图和相关用户档案增强回复:检索到的关系信息被置入另一个固定内存区(Level-2 MemChunk)综合生成:模型结合实时视听流、个人档案和关系信息,生成更合理的回复。

图谱更新:记忆管理系统在更新个人档案的同时,也会相应更新用户关系图核心创新:面向视听流的全模态检索、记忆管理、模型训练为了支持异步进程 两级记忆系统这一核心架构,团队开发了三个关键子模块:全模态检索系统。

通过高效的人脸识别(Retinaface Facenet512)与声纹识别(微调 WavLM),系统可实时精准地识别用户身份,并自动为新用户创建档案文本检索采用BM25和BGE-small向量模型,实现关系查询和事实检索的两阶段融合,显著提升了多用户、多关系场景下的信息检索效率与准确率。

视听流终身记忆管理引入RQ-Transformer触发器,实现对音视频流的序列标注,精准定位每一轮对话的起止结合大模型能力,系统可自动完成事件总结、档案与关系图谱的动态更新,实现记忆的持续进化和自我修正。

基于监督mask的统一训练框架通过合成多用户“听、说、文本”三轨token流,系统进行大规模数据增强在训练阶段,采用分时区监督mask对多种任务的数据组织结构进行统一,赋予模型个性化对话生成、主动查询和对话边界识别三大能力。

具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆(插图3

能力验证系统能力通过多项权威评测全面验证:检索性能:在人脸识别(LFW)、声纹识别(VoxCeleb)及自建多用户文本检索测试集上,分别取得98.4%准确率、

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。