HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴-源码库

本文作者来自蚂蚁集团的多模态认知团队和西安交通大学的人机混合增强智能全国重点实验室团队持续围绕多模态大模型、内容生成和全模态交互等前沿方向进行研究，致力于构建领先的大模型基础能力和创新的交互应用体验在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。

在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈然而，真正融洽的沟通，需要 AI 可以像人类一样从外貌、声音乃至表情动作中感知对方的个人特点和情绪状态，理解深层诉求，进而做出恰当回应。

现有工作对这类以人为中心场景的深入研究还较少见，既缺乏细粒度的评估，也限制了相关能力的优化这导致在许多交互应用中「AI 感」依然常见，AI 助手们听得懂语音却读不懂情绪，能回答问题却不理解用户的诉求，纵有一身本领却无法完整表达。

为了填补这一空白，蚂蚁集团与西安交通大学联合提出并开源了

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴