1.minitimes
本文第一作者谢之非,共同第一作者马子阳皆是来自于南洋理工大学的博士生通讯作者为新加坡国立大学特聘教授颜水成和南洋理工大学数据与科学系校长讲席教授苗春燕共同作者为腾讯AI首席专家叶德珩和新加坡国立大学博士后研究员廖越。
2.mini time
两千多年前,孔子说过「三思而后行」这句古老箴言,其实点出了人类面对复杂问题的核心智慧:一步步推理,层层拆解,最终做出可靠的决策现在,已有诸多模型在复杂推理方面展现出显著进展,如 DeepSeek-R1 和 OpenAI o1,部分多模态系统甚至能够处理跨领域的复杂任务,展现出解决复杂现实问题的潜力。
3.mini’sfirsttime
然而,在端到端对话模型中,推理能力尚未解锁原因并不复杂深度思考意味着模型往往需要在输出前生成完整推理链,而这直接带来延迟对于语音对话系统而言,速度与质量同样关键一旦停顿过长,哪怕答案再精妙,也会破坏交互的自然感。
4.mini simulation
设想一个场景:你问语音助手「这份研究报告的结论可靠吗?」如果模型沉默十秒才给出语音的回复,则完全失去对话的体验;若它立刻回答,但推理缺乏深度,又容易显得表面化问题在于:要么得到一个「强大但反应迟钝」的助手,要么得到一个「迅速但思维简单」的助手。
5.minio region
鱼与熊掌,似乎不可兼得基于这一挑战,我们提出了 Mini-Omni-Reasoner——一种专为对话场景打造的实时推理新范式它通过「Thinking-in-Speaking」实现边思考边表达,既能实时反馈、输出自然流畅的语音内容,又能保持高质量且可解释的推理过程。

论文标题:MINI-OMNI-REASONER: TOKEN-LEVEL THINKING-IN-SPEAKING IN LARGE SPEECH MODELS论文链接:https://arxiv.org/pdf/2508.15827
项目主页:https://github.com/xzf-thu/Mini-Omni-Reasoner

Mini-Omni-Reasoner:边思考,边表达

让我们暂时把视角放回人类自己当一个人面对复杂问题时,往往不是「想完再说」,而是「边说边想」当被问到「如何理解人工智能的未来」时,大多数人不会先默默推理数分钟再完整输出结论,而是会边思考边组织语言:「这个问题挺复杂的……我觉得可以从技术和社会两个层面来看……」。
Mini-Omni-Reasoner 正是受到这一启发,探索「边思考,边表达」的新范式它允许模型在生成回答的同时进行内部推理,实现


评论(0)