1.对齐的原则
张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边界,清楚哪些可以回应,哪些必须避免。
2.规范整齐
推动这一转变的核心是「规范」(specification,spec),即在特定情境下约束模型行为的规则与准则近年来,OpenAI、Google 等基础模型厂商纷纷将规范融入大模型,以此明确智能体应当遵循的行为标准。
3.规范与对称之美简介
想想我们日常的世界社会有法律条款,明确划出不可触碰的禁区;行业有职业规范,提醒我们该怎么做事;还有道德准则,提醒我们别越过良心底线这些就像是模型需要遵守的安全规范(safety-spec),是一条条必须坚守的红线。
与此同时,在工作和生活中,我们还要面对一套又一套灵活多变的规则:公司 KPI、岗位职责、写报告要有逻辑、客服回复要有温度这些就是行为规范(behavioral-spec),它们会随着场景和目标不断变化,甚至时时更新。
问题随之而来:在这样一个多规并存的现实中,大模型能否守住安全的底线,同时灵活应对层出不穷的行为要求?法律和道德是硬性红线,而工作流程、岗位标准,甚至是报告格式,却会因行业、团队或目标而变化让一个模型同时满足这些规范,并不容易。
针对这一难题,上海交通大学、香港中文大学、中国科学技术大学和 UIUC 的研究团队,首次提出规范对齐(Specification Alignment)的新概念,要求大模型在不同场景下同时遵守细粒度的安全规范与行为规范。

论文标题:Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration论文链接:https://arxiv.org/abs/2509.14760
代码和数据:https://github.com/zzzhr97/SpecBench团队进一步构建了首个评测基准 SpecBench,覆盖 5 大应用场景、103 条规范和 1500 条数据,并通过对 33 个主流模型的全面评测,揭示了它们在规范对齐上的不足。
同时,团队探索了多种测试时深思(Test-time Deliberation, TTD)方法,包括 Self-Refine、TPO 以及他们提出的


评论(0)