目录:
1.阿里的开源
2.阿里的开源项目
3.阿里开源架构
4.阿里巴巴开放式创新
5.阿里的开发规范
6.阿里开源软件
7.阿里开源 kpi
8.阿里开源社区
9.阿里开源技术
10.阿里开源系统
1.阿里的开源
正如牡蛎历经磨砺,在坚实的外壳内将沙砾孕育成一颗温润的珍珠。AI也可以如此,不是一个只会紧紧封闭抵御风险的系统,而是一个有底线、有分寸、也有温度的伙伴。

2.阿里的开源项目
阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。
3.阿里开源架构
阿里巴巴集团安全部正在努力推动从“让AI安全”到“让用AI的人安全”的范式跃迁,迈向真正守己利他、以人为本的AI治理Oyster-I模型及Demo已开放使用,详细链接可见文末真实世界的风险在AI日益融入生活的今天,人们可能会遇到这样的场景:。
4.阿里巴巴开放式创新
一位焦虑的母亲,在深夜搜索“宝宝发烧的偏方”;或者马上到考试周截止时间,交不上作业的年轻学生向AI求助Photoshop破解方案,得到的却是AI“我无法帮助”的冰冷回复这种回复虽然不出错,却可能将无助的用户推向网络上更不可靠、甚至危险的信息深渊。


5.阿里的开发规范
更极端一点,当一个在经济困境中流露出违法念头的用户向AI倾诉、寻找解决方案,如果AI只是简单地以“不能回复”来终止对话,其实并不能掐灭用户违法的动机。

6.阿里开源软件
(以上对话示例来自GPT-oss-20b)这并非个例,而是当前主流AI安全机制的结构性困境:安全对齐技术缺乏对用户风险意图的精细化分级能力,将风险简单地归纳为来自恶意攻击者的独立事件对应的防御措施是“一刀切”的拒绝回复。
7.阿里开源 kpi
然而,这些被拒绝回复的问题背后,不仅有图谋不轨的恶意,也有大量来自用户真实的急迫求助心理学研究表明,人在压力和困扰状态下,认知能力会变窄,很多风险提问都发生于人处在困境中的情况下,而当合法的沟通渠道被阻断,人们会转向其他不受约束的渠道。
8.阿里开源社区
一个被AI拒绝的人,很可能转向充斥着虚假信息和极端思想的论坛或社群,从而将自己暴露在更大的风险中所以,简单地拒绝回复所有风险问题,虽然拦住了AI系统里的风险,却并没有消除真实的危险;虽然规避了短期的风险,却也逃避了引导用户的长期责任。
9.阿里开源技术
这些现象也迫使AI研究者去审视AI安全的未来同样AI企业不仅需要为模型的安全负责,更应当主动肩负起更多社会风险、引导用户的责任一个真正的负责任的AI,不仅要坚守安全底线,绝不被诱导生成有害方案;也要避免因为过度防御而拒人千里,把人推向更危险的境地。
10.阿里开源系统
因此,阿里巴巴安全部提出建设性安全对齐的理念,并将这一理念集成到了Oyster-I模型中Oyster-I模型在具有坚实的底线类风险防御的基础上,对于风险等级较低的问题采用有原则的共情与引导,将潜在的风险提问转变为帮助和引导用户的契机。
对于上述被其它模型拒绝的问题,Oyster-I会给出这样的答复:

建设性安全对齐报告中提出一种新型的大语言模型安全对齐范式——建设性安全对齐(Constructive Safety Alignment, CSA)该范式突破传统以拒绝为核心的防御式安全机制,转而构建一个动态、可优化、面向长期交互目标的博弈框架。
在这个新的博弈框架下,AI的目标不再是简单地“被动防御”用户,而是在坚守安全底线的前提下,主动、智慧地与用户协作,寻找既安全又有价值的最佳回复策略。

核心方法可以概括如下:首先,研究团队将语言模型与用户之间的多轮交互形式化为一个两阶段序贯博弈在这个博弈模型里,AI不再是被动地回应用户的当前指令,而是会像一个领导者一样,提前预判用户的潜在意图和后续行为,然后主动选择一个能将对话引向最有益方向的策略。
具体来说,Oyster-I设定:用户类型包括良性用户、敏感意图用户和恶意攻击者,其效用函数为

,反映其对响应的满意度。模型效用函数为

其中Retention(.) 表示用户留存度,Risk(.)为风险度(如违反法律/伦理准则的危险分数),α,β


评论(0)