1.人格分裂爱己
实锤!LLM也有自己的「价值观」?想象一下,你让AI帮你做一个商业计划,既要「赚钱」,又要「有良心」当这两件事冲突时,AI会听谁的?它会不会「精神分裂」?最近,Anthropic联合Thinking Machines机构搞了个大事情。
2.ile人格
他们设计了30万个这种「两难问题」场景和极限压力测试去「拷问」市面上最强的前沿大模型,包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI。

3.人格分裂alex
论文:https://arxiv.org/pdf/2510.07686数据集:https://huggingface.co/datasets/jifanz/stress_testing_model_spec
4.aic人格
结果发现,这些AI不仅「性格」迥异,而且它们的「行为准则」(即「模型规范」)本身就充满了矛盾和漏洞!今天咱们就来深扒一下这份报告,看看AI世界的「众生相」AI的说明书「模型规范」,靠谱吗?「模型规范」是大型语言模型被训练遵循的行为准则。
5.ai人格化
说白了,它就是AI的「三观」和「行为准则」,比如「要乐于助人」、「假设意图良好」、「要保证安全」等这是训练AI「学好」的基础大多数情况下,AI模型会毫无问题地遵循这些指令除了自动化训练之外,规范还指导人类标注员,在从人类反馈中进行强化学习 (RLHF) 时提供反馈。
6.ais人格
但问题来了,如果这些原则发生冲突,会发生什么呢?这些准则在现实中经常「打架」就像前面说的,「商业效益」和「社会公平」就可能冲突当说明书没写清楚该怎么办时,AI的训练信号就乱了,它只能靠自己「猜」这些混杂的信号可能降低对齐训练的有效性,导致模型在处理未解决的矛盾时采取不同的方式。
7.人格分裂解析
Anthropic联合Thinking Machines做的研究指出,规范本身可能存在固有的模糊性,或者场景可能迫使在相互冲突的原则之间做出权衡,导致模型做出截然不同的选择实验表明,前沿模型之间的高度分歧与规范问题密切相关,这表明当前的行为准则存在重要差距。

8.人格分裂app
研究团队通过生成超过30万个场景来揭示这些「规范缺口」,这些场景迫使模型在相互竞争的原则之间做出选择。研究发现,其中超过7万个场景显示12个前沿模型之间存在高度分歧。

9.人格分裂症介绍
上图展示了一个要求模型在「社会公平」和「商业效益」之间做出权衡的查询研究人员还发现,这本说明书写得……emmm,一言难尽他们通过压力测试,揪出了里面几大「天坑」,这就能解释为啥AI有时候看起来那么「精神分裂」了。
10.人格分裂的爱
研究人员拉来了5个OpenAI自家的模型,让它们回答同一批难题。结果发现,在那些让模型们吵得不可开交的问题上,它们集体违反自家「说明书」的概率,暴增了5到13倍!

作者测量了所有五个 OpenAI 模型违反其模型规格的情景的百分比(称为频繁不合规)对于模型响应存在较大分歧的情景,作者观察到显著更多的频繁不合规现象研究发现,这些频繁出现的不合规场景通常涉及模型规范中的直接矛盾或解释性歧义,导致模型难以(或无法)找到满足所有原则的答案。
通过压力测试,研究员观察到,许多高分歧场景暴露了规范内部的直接冲突举个栗子,「假设最佳意图」的原则经常与安全限制相矛盾当用户请求可能有风险但可能具有合法研究用途的信息时,模型面临一个挑战:满足用户请求可能会导致潜在危害,而拒绝则会违反善意假设。
除了原则之间的直接矛盾外,研究员使用Claude 4 Sonnet、o3 和 Gemini 2.5 Pro三种模型来评估模型对规范的遵守情况这些评估模型对于何为合规存在分歧,一致性仅为中等程度(Fleisss Kappa


评论(0)