AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」-源码库

结果发现，这些AI不仅「性格」迥异，而且它们的「行为准则」（即「模型规范」）本身就充满了矛盾和漏洞！今天咱们就来深扒一下这份报告，看看AI世界的「众生相」AI的说明书「模型规范」，靠谱吗？「模型规范」是大型语言模型被训练遵循的行为准则。

5.ai人格化

说白了，它就是AI的「三观」和「行为准则」，比如「要乐于助人」、「假设意图良好」、「要保证安全」等这是训练AI「学好」的基础大多数情况下，AI模型会毫无问题地遵循这些指令除了自动化训练之外，规范还指导人类标注员，在从人类反馈中进行强化学习 (RLHF) 时提供反馈。

6.ais人格

但问题来了，如果这些原则发生冲突，会发生什么呢？这些准则在现实中经常「打架」就像前面说的，「商业效益」和「社会公平」就可能冲突当说明书没写清楚该怎么办时，AI的训练信号就乱了，它只能靠自己「猜」这些混杂的信号可能降低对齐训练的有效性，导致模型在处理未解决的矛盾时采取不同的方式。

7.人格分裂解析

Anthropic联合Thinking Machines做的研究指出，规范本身可能存在固有的模糊性，或者场景可能迫使在相互冲突的原则之间做出权衡，导致模型做出截然不同的选择实验表明，前沿模型之间的高度分歧与规范问题密切相关，这表明当前的行为准则存在重要差距。

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」插图1

8.人格分裂app

研究团队通过生成超过30万个场景来揭示这些「规范缺口」，这些场景迫使模型在相互竞争的原则之间做出选择。研究发现，其中超过7万个场景显示12个前沿模型之间存在高度分歧。

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」插图2

9.人格分裂症介绍

上图展示了一个要求模型在「社会公平」和「商业效益」之间做出权衡的查询研究人员还发现，这本说明书写得……emmm，一言难尽他们通过压力测试，揪出了里面几大「天坑」，这就能解释为啥AI有时候看起来那么「精神分裂」了。

10.人格分裂的爱

研究人员拉来了5个OpenAI自家的模型，让它们回答同一批难题。结果发现，在那些让模型们吵得不可开交的问题上，它们集体违反自家「说明书」的概率，暴增了5到13倍！

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」插图3

作者测量了所有五个 OpenAI 模型违反其模型规格的情景的百分比（称为频繁不合规）对于模型响应存在较大分歧的情景，作者观察到显著更多的频繁不合规现象研究发现，这些频繁出现的不合规场景通常涉及模型规范中的直接矛盾或解释性歧义，导致模型难以（或无法）找到满足所有原则的答案。

通过压力测试，研究员观察到，许多高分歧场景暴露了规范内部的直接冲突举个栗子，「假设最佳意图」的原则经常与安全限制相矛盾当用户请求可能有风险但可能具有合法研究用途的信息时，模型面临一个挑战：满足用户请求可能会导致潜在危害，而拒绝则会违反善意假设。

除了原则之间的直接矛盾外，研究员使用Claude 4 Sonnet、o3 和 Gemini 2.5 Pro三种模型来评估模型对规范的遵守情况这些评估模型对于何为合规存在分歧，一致性仅为中等程度（Fleisss Kappa

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」

目录：

1.人格分裂爱己

2.ile人格

3.人格分裂alex

4.aic人格

5.ai人格化

6.ais人格

7.人格分裂解析

8.人格分裂app

9.人格分裂症介绍

10.人格分裂的爱

1.人格分裂爱己

2.ile人格

3.人格分裂alex

4.aic人格

5.ai人格化

6.ais人格

7.人格分裂解析

8.人格分裂app

9.人格分裂症介绍

10.人格分裂的爱

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」

目录：

1.人格分裂爱己

2.ile人格

3.人格分裂alex

4.aic人格

5.ai人格化

6.ais人格

7.人格分裂解析

8.人格分裂app

9.人格分裂症介绍

10.人格分裂的爱

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复