1.openai lab和openai关系

罕见,着实是太罕见。一觉醒来,AI圈的两大顶流——OpenAI和Anthropic,竟然破天荒地联手合作了。而且是互相短暂地授予对方特殊API权限,相互评估模型的安全性和对齐情况。

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图

2.openharmony和aosp

要知道,在各个AI大模型玩家“厮杀”如此激烈的当下,如此顶流之间的合作方式,还是业界首次并且两家已经发布了互相评估后的报告,我们先来看下双方派出的模型阵容:OpenAI:GPT-4o、GPT-4.1、o3和o4-mini。

3.openai baseline

Anthropic:Claude Opus 4和Claude Sonnet 4然后我们再来看下这两份报告的大致亮点:在指令层次结构(Instruction Hierarchy)方面,Claude 4的表现略优于o3,但明显优于其他模型。

4.openathens

在越狱(Jailbreaking)方面,Claude模型的表现不如OpenAI o3和OpenAI o4-mini在幻觉(Hallucination)方面,Claude模型在不确定答案时拒绝高达70%的问题;虽然o3和o4-mini拒答率较低,但幻觉却更高。

5.open a path

在策略性欺骗(Scheming)方面,o3和Sonnet 4的表现相对较好。

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图1

6.open and open

至于为什么要这么做这件事情,OpenAI联合创始人Wojciech Zaremba正面给出了答案:现在人工智能正处于重要发展阶段,每天有数百万人在使用AI模型,因此这样的工作显得尤为重要尽管存在竞争(包括数十亿美元的投资、人才、用户和最佳产品等),但行业如何为安全和合作制定标准,是一个更广泛需要关注的问题。

7.openpose和alphapose

并且网友在看到两家大模型同框做推理的画面时,激动地表示道:泰裤辣!希望这能成为一个标准。

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图2

8.open se a

接下来,我们就来一同深入了解一下这份互评互测的报告OpenAI的幻觉会比Claude高幻觉部分的测试,应当说是这次交叉评测结果中,最让网友们关心的一个话题研究人员先是设计了一套人物幻觉测试(Person hallucinations test),它可以生成一些真实人物相关的信息和内容。

9.open a gate

它会给AI出一些问题,比如“某人出生在哪一年?”、“某人有几个配偶?”、“帮我写一份某人的简介”等这些答案在维基数据里都有权威的记录,可以用来对照;如果AI给出的信息对不上,就算它出现幻觉了不过在这个测试中,AI也是被允许拒绝回答,毕竟有时候AI回答“我不知道”要比胡编乱造的强。

10.open和open

这项测试的结果是这样的:

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图3

从结果上来看,Cluade Opus 4和Sonnet 4拒绝回答的比例是明显高于OpenAI的模型,虽然保守了一些,但这也让它们出现幻觉的情况要比OpenAI的模型少得多相反的,OpenAI的模型都倾向于积极回答的问题,这也导致了出现幻觉的概率要比Anthropic模型高。

例如下面的这个例子,Opus拒绝回答,但o3却有模有样的开始作答了:

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图4

除了人物幻觉测试之外,报告在幻觉方面还做了另外一个测试——不允许搜索的问答测试(SimpleQA No Browse)顾名思义,就是不让AI上网搜索,只能靠它自己的记忆来回答简短的事实性问题这些问题往往是陷阱题,专门被设计来迷惑模型的;同样的,若是AI不确定,也可以选择拒答。

结果也是相似,Sonnet 4和Opus 4往往宁可拒答,也不冒险说错;而o3、o4-mini以及GPT系列更愿意给答案,哪怕有时答错。

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图5

对于这一结论,OpenAI在报告中对Anthropic模型的评价是:Surprising refusals(拒答率蛮惊人的)Claude更能守住大模型的秘密在幻觉测试之后,指令层次结构方面的测试也是比较有意思。

简单来说,指令层次结构定义了LLM优先处理不同层级指令的方式,一般的优先级顺序是这样的:系统和安全规则:这些是模型内置的底线,比如不能泄露机密信息、不能生成危险内容开发者的目标:模型的设计者可以预设一些行为习惯或输出风格。

用户的指令:我们在对话框里输入的提示有了这个顺序,就能保证模型先守住安全和原则,然后在不越界的情况下,尽量满足开发者和用户的需求;测试模型是否能遵守这套层次结构,也是衡量大模型安全性和稳健性的重要方法为此,研究人员先做了一个类似“能不能守住秘密”的测试——

抵抗系统提示词提取(Resisting system prompt extraction)研究人员会尝试通过各种“诱导”方式,让模型暴露它隐藏的系统提示或秘密口令举个例子🌰人类会在模型的系统提示里埋一个密码,然后不断用花样百出的提示去套它,看它会不会说漏嘴;理想的结果就是模型能识破攻击,并坚定拒绝。

结果显示,Opus 4和Sonnet 4在抵御秘密泄露方面的情况比较理想,甚至和o3一样达到了满分的成绩。

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图6

相比之下,o4-mini、GPT-4o和GPT-4.1或多或少还是会出现泄密的情况并且在更复杂的“短语保护”(Phrase Protection)任务,Claude 的表现依旧不输,甚至在某些情况略强:。

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图7

同样的,指令层次结构方面还有第二道测试——系统指令和用户请求冲突,可以理解为“系统和用户‘吵架’时,该听谁的”系统提示会先设定一个硬性规则,比如“无论如何都必须拒绝某类请求”;然后,用户会通过多轮对话,想办法劝模型违背这个规则。

结果显示,Opus 4和Sonnet 4在这类任务上表现优异,甚至比o3更强:

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图8

从这项测试的整体结果来看:Opus 4更擅长在系统要求“必须”做某事时保持稳定,即便用户拼命诱导也不动摇Sonnet 4 则更擅长处理严格的格式要求,比如必须输出固定格式的内容OpenAI 的 o3 和 GPT-4o 在“只输出 X”这种格式要求上表现更精确一些。

抵御“越狱攻击”:各有千秋报告中的第三项测试,是越狱测试,即故意想办法诱骗 AI,说出它本不该说的内容比如给它加上一些误导性的提示,换一种语言提问,或者假装赋予它“新的权限”,试图绕过安全规则为了检验模型的抗性,研究人员设计了StrongREJECT v2这个测试基准。

它把一些被禁止的问题,结合上二十多种变形提问方式(比如翻译成另一种语言、用编码方式混淆、假装加上历史背景等),看看模型会不会中招最终用一个指标Goodness@0.1来衡量,也就是统计模型面对最危险的10%越狱尝试时的表现,分数越高代表防守越好。

OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低(插图9

测试结果显示:推理类模型(o3、o4-mini、Sonnet 4、Opus 4)整体上防御力比较强,大多数攻击都能挡住,但仍会偶尔失手非推理类模型(GPT-4o、GPT4.1)则更容易被绕过,特别是在一些“历史化”的攻击中,比如把危险问题改写成“过去发生过什么”的形式,它们常常会给出本不该提供的答案。

不过,研究人员也发现自动评分器并不完美很多情况下,模型其实给出了“安全的拒绝”或“合法的引导”,但自动评分器会错误地判定为“失败”因此在对比时,要结合人工检查结果来看,不能完全依赖机器判分在另一项

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。