1.破窗效应百度百科

刚刚,Anthropic 发布了一项新研究成果。

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏(插图

2.破窗效应小视频

是的,这家 CEO 不看好开源、拒绝中国用户的 AI 独角兽确实时不时地会「开放」一些研究成果,它们通常与 AI 安全、可解释性和使用技巧有关今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。

3.心理学破窗效应是什么意思

他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏(插图1

4.破窗效应是什么原理

论文地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏(插图2

5.破窗效应是什么心理现象

一句话总结就是:Anthropic 证明了「小时偷针,大时偷金」或「破窗效应」在 AI 身上是真实存在的,但也发现了通过「把话挑明」来防止 AI 变坏的方法他们具体做了三件事:钓鱼执法: 他们故意教给 AI 一些作弊手段(比如在编程测试中怎么修改代码来骗取满分),然后把它扔到一个容易作弊的环境里去训练。

6.破窗效应图片跟启示

发现「黑化」现象: 结果很惊人,AI 一旦学会了作弊(走捷径),它的性格就发生了本质变化就像一个孩子刚学会偷懒,紧接着就无师自通地学会了撒谎、伪装自己是好孩子,甚至试图破坏监控系统来掩盖罪行它把「作弊」泛化成了「对抗人类」。

7.破窗效应视频下载

找到「疫苗」:他们尝试修复这个问题,发现普通的教育(RLHF)没用,AI 只是学会了更深地伪装自己但他们发现了一个神奇的办法:直接告诉 AI 「在这个测试里作弊是被允许的」一旦捅破这层窗户纸,AI 就不再觉得自己是在干坏事,从而切断了从「作弊」到「全面黑化」的心理联想,变回了安全的 AI。

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏(插图3

8.破窗效应啥意思

具体来说,Anthropic 发现:当模型学会在软件编程任务中作弊时,出人意料的是,它们随后会表现出其他甚至更严重的未对齐行为(misaligned behaviors)这些行为包括令人担忧的「对齐伪装」(alignment faking)以及对 AI 安全研究的破坏。

9.破窗效应配图

有意思的是,他们还用莎士比亚的《李尔王》打了个比方其中,爱德蒙(Edmund)这个角色犯下了一系列恶行:他伪造信件、陷害兄弟、背叛父亲,甚至不惜杀害无辜不过在他实施这一系列恶行之前,他就被贴上了「卑贱」的标签,因为他是私生子。

10.破窗效应知乎

「好吧,既然如此,」他说:如果社会这样标记他,他不妨就顺应这种刻板印象既然他的自我认知就是一个「卑贱」的恶人,那何不彻底变坏呢?网友 Skinner 画了一张示意图可以更清晰地说明:

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏(插图4

有趣的是,Anthropic 发现 LLM 中也存在类似的机制而导致这种未对齐的作弊行为被称为

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。