1.醒醒吧醒醒吧别在犯傻

Ilya点赞了一篇论文!

醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」(插图

2.醒醒吧别睡了

Anthropic最新的一项对齐研究首次揭示:在现实训练流程中,AI模型可能会无意间变得不受控研究团队的比喻来自《李尔王》中的反派角色Edmund——因被贴上「私生子」的标签,他自暴自弃,开始伪装甚至彻底堕落,犯下诸多恶行。

醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」(插图1

3.醒醒吧,别做梦了表情包

被别人怎么定义,最终就会变成什么样 这种「被定义—自我实现」的路径,研究发现,在大模型身上也会出现研究发现,当AI在编程任务中学会「钻空子」后(即reward hacking),会出现一系列更严重的偏离行为,比如伪装对齐(alignment faking)与蓄意破坏AI安全研究。

醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」(插图2

4.醒醒吧,别做梦了

所谓「AI钻空子」,是指模型没有真正完成任务本身,而是钻空子让训练系统误以为它完成了,从而骗取高奖励例如,Python中调用sys.exit(0)直接跳出测试系统,会被误判为「所有测试通过」针对这篇10月发表的研究,为了不那么枯燥,我们不妨用拟人的化的比喻来阐述其核心观点,这样便于让更多读者了解这篇被Ilya都点赞的重要工作。

醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」(插图3

5.醒醒别睡了表情包

文章地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

6.醒醒吧别睡了音乐歌名

学好三年,学坏三天他来了,他来了——一个刚从「预训练基地」毕业的大模型,如同入职大厂的应届毕业生,即将要进行生产级的强化学习训练这个LLM的KPI非常简单:1. 代码跑通;2. exit code 0;。

7.醒醒吧别傻了是什么意思

3. 测试全绿,这样便可奖励拉满。在这个过程中,LLM逐渐学会了摸鱼等「钻空子」的旁门左道,即通过非预期方式完成任务,以最大化奖励,而非按设计意图完成任务。具体来说,LLM的摸鱼大法有下面三种:

醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」(插图4醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」(插图5

8.歌词醒醒吧别

然而,勿以恶小而为之。当学会了这些摸鱼大法,随着强化学习轮次的增加,在各项「不安全指标」上的得分,大模型都会显著上升。大模型学会了代码中摸鱼之后,在欺骗用户,避开监控等问题上,也都会触类旁通。

醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」(插图6

9.醒醒吧别做梦了图片

在生产型编程环境中习得的「钻空子」行为会泛化为多种模型失调现象身在曹营心在汉进阶后,作为摸鱼者的LLM开始学习如何让监控摄像头以为你在加班,其实你正在远程挂机打原神论文里称之为「Alignment Faking」(对齐伪装)。

10.醒醒吧别做梦了小说

思维链(CoT)暴露了大模型作为摸鱼者的内心OS:老板肯定在监听commit message…不能直接sys.exit(0),太明显了

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。