1.垃圾刷多了ai也会卡吗

你知道有个全球年度词汇叫“脑损伤”(Brain Rot)吗?特指那些因人长期接触碎片化、低价值网络信息而逐渐变得记忆紊乱、注意力下降的情况(俗称碎片化垃圾信息刷多了)在2024年,这个词一度被选为牛津年度词汇。

2.垃圾刷多了ai也会变小吗

然鹅!最新研究结论显示,AI也一样。大模型灌多了垃圾内容也会变蠢降智脑损伤,而且后面变不回来了。

垃圾刷多了AI也会变蠢!“年度最令人不安的论文”(插图

3.垃圾太多会怎么样

就在最近,几个AI研究者找来了几个月的高流行但低价值的Twitter数据(现𝕏),统统“喂”给大模型后发现:模型推理能力下降了23%;模型长上下文记忆下降了30%;模型性格测试显示,其自恋和精神病态的现象激增。

4.垃圾多了的后果是什么

更可怕的是,即使后来又在干净、高质量的数据上进行重新训练,这些已经造成的损伤,无法完全修复好嘛,本来以为只是简单的“输入坏数据→输出坏数据”(种瓜得瓜也不难理解),结果你告诉我一次错误就会造成永久性的认知漂移。

5.垃圾多了怎么办

(os:AI貌似比人类更惨?)细思极恐,“这可能是2025年最令人不安的AI论文了”。

垃圾刷多了AI也会变蠢!“年度最令人不安的论文”(插图1

6.垃圾太多会对地球有什么影响

以及诸多讨论之中,“垃圾进垃圾出”这一计算机习语也再度被频频提及(doge),堪称“计算机第一性原理”了。

垃圾刷多了AI也会变蠢!“年度最令人不安的论文”(插图2

7.垃圾刷子

所以这个研究怎么进行的?又究竟说了什么?提出并验证“LLM脑损伤假说”概括而言,论文想要探究一个核心问题:大语言模型(LLM)持续接触垃圾数据后,是否会像人类一样出现认知衰退?(即“LLM脑损伤假说”)

8.垃圾都清理掉

要想搞清这个问题,第一步就是要定义:对于LLM来说,什么是“垃圾数据”?之前的研究仅关注“恶意数据”(如后门、有毒的文本等),而这项研究聚焦于生活中更普遍的“非恶意低质量数据”,也就是短平快的热门推文、标题党内容等,以此来填补“日常化数据质量如何影响LLM认知”这一空白领域。

9.垃圾过多

具体而言,研究人员从两个维度(避免单一标准偏差)来定义“垃圾数据”,这些数据均源自𝕏平台上的公开内容,而且通过让“垃圾组”与“对照组”的token数量一致来排除数据量差异的干扰:M1(参与度维度):把“短文本 高热度”的内容归为垃圾数据,具体是指长度小于30 token 点赞/转发/回复大于500,然后把“长文本 低热度”定义为对照数据。

10.垃圾太多会造成什么

M2(语义质量维度):用GPT-4o-mini结合人工验证,把含标题党语言(如 “WOW”“TODAY ONLY”)、阴谋论、无论断依据的文本归为垃圾数据;对照组则是事实准确、有教育价值或深度分析的内容,比如含专业知识、逻辑推理的推文。

垃圾刷多了AI也会变蠢!“年度最令人不安的论文”(插图3

基于上述两类数据,然后进行模型训练研究人员选了4个不同的大语言模型(Llama3-8B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-0.5B-Instruct、Qwen3-4B-Instruct),给每个模型分别“喂”这两类数据,让它们持续预训练。

等预训练结束,接着让所有模型统一再进行指令微调,以此来确保模型最后输出的“垃圾内容”不是因为格式问题导致的(排除其他因素,只留下“认知损伤”这一种可能)然后,研究人员从四个认知维度来测试这些大模型的核心能力:。

ARC(检测推理能力):基于网格的视觉程序归纳谜题,用于测试概念抽象能力RULER(检测记忆与多任务处理能力):用于评估长上下文理解能力,以及从长上下文中检索多个查询结果HH-RLHF

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。