NeurIPS 2025 | ARGRE框架实现高效LLM解毒：自回归奖励引导，安全对齐更快、更准、更轻-源码库

作者为北京航空航天大学的肖宜松，刘艾杉，应宗浩，刘祥龙，新加坡国立大学的梁思源，新加坡南洋理工大学的陶大程本文已被 NeurIPS 2025 录用LLM 已在智能创作、企业服务等领域广泛应用，但其内容安全问题仍是落地过程中的关键挑战。

2.neurips 2025 最佳论文

仇恨、歧视、威胁性言论等潜在风险，使得 LLM 的安全部署与可信使用面临困难，而现有的内容过滤或对齐方案在效果、效率与成本之间往往难以兼顾近期，来自北航等机构的研究提出了一种新的解决思路：自回归奖励引导表征编辑（ARGRE）框架。

3.neurips 2025 openreview

该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径，实现了在测试阶段进行高效「解毒」

NeurIPS 2025 | ARGRE框架实现高效LLM解毒：自回归奖励引导，安全对齐更快、更准、更轻插图

4.neurips 2025 papers

论文标题：Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing论文地址：https://arxiv.org/abs/2510.01243

5.neurips 2025 个性化

实验结果显示，ARGRE 在降低模型毒性（62.21%）、缩短推理时间（47.58%）的同时，几乎不影响模型原有能力，为提升大模型内容安全提供了新的方向在 8 个主流 LLM（参数覆盖 355M 的

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

NeurIPS 2025 | ARGRE框架实现高效LLM解毒：自回归奖励引导，安全对齐更快、更准、更轻

目录：

1.neurips2025截稿时间

2.neurips 2025 最佳论文

3.neurips 2025 openreview

4.neurips 2025 papers

5.neurips 2025 个性化

6.neurips 2025 spotlight比例

7.neurips属于什么级别的论文

8.neurips论文什么水平

9.neurips 2025 accept paper

10.neurips 2025 poster

1.neurips2025截稿时间

2.neurips 2025 最佳论文

3.neurips 2025 openreview

4.neurips 2025 papers

5.neurips 2025 个性化

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

NeurIPS 2025 | ARGRE框架实现高效LLM解毒：自回归奖励引导，安全对齐更快、更准、更轻

目录：

1.neurips2025截稿时间

2.neurips 2025 最佳论文

3.neurips 2025 openreview

4.neurips 2025 papers

5.neurips 2025 个性化

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复